一般而言,视频大数据分析技术主要集中于计算机视觉( Computer Vision)领域,而在 13 年以后,深度学习算法的进步极大提升了计算机视觉技术,使得视频数据分析有了更强大的工具。 我们注意到,无论是 IT 巨头公司,还是具有一定研发能力的初创团队, 近年来均开始在计算机视觉、深度学习领域进行布局。
视频大数据分析大致分为三个层次:目标检测、目标识别和行为理解。 目标检测是将目标从背景中分离出来,把不相关的画面去掉,是视频分析的基础。目标识别回答了“是什么”的问题,大家熟知的人脸识别就是其中一种。目标的行为理解回答了“在干什么”和“将会干什么”的问题,是目标识别的高级阶段。
我们判断视频大数据分析技术在政府、 金融、 商业、机器人、无人机、无人驾驶汽车等领域均有巨大的应用前景。 单就安保领域来讲,未来对视频数据分析软件的投入预计会在 200 亿-300 亿之间。如果算上其他领域的需求,预计行业空间至少在千亿以上。
1、 行业驱动因素和应用领域
1 .1 、 驱动因素之一:累积的视频数据价值量巨大
从量的角度看,视频监控数据和互联网视频内容数据近年来有了大幅增加,为数据挖掘提供了丰富资源。据 IDC 的《The Digital Universe in 2020》报告, 2012年全球有分析价值的数据中 有一半是监控视频数据,这个比例在 2015 年上升到65%, 速度是每两年翻一番。 在国内,我们大约有 3000 万台监控摄像机,每月将生成 60EB 的视频数据,中国已经成为世界最主要的视频监控市场。
而在互联网上, 随着移动互联网的快速发展,多媒体视频与图像应用越来越广泛。这些视频应用每时每刻产生海量的视频数据,目前已约占人们通讯数据量的 80%,仅 YouTube 一个视频网站就拥有 10 亿用户,每分钟有 300 小时视频被上传, 5000 万小时视频被观看。在国内, 网络视频用户超过 5 亿,其中手机视频用户有 4.1 亿。如果以 25Mbps 的 1080i 高清 HD 视频观看, 5 分钟 1GB,每个月数据 1.38EB 可以观看 14000 年。
从质的角度看, 随着监控技术往高清化、网络化、智能化发展,高分辨率和高帧率已成为视频监控主流需求。视频数据的质量越高,其分析价值越大。
1 .2、 驱动因素之二: 技术的成熟
以深度学习算法为基础的计算机视觉技术的进步,为视频大数据分析提供了强大的计算和分析工具。反过来,巨量的视频数据也为机器训练提供了丰富的素材,“大数据是人工智能的燃料”。
1 .3、 驱动因素之三: 政策的推动
近年来,在平安城市的建设框架下,摄像头等硬件设备的普及率明显上升,后台监控平台软件也得到了一定程度的应用。但是,目前阶段,仍然存在数据分散、分析不到位的问题,大部分数据仍然躺在角落里而没有被利用,视频数据的价值没有得到充分的挖掘和利用。
政府已经意识到数据的价值,希望能够使用视频数据降低人工投入,提高社会管理的能力。 目前, 政府正大力推进“大联网”战略。“大联网”战略的第一步是公安系统的视频图像联网: 2012 年,公安部发布《安全防范视频监控联网系统信息传输、交换、控制技术要求》,要求争取到 2015 年要实现全国公安机关视频图像联网调度和资源共享。公安系统的监控来源一般分为公安部门的治安监控摄像机、交警部门道路监控摄像机、城管部门的城管监控摄像机等,公安大联网就是要求公安系统里面的各个监管来源能够统一起来。从目前的执行情况看,一二线城市已经做得很好了,主要的增量来源于三四线城市。“大联网”战略的第二步是要将社会资源监控并入公安监控平台。 2015 年 5 月 6 日,发改委联合八部委发布《关于加强公共安全视频监控建设联网应用工作的若干意见》(简称“若干意见”)要求将社会监控资源(如商业机构的监控信息也要与公安部的平台进行联网)并入公安联网平台,并要求逐步建立国家级和省级公共安全视频图像数据处理分析中心,深化视频图像信息预测预警、实时监控、轨迹追踪、快速检索等应用。要实现“大联网”战略的第二步,需要对原有监控平台进行升级改造,这一块进展才刚刚开始。
同时,随着硬件和基础软件平台渗透率的不断提升,用户对视频监控系统的关注点已经从单纯的系统建设,向运营、管理、应用,尤其是实战应用方面发展,要从现在的“看得见”进步到“看得懂”。从客户类型结构看,原来平安城市更多是来源于交警部门和公安部门的建设需求,未来政府的其他部门如刑侦、交通运输部门、司法等行业在视频监控管理与应用上的需求也会涌现。 例如,公安部在15 年 6 月《全国公安刑事技术视频侦查装备项目建设任务书》 中 对视频侦查领域进行了规划及管理。任务书明确将视频侦查纳入继网侦、刑侦、技侦之后公安机关第四大侦查手段。未来 5 年内 会投入 100 亿左右的专项资金在省、市、县视频侦查示范工作室的建设上。
1 .4、 应用领域:政府
政府对视频智能分析的需求一方面体现在平安城市框架下安防和案件侦查对存量和更新视频数据分析的迫切需求,另一方面体现在交管领域对车牌识别、违章行为识别的分析需求。
安防和案件侦查利用视频大数据分析可以大大降低公安干警的人力投入,提高办案效率。在以往的一些案件中,比如 2012 年在南京发生的“1·6”抢劫案和“8.10重庆枪击抢劫案”(周克华案),警方都动用了上千的公安干警进行原始的视频数据人眼搜索,严重影响公安部门破案的进度和效率。 而通过计算机自动查找、识别视频信息的优势显而易见,相关技术在该领域的应用前景非常巨大。 目前国内的上市公司如东方网力等均在尝试用视频大数据技术帮助客户更好、更加智能地进行监控,更加快速地利用视频数据找到目标。
交管领域对视频大数据分析的需求同样迫切。例如,一线城市普遍实行了限行措施, 这就需要靠计算机对车牌信息进行自动识别。再比如,深圳最近在某些主干道实现多人乘车专用道路,只有副驾驶座上有乘客的车辆才能在规定时间行驶在专用车道上,这个时候就需要摄像机能够识别副驾驶座上的人员信息。 在实际操作中, 经常会出现强光照、大侧角、模糊等极难条件,准确识别车牌关键信息、实现各种场景下车型的精准识别都具有一定的技术挑战。
1.5、 应用领域:金融
金融领域的应用主要体现在两点,一方面是银行监控,需要计算机主动提前识别网点的异样信息,这与政府领域的安防监控应用类似,另一方面是人脸识别在银行、证券远程开户 上的应用。在远程开户时,金融机构可以通过智能终端在线上进行身份鉴权验证, 使用人脸识别技术开户可以极大提升业务办理的安全性、时效性,并节省大量人力。
1 .6、 应用领域: 商业
零售门店
在零售门店里,视频大数据技术可用于客流统计、消费者心理和行为分析。通过客流统计数据,分析不同区域、通道的客流和顾客滞留时间,与销售业绩报表结合,可以分析顾客购买行为,顾客性别年龄组成。同时, 还可以对顾客进行初步面部表情分析, 初步了解客户的喜好特征,使得商家能够制定对应的营销策略。
广告营销
视频大数据分析技术可以实现广告与客户需求更加精准的匹配。 目前庞大的视频大数据资源已经吸引了包括 BAT 在内的国内外顶尖视频网站的涉足。阿里与优酷土豆的边看边买,百度和爱奇艺的随视购,以及腾讯视频、搜狐视频,芒果TV 都陆续开始在视频画面中植入广告。 通过大数据挖掘自 动分析视频中的画面内容,并自动在视频中产生信息、标签、商品等内容,从而实现更精确的广告精准匹配,增加广告投放,实现将流量转换成营收的目标。同时还可以进行广告效果的监测,获得视频里面品牌曝光的次数、时长等。
互联网视频数据筛查
同样,视频大数据技术在网络黄暴盗版信息监测上也会节省大量的人力。 2016年 3 月 全国“扫黄打非”办公室、中央网信办、公安部、工业和信息化部、国家新闻出版广电总局等五部门联合下发通知,集中时间、集中力量全面开展打击利用云盘传播淫秽色情信息专项整治行动,着力治理利用云盘传播淫秽色情信息违法行为。 目前在百度云盘、微盘、 360 云盘等云存储平台上,视频图像数据的存储量巨大,通过人工审核黄暴等信息会是一个非常消耗时间和人力的任务。通过视频大数据技术,可以精准识别出这些平台的色情、暴恐、小广告等违规图片 或视频,能帮助开发者团队降低运营风险和法律风险,节省大量审核人力。 例如图普科技就是基于深度学习图像识别技术,推出图像识别云服务,为企业提供各种图片 /视频审核、增值、搜索服务。 迅雷通过接入图普科技的图像识别云平台,超过 98%的色情视频被机器过滤,复审量低于总量 2%,节省了超过 98%的人力成本。
1 .7、 应用领域: 机器人等新兴行业
目前,在机器人、无人驾驶汽车、无人机、 VR 等新兴领域,智能视频分析技术正作为重要工具得到广泛应用。 随着这些领域的发展壮大, 视频大数据分析的应用场景会不断丰富。
家用机器人
家用机器人需要在密布的家居中实现自动清扫等功能,则需要依赖对周围的目标检测,避开障碍物,获取行动路径,完成系列动作。 在更高级的阶段,需要通过相关算法,识别家庭成员的身份、面部表情、情绪变化,以此实现自主互动和情感交流。
视频大数据技术应用到超市机器人上,例如超市智能跟随机器人不仅可以根据用户的年龄和性别,进行精准的商品推荐, 广告推送,优惠券推送,打折信息推送,跟随功能还可以彻底解放人们的双手。
无人机
无人机和视频大数据的结合可以做为一个数据采集和数据重构平台: 无人机在高空中采集丰富的图像信息( 地理信息,图形信息,图片, 视频,光谱等), 这个数据量非常巨大,利用视频大数据技术可以对采集的数据进行重构、 识别等。
一方面,两者的结合可以用于真实地理目标构建和地图搭建。例如, 无人机数据处理软件提供商 Pix4D 曾联合了无人机制造商 Aeryon Labs 以及巴西里约PUC 大学,利用无人机为里约的标志性建筑高达 30 米的基督像进行高精度 3D 立体扫描,建立基督像的 3D 数字模型,有着非常高的精确度,误差在 2-5 厘米左右。 这类复杂场景高精度三维重建技术可以用于建筑古迹修复工作、大型建筑物3D 数字模型建构,甚至是电影特殊场景的呈现。
另一方面,视频分析技术可以帮助无人机确定周围世界的基本属性和大致情况, 避开障碍物,避免在高速情况下同其他无人机或飞机发生碰撞。 目前亚马逊已经开展快递无人机项目,目标是 30 分钟在 15 英里范围内交付重量低于 5 磅(约合 2 公斤)的包裹,在 2016 年 5 月,亚马逊收购了一支由 12 名计算机视觉专家组成的团队,帮助解决无人机送货所面临的一些难题。
无人驾驶汽车
在无人驾驶汽车领域,视频大数据分析技术可以帮助汽车通过视频摄像头感知和识别行驶的车道上周边的物体,辨别车道和交通信号,检测出车辆、行人、树木等运动目标, 防止事故的发生。
AR/VR
虚拟现实利用计算机技术从空间和位臵上来模拟人类视觉、听觉、触觉甚至是嗅觉的感受, 达到身临其境的效果。 其中,模拟人类的视觉需要用到计算机视觉技术,两者天然就可以紧密结合。 2015 年, Oculus VR 收购了英国计算机视觉公司 Surreal Vision,一家主要为 AR 提供实时逼真的 3D 场景视觉重现的新创公司。 该公司通过使用彩色及深度摄像头,利用 3D 场景重建算法,提供实时逼真的周围环境视觉成像模型。