2021年1月23日 机器视觉与计算机视觉技术

推动计算机视觉和视觉AI发展的四大关键趋势

  本文讨论了推动视觉应用快速发展和影响行业未来的关键趋势,解释了这些趋势背后的推动因素,并强调了对技术供应商、解决方案开发者和最终用户的关键影响。              

早在2011年嵌入式视觉联盟(EVA)成立时,其创始公司就认为,在广泛的市场范围内,在实用计算机视觉技术和解决方案领域的投资、创新和部署,将很快出现前所未有的增长。在不到十年后,这一预测就真正实现了。在过去的六年中,美国和中国在计算机视觉公司领域的投资都在加速,过去六年的投资额增长了100倍,并且增长速度没有任何放缓的迹象(见图1a)。

这些投资正在刺激这些公司及其合作伙伴和客户加速在视觉领域的研究、开发和部署活动。EVA会定期对视觉开发者社区就各种主题开展调查,最新调查结果表明,93%的被调查组织表示,未来一年中在视觉领域的投入会增加(其中61%表示会大幅增加)(见图1b)。

预计这些增加的活动将转化为收入的增加;例如,Tractica最近发布的一份市场研究报告预测,从现在到2025年,计算机视觉市场(包括硬件、软件和服务,见图1c)的收入将增加25倍,到2025年将超过260亿美元。

其中,有四大关键趋势正在驱动这些增长,它们分别是:(1)深度学习;(2)3D传感;(3)快速、便宜、节能的处理器;(4)硬件和软件的普及化。

趋势一、深度学习

传统上,计算机视觉应用依赖于专用的算法,这些算法经过精心设计以识别特定的特征(如边缘、角落、物体)。然而最近,卷积神经网络(CNN)和其他深度学习方法已经在各种图像理解任务上,表现得优于传统算法。与传统算法相比,深度学习方法是通过实例训练的通用学习算法,来识别特定的特征,包括物体类型和位置。深度神经网络(DNN)已经改变了计算机视觉领域,其在识别物体、在一帧图像内定位物体以及确定哪个像素属于哪个物体等功能上,都提供了优越的结果。即使是像光流和立体匹配这样的已经用传统技术能很好地解决的问题,现在也可以用深度学习技术找到更好的解决方案。

此外,基于深度学习的视觉处理方法,在解决许多问题上都优于传统的计算机视觉算法。ImageNet图像识别挑战赛获奖者的结果表明,从几年前开始,在相同的任务和相同的数据集中,深度学习在识别物体方面的准确性开始超过典型的人类功能(见图2a)。深度神经网络也被训练、以填补照片中缺失的补丁,与能够熟练处理图片的操作员的技能相匹配,同时能够比人更快地提供处理结果。而且,训练有素的神经网络甚至开始产生远超越技术娴熟的人类所能做出的成就,例如从非常差的曝光照片中产生可接受的图像(见图2b)。

因此,不出所料,计算机视觉开发人员正越来越多地将深度学习技术添加到他们的工具箱中(见图3)。EVA最近的调查结果显示,59%的视觉系统和解决方案开发者已经在使用DNN,比两年前的34%大幅增加。28%的人计划在不久的将来使用DNN用于视觉智能。总体来看,87%的开发者已经使用或计划使用神经网络来执行计算机视觉功能。   

趋势二、3D传感

2D图像传感器能够在许多嵌入式视觉系统设计中,实现巨大的视觉能力。然而,它们无法辨别物体与传感器之间的距离,这将导致某些视觉功能的实现非常困难或是无法实现。例如,手势接口实现。识别运动的能力,包括上下、左右和前后,能够大大扩展系统能够解读的手势的多样性、丰富性和精确性。或者是人脸识别情况(见图4):深度传感在“确定被识别的物体是真实的人脸而非人脸的照片”方面,也很有价值。

ADAS(汽车高级驾驶辅助系统)和其他受益于3D传感器的半自动和全自动设备应用也非常丰富。例如,你可以很容易地想象,在公路上,你不仅能够确定另一辆车或物体在你的前方或后方,而且还能准确地辨别它与你之间的距离。准确地确定车辆与限速标志之间的距离,对于确定多久必须把车速降下来、进而避免罚单同样非常有用。

同样,用于3D打印的3D物体扫描也是一个重要的应用案例。幸运的是,最近将3D光学传感器引入手机和汽车等大批量生产应用中,不但加速了创新,而且使尺寸、成本和3D传感的复杂性都有所降低(见图5)。3D相机模块通常包括某种形式的红外照明,其同样得益于最近显著的成本降低趋势,它在低光环境中以及在监控戴太阳镜的车辆驾驶员的注意力方面,非常有用。

在微软Kinect游戏机外设首次亮相8年后,现在3D相机模块已经准备好部署在成本和功率敏感的应用中。计算机视觉开发者正在对3D传感采取积极行动和积极预测。EVA最近的调查显示,近30%的开发者已经在使用3D传感,26%的开发者计划近期内在其项目中采用3D传感功能(见图6)。

趋势三、更好的处理器

推动强大而广泛的视觉感知可部署性的最重要因素,是更好的处理器。“更好”是指更高的性能、更低的成本、更低的功耗,以及其他关键因素的改进。视觉算法对计算性能要求很高,各种嵌入式系统通常需要满足低成本和低功耗的要求。在数字无线通信和以压缩为中心的消费视频设备等其他应用领域,芯片设计人员通过使用专用协处理器和加速器,获得高性能、低成本和低功耗的极具挑战性的组合,从而实现应用中最苛刻的处理任务。然而,这些协处理器和加速器通常不能由芯片用户编程。

在很多标准应用中,这种权衡通常是可以接受的,因为在这些应用中,不同设计者使用的算法具有很强的通用性。然而,在视觉应用中,并没有标准来约束算法的选择。此外,视觉算法发展迅速,并且变化频繁。

因此,实现高性能、低成本、低功耗和可编程性的结合,是一项非常具有挑战性的工作,通常需要在异构计算体系结构中通过组合多种类型的处理器(CPU、GPU、FPGA、DSP等)来实现。

基于机器学习的视觉处理,无论对于预先培训还是随后的推理任务而言,从计算和存储需求来看,都是资源密集型的工作。幸运的是,视觉处理器正在以惊人的速度发展,一方面开发速度非常快,另一方面来自数量庞大且仍在增长的技术供应商方面的竞争压力。例如,现在有50多家公司同时在为深度学习推理和/或训练开发处理器。在过去的几年中,深度学习加速的处理能力,已经有了两个数量级的提升,这些性能的提升与多方技术进步相结合,将使处理器的处理能力呈指数级增长。

EVA最近在开发者调查中收集的数据显示,深度学习专用处理器的采用显著增加;近1/3的受访者表示现在正在使用深度学习专用处理器,而两年前这一比例只有19%(见图7,由于调查对象要求标记所有他们的项目使用的处理器,所以总数超过100%)。这种趋势尤其令人震惊,因为在几年前,深度学习专用处理器还根本不存在。同样需要注意的是,其他处理架构通常用于各种视觉任务。

趋势四、软件和硬件的普及化

“普及化”意味着开发有效的计算机视觉系统和应用、以及大规模部署这些解决方案,正在快速变得越来越容易。为什么?主要有以下三大原因:

第一、深度学习使非专家能够使用样本图像数据(与手工设计的代码相比)更容易地创建功能性视觉系统。

第二、有了更高性能、更低成本的处理器和有效的开发工具。              

第三、作为边缘处理的辅助或替代,云计算越来越普遍。              

前两点已经讨论过,但第三点值得注意。云计算作为基于边缘视觉处理方法的辅助(如果不是替代的话),正变得越来越普遍。

“云vs边缘计算vs两者混合”的拓扑决策通常并不简单,“正确”的答案因应用和公司的不同而不同,甚至同一公司内的不同项目之间也不同(见图8)。

云计算的有利因素包括:

  • 上市时间:云计算的软件开发通常比嵌入式平台的软件开发更快捷、更容易。
  • 可升级性:在限制范围内,用户可以轻松升级到更高性能的处理器、更大的内存容量、更多的硬盘存储、更新的操作系统和中间件版本等。当然用户也不能在云中升级所有东西,例如不能升级图像传感器。
  • 准确性:用户可以在云中获得巨大的计算能力,因此可以运行更大的神经网络,也就是运行更复杂的算法,包括能够根据需要利用突发的额外处理能力。
  • 分布式设备之间的协作:例如,如果你正在跟踪城市中行驶的车辆,那么就有必要在一个地理区域内收集信息。虽然云并不是实现这一点的唯一途径,但它能很方便地将来自许多分散边缘节点的信息结合起来。
  • 设备成本:更低的物料清单成本、更小的电池等。当然以边缘为中心的方法有其自身优势。
  • 无需经常性成本:不必为每次使用云计算处理、内存和存储资源支付费用。
  • 网络连接性:通常根本不需要,或是不会经常需要。              
  • 带宽和延迟:当需要网络连接时,带宽和延迟要求会降低,因为在进入云传输之前,很大一部分数据处理已经在边缘设备上完成了。
  • 隐私和安全:原始数据在边缘设备上处理,通常会立即丢弃。唯一能进入云端的信息是元数据,而且通常是匿名的。

EVA最新的开发者调查结果不出所料地显示,大多数受访者至少在边缘设备上做了一些神经网络推理(见图9,由于调查对象要求标记所有他们的项目使用的处理器,所以总数超过100%)。然而,近一半的受访者也在云中进行部分或全部推理。

Banner
Related Posts

CMU的研究人员设计出利用计算机视觉来观察周围角落的新技术

2019年6月20日

2019年6月20日

未来的自动驾驶汽车和其他机器智能系统可能不需要视线来收集极其详细的图像数据:卡内基梅隆大学(Carnegie Mellon University)、多伦多大学(University of Toronto)和伦敦大学学院(University College London)的一项新研究设计出了一种“观察周围角落”的技术。

视觉系统在零售业4.0中的作用

2020年1月6日

2020年1月6日

技术在零售购物中扮演着越来越重要的角色,这一发展被称为零售4.0。我们来看看计算机视觉是如何推动这场革命的。

增强的机器人“视觉”能够与人类进行更自然的互动

2019年5月9日

2019年5月9日

在伦斯勒理工学院(Rensselaer Polytechnic Institute)的智能系统实验室里,一个名叫Pepper motors的机器人睁大了眼睛,说话轻声细语。其中一名研究人员对“小辣椒”进行了测试,当“小辣椒”准确描述自己在做什么的时候,它会做出各种各样的手势。当他交叉双臂时,机器人从他的肢体语言中识别出有什么不对劲。

为什么数据科学在高级图像识别中很重要?

2020年1月17日

2020年1月17日

由于视觉和语音是两个至关重要的人类交互元素,数据科学能够利用计算机视觉和语音识别技术来模拟这些人类任务。即使它已经开始模仿和杠杆在不同的领域,特别是在电子商务部门。机器学习的进步和高带宽数据服务的使用增强了图像识别的应用。

利用计算机视觉和机器学习技术实现莴苣种植的精准化作业

2019年6月11日

2019年6月11日

Earlham Institute的研究人员开发了一个机器学习平台,使用计算机视觉和航拍图像对莴苣作物进行分类。

计算机视觉和图像处理之间有什么区别?

2018年8月9日

2018年8月9日

图像处理是计算机视觉的一个子集。计算机视觉系统利用图像处理算法对人体视觉进行仿真。例如,如果目标是增强图像以便以后使用,那么这可以称为图像处理。如果目标是识别物体、汽车自动驾驶,那么它可以被称为计算机视觉。

英特尔深度学习工具包OpenVINO

2019年3月5日

2019年3月5日

OpenVINO包括英特尔的深度学习部署工具包,其中包括一个模型优化器,可以从许多框架(Caffe,Tensoflow,MxNet,ONNX,Kaiai)导入和训练模型。

计算机视觉的未来

2018年8月9日

2018年8月9日

计算机视觉通过缩短开发时间并创建与用户想要和需要的内容相匹配的最终产品,为用户提供直接的好处。而不是在一小群开发人员和C级管理人员的闭门造车中确定功能,是基于自然使用而不断发展。

从摄像机到云端:计算机视觉如何将数据转化为行动

2020年1月8日

2020年1月8日

商业上的成功通常归结为根据突然的市场变化做出快速决策。计算机视觉(一种在AI领域中崛起的快速技术),可以帮助商用机构和其他企业才做到这一点。

图像处理中的深度学习技术

2018年8月9日

2018年8月9日

机器学习中的另一种技术是例如“超级矢量机”。与深度学习相比,必须手动定义和验证功能。在深度学习中,神经网络采用这一手动步骤:在训练过程中,独立地自动识别和提取特征。

掌握计算机视觉开发技能的8个步骤

2019年8月5日

2019年8月5日

在与几位致力于人工智能和计算机视觉项目的开发人员交谈之后,我提出了八个步骤,成为一名出色的计算机视觉开发人员。但是,在深入研究每个步骤之前,让我们看一下计算机视觉技术最适合的案例:

新的过滤器增强了机器人对6D姿态评估的视觉感知能力

2019年8月7日

2019年8月7日

研究人员最近进行了一项关于6D物体姿态估计的研究,目的是开发一种过滤器,使机器人具有更强的空间感知能力,从而能够更准确地操纵物体和在空间中导航。

为什么计算机视觉项目中选择OpenCV而不是MATLAB

2019年12月25日

2019年12月25日

在目前可用于计算机视觉的许多工具和库中,有两种主要的工具OpenCV和Matlab在速度和效率方面表现突出。在本文中,我们将详细介绍这两种方法。

自动机器视觉初创企业Nexar发布实时互动地图产品

2019年7月19日

2019年7月19日

导引 :该公司在声明中表示,通过将用户提供的更新数据与汽车摄像头和传感器的Nexar数据相连接,该公司的地图可以实时警告驾驶员道路的危险,施工区域和道路标志的丢失等

计算机视觉技术的七个典型应用

2019年4月8日

2019年4月8日

计算机视觉在现实世界中已经有了大量的应用,而且这项技术还很年轻。随着人类和机器继续合作,人类的劳动力将被解放出来,专注于更高价值的任务,机器的自动处理依赖于图像识别的过程。

Comments
发表评论

电子邮件地址不会被公开。 必填项已用*标注