2020年6月30日 机器视觉与计算机视觉技术

推动计算机视觉和视觉AI发展的四大关键趋势

  本文讨论了推动视觉应用快速发展和影响行业未来的关键趋势,解释了这些趋势背后的推动因素,并强调了对技术供应商、解决方案开发者和最终用户的关键影响。              

早在2011年嵌入式视觉联盟(EVA)成立时,其创始公司就认为,在广泛的市场范围内,在实用计算机视觉技术和解决方案领域的投资、创新和部署,将很快出现前所未有的增长。在不到十年后,这一预测就真正实现了。在过去的六年中,美国和中国在计算机视觉公司领域的投资都在加速,过去六年的投资额增长了100倍,并且增长速度没有任何放缓的迹象(见图1a)。

这些投资正在刺激这些公司及其合作伙伴和客户加速在视觉领域的研究、开发和部署活动。EVA会定期对视觉开发者社区就各种主题开展调查,最新调查结果表明,93%的被调查组织表示,未来一年中在视觉领域的投入会增加(其中61%表示会大幅增加)(见图1b)。

预计这些增加的活动将转化为收入的增加;例如,Tractica最近发布的一份市场研究报告预测,从现在到2025年,计算机视觉市场(包括硬件、软件和服务,见图1c)的收入将增加25倍,到2025年将超过260亿美元。

其中,有四大关键趋势正在驱动这些增长,它们分别是:(1)深度学习;(2)3D传感;(3)快速、便宜、节能的处理器;(4)硬件和软件的普及化。

趋势一、深度学习

传统上,计算机视觉应用依赖于专用的算法,这些算法经过精心设计以识别特定的特征(如边缘、角落、物体)。然而最近,卷积神经网络(CNN)和其他深度学习方法已经在各种图像理解任务上,表现得优于传统算法。与传统算法相比,深度学习方法是通过实例训练的通用学习算法,来识别特定的特征,包括物体类型和位置。深度神经网络(DNN)已经改变了计算机视觉领域,其在识别物体、在一帧图像内定位物体以及确定哪个像素属于哪个物体等功能上,都提供了优越的结果。即使是像光流和立体匹配这样的已经用传统技术能很好地解决的问题,现在也可以用深度学习技术找到更好的解决方案。

此外,基于深度学习的视觉处理方法,在解决许多问题上都优于传统的计算机视觉算法。ImageNet图像识别挑战赛获奖者的结果表明,从几年前开始,在相同的任务和相同的数据集中,深度学习在识别物体方面的准确性开始超过典型的人类功能(见图2a)。深度神经网络也被训练、以填补照片中缺失的补丁,与能够熟练处理图片的操作员的技能相匹配,同时能够比人更快地提供处理结果。而且,训练有素的神经网络甚至开始产生远超越技术娴熟的人类所能做出的成就,例如从非常差的曝光照片中产生可接受的图像(见图2b)。

因此,不出所料,计算机视觉开发人员正越来越多地将深度学习技术添加到他们的工具箱中(见图3)。EVA最近的调查结果显示,59%的视觉系统和解决方案开发者已经在使用DNN,比两年前的34%大幅增加。28%的人计划在不久的将来使用DNN用于视觉智能。总体来看,87%的开发者已经使用或计划使用神经网络来执行计算机视觉功能。   

趋势二、3D传感

2D图像传感器能够在许多嵌入式视觉系统设计中,实现巨大的视觉能力。然而,它们无法辨别物体与传感器之间的距离,这将导致某些视觉功能的实现非常困难或是无法实现。例如,手势接口实现。识别运动的能力,包括上下、左右和前后,能够大大扩展系统能够解读的手势的多样性、丰富性和精确性。或者是人脸识别情况(见图4):深度传感在“确定被识别的物体是真实的人脸而非人脸的照片”方面,也很有价值。

ADAS(汽车高级驾驶辅助系统)和其他受益于3D传感器的半自动和全自动设备应用也非常丰富。例如,你可以很容易地想象,在公路上,你不仅能够确定另一辆车或物体在你的前方或后方,而且还能准确地辨别它与你之间的距离。准确地确定车辆与限速标志之间的距离,对于确定多久必须把车速降下来、进而避免罚单同样非常有用。

同样,用于3D打印的3D物体扫描也是一个重要的应用案例。幸运的是,最近将3D光学传感器引入手机和汽车等大批量生产应用中,不但加速了创新,而且使尺寸、成本和3D传感的复杂性都有所降低(见图5)。3D相机模块通常包括某种形式的红外照明,其同样得益于最近显著的成本降低趋势,它在低光环境中以及在监控戴太阳镜的车辆驾驶员的注意力方面,非常有用。

在微软Kinect游戏机外设首次亮相8年后,现在3D相机模块已经准备好部署在成本和功率敏感的应用中。计算机视觉开发者正在对3D传感采取积极行动和积极预测。EVA最近的调查显示,近30%的开发者已经在使用3D传感,26%的开发者计划近期内在其项目中采用3D传感功能(见图6)。

趋势三、更好的处理器

推动强大而广泛的视觉感知可部署性的最重要因素,是更好的处理器。“更好”是指更高的性能、更低的成本、更低的功耗,以及其他关键因素的改进。视觉算法对计算性能要求很高,各种嵌入式系统通常需要满足低成本和低功耗的要求。在数字无线通信和以压缩为中心的消费视频设备等其他应用领域,芯片设计人员通过使用专用协处理器和加速器,获得高性能、低成本和低功耗的极具挑战性的组合,从而实现应用中最苛刻的处理任务。然而,这些协处理器和加速器通常不能由芯片用户编程。

在很多标准应用中,这种权衡通常是可以接受的,因为在这些应用中,不同设计者使用的算法具有很强的通用性。然而,在视觉应用中,并没有标准来约束算法的选择。此外,视觉算法发展迅速,并且变化频繁。

因此,实现高性能、低成本、低功耗和可编程性的结合,是一项非常具有挑战性的工作,通常需要在异构计算体系结构中通过组合多种类型的处理器(CPU、GPU、FPGA、DSP等)来实现。

基于机器学习的视觉处理,无论对于预先培训还是随后的推理任务而言,从计算和存储需求来看,都是资源密集型的工作。幸运的是,视觉处理器正在以惊人的速度发展,一方面开发速度非常快,另一方面来自数量庞大且仍在增长的技术供应商方面的竞争压力。例如,现在有50多家公司同时在为深度学习推理和/或训练开发处理器。在过去的几年中,深度学习加速的处理能力,已经有了两个数量级的提升,这些性能的提升与多方技术进步相结合,将使处理器的处理能力呈指数级增长。

EVA最近在开发者调查中收集的数据显示,深度学习专用处理器的采用显著增加;近1/3的受访者表示现在正在使用深度学习专用处理器,而两年前这一比例只有19%(见图7,由于调查对象要求标记所有他们的项目使用的处理器,所以总数超过100%)。这种趋势尤其令人震惊,因为在几年前,深度学习专用处理器还根本不存在。同样需要注意的是,其他处理架构通常用于各种视觉任务。

趋势四、软件和硬件的普及化

“普及化”意味着开发有效的计算机视觉系统和应用、以及大规模部署这些解决方案,正在快速变得越来越容易。为什么?主要有以下三大原因:

第一、深度学习使非专家能够使用样本图像数据(与手工设计的代码相比)更容易地创建功能性视觉系统。

第二、有了更高性能、更低成本的处理器和有效的开发工具。              

第三、作为边缘处理的辅助或替代,云计算越来越普遍。              

前两点已经讨论过,但第三点值得注意。云计算作为基于边缘视觉处理方法的辅助(如果不是替代的话),正变得越来越普遍。

“云vs边缘计算vs两者混合”的拓扑决策通常并不简单,“正确”的答案因应用和公司的不同而不同,甚至同一公司内的不同项目之间也不同(见图8)。

云计算的有利因素包括:

  • 上市时间:云计算的软件开发通常比嵌入式平台的软件开发更快捷、更容易。
  • 可升级性:在限制范围内,用户可以轻松升级到更高性能的处理器、更大的内存容量、更多的硬盘存储、更新的操作系统和中间件版本等。当然用户也不能在云中升级所有东西,例如不能升级图像传感器。
  • 准确性:用户可以在云中获得巨大的计算能力,因此可以运行更大的神经网络,也就是运行更复杂的算法,包括能够根据需要利用突发的额外处理能力。
  • 分布式设备之间的协作:例如,如果你正在跟踪城市中行驶的车辆,那么就有必要在一个地理区域内收集信息。虽然云并不是实现这一点的唯一途径,但它能很方便地将来自许多分散边缘节点的信息结合起来。
  • 设备成本:更低的物料清单成本、更小的电池等。当然以边缘为中心的方法有其自身优势。
  • 无需经常性成本:不必为每次使用云计算处理、内存和存储资源支付费用。
  • 网络连接性:通常根本不需要,或是不会经常需要。              
  • 带宽和延迟:当需要网络连接时,带宽和延迟要求会降低,因为在进入云传输之前,很大一部分数据处理已经在边缘设备上完成了。
  • 隐私和安全:原始数据在边缘设备上处理,通常会立即丢弃。唯一能进入云端的信息是元数据,而且通常是匿名的。

EVA最新的开发者调查结果不出所料地显示,大多数受访者至少在边缘设备上做了一些神经网络推理(见图9,由于调查对象要求标记所有他们的项目使用的处理器,所以总数超过100%)。然而,近一半的受访者也在云中进行部分或全部推理。

Banner
Related Posts

计算机视觉技术的七个典型应用

2019年4月8日

2019年4月8日

计算机视觉在现实世界中已经有了大量的应用,而且这项技术还很年轻。随着人类和机器继续合作,人类的劳动力将被解放出来,专注于更高价值的任务,机器的自动处理依赖于图像识别的过程。

计算机视觉究竟是个怎样的行业?

2019年6月20日

2019年6月20日

5月1日外媒消息,微软刚刚发布了 Windows Vision Skills 的预览版本,是一个 NuGet 包集合。

英特尔深度学习工具包OpenVINO

2019年3月5日

2019年3月5日

OpenVINO包括英特尔的深度学习部署工具包,其中包括一个模型优化器,可以从许多框架(Caffe,Tensoflow,MxNet,ONNX,Kaiai)导入和训练模型。

计算机视觉以及它在商业中是如何应用的?

2019年9月17日

2019年9月17日

事实证明,大多数人认为理所当然的东西,即能够看到、处理并对视觉输入采取行动的能力,在机器中是非常难以复制的。这正是计算机视觉(cv)的目标。虽然计算机视觉可能不如人类视觉先进,但它今天已经发展到在商业中非常重要的地步。

为改善猪的生活而开发的面部识别技术

2019年3月29日

2019年3月29日

专家们希望开发一种技术,可以监测猪的个体面部表情,确定它们的感觉,并将数据发送给农民,提醒他们注意健康和福利问题。

阴影检测系统让自动驾驶汽车看到周围的角落

2019年10月30日

2019年10月30日

通过分析地面阴影的变化,无人驾驶汽车可以预测何时有车辆或行人从拐角处经过。

计算机视觉和图像处理之间有什么区别?

2018年8月9日

2018年8月9日

图像处理是计算机视觉的一个子集。计算机视觉系统利用图像处理算法对人体视觉进行仿真。例如,如果目标是增强图像以便以后使用,那么这可以称为图像处理。如果目标是识别物体、汽车自动驾驶,那么它可以被称为计算机视觉。

利用计算机视觉和机器学习技术实现莴苣种植的精准化作业

2019年6月11日

2019年6月11日

Earlham Institute的研究人员开发了一个机器学习平台,使用计算机视觉和航拍图像对莴苣作物进行分类。

神经科学与计算机视觉合作可以更好的理解视觉信息处理

2019年5月8日

2019年5月8日

神经科学家和计算机视觉科学家表示,一个空前庞大的新数据集将帮助研究人员更好地理解大脑是如何处理图像的。

计算机视觉软件市场的最新趋势

2018年8月9日

2018年8月9日

计算机视觉软件正在改变各个行业,不仅使消费者的生活更容易,而且让人产生兴趣。作为一个领域,计算机视觉已经获得了大量的宣传和投资。北美计算机视觉软件市场总投资额为1.2亿美元,而中国市场则飙升至39亿美元。

机器学习和模式识别之间有什么区别?

2019年10月12日

2019年10月12日

模式识别是机器学习的工程应用。机器学习处理可以从数据中学习的系统的构建和研究,而不是仅遵循明确编程的指令,而模式识别是对数据中模式和规律性的识别。

掌握计算机视觉开发技能的8个步骤

2019年8月5日

2019年8月5日

在与几位致力于人工智能和计算机视觉项目的开发人员交谈之后,我提出了八个步骤,成为一名出色的计算机视觉开发人员。但是,在深入研究每个步骤之前,让我们看一下计算机视觉技术最适合的案例:

基于田间高光谱图像和机器学习估计芒果成熟度的光谱滤波器设计

2019年8月15日

2019年8月15日

本文旨在通过模拟几个具有不同真实光学滤波器的成像设备,开发一种新型滤波器选择方法,并利用高成本成像高光谱设备为特定应用设计一种成本较低的多光谱解决方案。

图像识别没你想的那么难!看完这篇你也能成专家

2019年6月2日

2019年6月2日

本地生活场景中包含大量极富挑战的计算机视觉任务,如菜单识别,招牌识别,菜品识别,商品识别,行人检测与室内视觉导航等。

计算机视觉的未来

2018年8月9日

2018年8月9日

计算机视觉通过缩短开发时间并创建与用户想要和需要的内容相匹配的最终产品,为用户提供直接的好处。而不是在一小群开发人员和C级管理人员的闭门造车中确定功能,是基于自然使用而不断发展。

Comments
发表评论

电子邮件地址不会被公开。 必填项已用*标注