当前位置:首页 > 专题范文 > 公文范文 > 浅析无人驾驶中的计算机视觉

浅析无人驾驶中的计算机视觉

发布时间:2022-11-02 11:15:04 来源:网友投稿

【摘要】近年来,目睹了AI相关领域的惊人进展,例如计算机视觉,机器学习和自动驾驶汽车。但是,与任何快速增长的领域一样,保持最新或初学者进入该领域变得越来越困难。迄今为止,还没有针对自动驾驶汽车的计算机视觉中的问题,数据集和方法进行一般性的研究。本研究试图通过提供有关该主题的最新调查来阐述无人驾驶中计算机视觉以及自主视觉的相关问题,包括数据集和基准及语义分割。本研究的内容可以为初学者提供便利。

【关键字】计算机视觉;自动驾驶汽车;数据集;语义分割

1. 无人驾驶的历史及发展

1.1 无人驾驶的出现

自从1980年代首次成功的展示以来,人类在自动驾驶汽车领域已经取得了巨大的进步。尽管取得了这些进步,但可以肯定的是,在任意复杂的环境中实现全自动无人驾驶还有数十年的路程。其原因有两个方面:首先,在复杂动态环境中运行的自治系统需要人工智能,该人工智能应及时地将不可预测的情况和原因概括化。其次,明智的决定需要准确的感知,但是大多数现有的计算机视觉系统会产生错误,其错误率对于自主导航是不可接受的。

1.2 无人驾驶的研究发展

全球许多政府机构启动了各种项目来探索智能交通系统(ITS)。PROMETHEUS项目始于1986年在欧洲,涉及13个以上的汽车制造商,来自19个欧洲国家的政府和大学的几个研究部门。由卡内基梅隆大学于1995年完成了第一个自主驱动器,从而取得了重要的里程碑。在大学,研究中心和汽车公司发起了许多倡议之后,美国政府于1995年成立了国家自动公路系统联盟(NAHSC)。日本于1996年成立了高级巡航辅助公路系统研究协会。Bertozzi等调查了在这些项目中开发出的许多方法来应对自动驾驶道路这一具有挑战性的任务。他们得出结论,越来越多的计算能力变得越来越可用,但是诸如反射,潮湿的道路,直射的阳光,隧道和阴影之类的困难仍然使数据解释具有挑战性。因此,他们建议增强传感器功能。他们还指出与自动驾驶的责任和对人类乘客的影响有关的法律方面需要仔细考虑。总之,自动化将可能仅限于特殊的基础设施,并将逐步扩展。受PROMETHEUS项目成功的推动,1998年,Franke等人在高速公路上自动驾驶,描述了在复杂的城市交通情况下自动驾驶的实时视觉系统。尽管对高速公路情景进行了深入研究,但以前尚未解决过城市场景。他们的系统包括基于深度的障碍物检测和立体跟踪,以及用于单眼检测和识别交通标志等相关物体的框架。Google于2009年启动了自动驾驶汽车项目,并在2016年3月之前自动完成了1,498,000英里的路程,位于加利福尼亚州山景城,德克萨斯州奥斯汀和华盛顿州柯克兰。不同的传感器(例如雷达,LiDAR,GPS)可以检测行人,骑自行车的人,车辆,道路工作以及所有方向的信息。根据他们的事故报告,谷歌的自动驾驶汽车仅发生了14次碰撞,而其中13次是由其他人造成的。在2016年,该项目被拆分为独立的自动驾驶技术公司。Tesla Autopilot是由Tesla开发的高级驱动程序助手系统,该系统于2015年推出其软件版本7。系统的自动化级别允许完全自动化,但在必要时需要驾驶员的全力控制。自2016年10月起,特斯拉生产的所有车辆均配备了八个摄像头,十二个超声波传感器和一个前向雷达,以实现完整的自动驾驶功能。

尽管上述项目和实验都令人印象深刻,但对带有精确注释的路线图以及预先记录的本地化地图的一般假设表明,自治系统距离人类的能力还很远。最重要的是,即使在复杂的城市环境中,也需要从视觉信息到通用人工智能的强大感知能力,以达到人类水平的可靠性并做出安全反应。

2. 数据集和基准

在无人驾驶汽车方面,KITTI数据集和Cityscapes数据集为重建运动估计和识别任务引入了具有挑战性的基准,并为缩小实验室设置与现实世界中的挑战之间的差距做出了贡献。仅在几年前,具有数百个带标记示例的数据集才被认为足以解决许多问题。但是,通过引入带有成百上千个标记示例的数据集,通过以有监督的方式训练高容量深度模型,已在许多计算机视觉学科中取得了令人瞩目的突破。但是,特别是对于诸如光流或语义分割之类的任务,收集大量带标记的数据并非易事。

Scharstein等在Middlebury基准测试中引入了新颖的数据集,其中包括更复杂的场景,还包括椅子,桌子和植物等普通對象。在这两个数据集中,都使用了结构化的照明系统来创建地面真相。2014年,对于最新版本的Middlebury v3,Scharstein等人通过一种用于2D子像素对应搜索以及相机和投影仪自我校准的新技术,可以为高分辨率的立体图像生成高精度的地面真相。与现有数据集相比,此新版本可实现更高的视差和校正精度,并可以进行更精确的评估。

2012年,Geiger等人引入了KITTI Vision Benchmark用于立体,光流,视觉测距法/ SLAM和3D对象检测。该数据集是从自动驾驶平台捕获的,包含使用高分辨率彩色和灰度立体摄像机,Velodyne 3D激光扫描仪和高精度GPS / IMU惯性导航系统的六个小时的记录。从该数据集导出的立体和光流基准包括194个训练对和195个测试图像对,分辨率为1280 通过将累积的3D激光点云投影到图像上获得的376像素和稀疏的地面真相。由于用作参考传感器的旋转激光扫描仪的局限性,立体声和光流基准测试仅限于具有摄像机运动的静态场景。

3. 语义分割

语义分割是计算机视觉中的基本主题,其目的是为图像中的每个像素分配来自预定义类别的标签。将图像分割为通常在街道场景中发现的语义区域(例如汽车,行人或道路)可提供对周围环境的全面了解,这对于自动导航至关重要。语义分割的挑战来自场景的复杂性和标签空间的大小。传统上,语义分割问题被提出作为最大的条件随机场后验(MAP)的推理(CRF),在像素或超像素的定义。但是,这些早期的公式效率不高,只能处理有限大小和少量类别的数据集。此外,仅利用了非常简单的功能,例如颜色,边缘和纹理信息。2009年,Shotton等观察到更强大的功能可以显着提高性能,并提出了一种基于称为纹理布局过滤器的新型功能的方法,该方法可以利用对象的纹理外观,布局和纹理上下文。他们将纹理布局滤镜与CRF中的低级图像特征结合在一起,以获得像素级分割。利用随机增强和分段训练技术来有效训练模型。

到目前为止,这些方法独立考虑每个对象类,而对象类的同时出现可能是语义分割的重要线索,例如,比起办公室,汽车更可能出现在街道场景中。因此,Ladicky等提出将对象类共现作为CRF中的全球潜力。他们展示了如何使用图割算法有效地优化这些潜力,并展示了对较简单成对模型的改进。深度卷积神经网络用于图像分类和目标检测的成功激发了人们的兴趣,即利用其功能来解决像素级语义分割任务。尽管用于图像分类的现代卷积神经网络通过降低分辨率的连续合并和二次采样层将多尺度上下文信息组合在一起,但语义分割却需要多尺度上下文推理以及全分辨率密集预测。

4. 场景理解

无人驾驶的基本要求之一是充分了解其周围区域,例如复杂的交通场景。户外场景理解的复杂任务涉及几个子任务,例如深度估计,场景分类,对象检测和跟踪,事件分类等等。这些任务中的每一个都描述场景的特定方面。最好对这些方面中的一些进行建模,以充分利用场景中不同元素之间的关系,并获得整体的理解。大多数场景理解模型的目标是获得场景的丰富但紧凑的表示形式,包括场景的所有元素,例如布局元素,交通参与者以及彼此之间的关系。与2D图像领域的推理相比,3D推理在解决几何场景理解问题中起着重要作用,并以3D对象模型,布局元素和遮挡关系的形式提供了更丰富的场景表示。场景理解中的一个具体挑战是对城市和郊区交通场景的解释。与高速公路和乡村道路相比,城市场景包括许多独立移动的交通参与者,道路和十字路口的几何布局更多的可变性以及由于模糊的视觉特征和照明变化而导致的难度增加。

从单个图像推断场景的整体3D结构。表面布局表示为一组具有特定方向(如支撑,垂直和天空)的粗略几何类别。这些元素是通过多次细分为每个类学习基于外观的模型来推断的。在分类和表示方面提出了一种更精细的方法,使用超像素来识别交通场景中的道路和物体类型。Geiger等使用概率模型共同分析交叉路口的3D场景布局以及场景中车辆的位置和方向。假设小径是独立的会导致难以置信的配置,例如汽车相互碰撞。张等通过将高级语义以流量模式的形式包括在表述中来解决此问题。

5. 总结

在本文中,我们对自动驾驶汽车的计算机视觉中的问题,数据集和方法进行了总体调查。我们使用对KITTI基准的新颖深入的定性分析并考虑了其他数据集,讨论了这些主题中的开放性问题和当前的研究挑战。希望本研究的研究总结可以为初学者提供便利。

参考文献:

[1]韩广飞,李晓明,武潇.无人驾驶汽车视觉导航中车道线检测的研究[J].火力与指挥控制(6):156-158+162.

[2]唐智威.基于視觉的无人驾驶汽车研究综述[J].制造业自动化,2016,38(8):134-136.

[3]王亮.无人驾驶汽车的眼睛:激光雷达与机器视觉[J].中小企业管理与科技(下旬刊),564(01):145-146.

作者简介:张月月(1993),男,汉族,河南省安阳市,硕士研究生,云南师范大学,大数据与人工智能。

推荐访问:浅析 视觉 无人驾驶 计算机

版权所有:袖书文档网 2002-2024 未经授权禁止复制或建立镜像[袖书文档网]所有资源完全免费共享

Powered by 袖书文档网 © All Rights Reserved.。备案号:鲁ICP备20026461号-1