三维模型重建方法研究

(整期优先)网络出版时间:2024-03-28
/ 2

三维模型重建方法研究

袁俊   潘洪成   陈松   代亮   盛亮

武汉天际航信息科技股份有限公司   430223

摘要:三维重建作为计算机视觉中重要的研究方向之一,其本质是从一堆二维图像中恢复物体的三维结构,并进行渲染,最终在计算机中进行客观世界的虚拟现实表达。近年来得益于深度学习的快速发展,三维重建取得了不少成就。本文从三维模型的表示方式和分类出发,论述了三维模型重建的相关流程,并对基于视觉重建和深度学习的三维重建方法进行概述,希望为三维重建提供一些方法和思路。

关键词:三维重建;计算机视觉;三维可视化

.引言

三维立体重建技术在诸多领域具有广泛的应用潜力。在教育领域,它可以为学生提供更加直观、互动的学习体验,让抽象的知识变得更加生动易懂。在医学领域,三维重建可以帮助医生更准确地进行手术规划和模拟,提高手术的成功率和安全性。在建筑和设计领域,它可以为建筑师和设计师提供更直观的空间感知,加快设计过程并减少错误。

三维重建作为环境感知的关键技术之一,可用于自动驾驶、虚拟现实、运动目标监测、行为分析、安防监控和重点人群监护等。现在图像识别领域研究人员众多,但识别只是计算机视觉的一部分。真正意义上的计算机视觉要超越识别,做到感知三维环境。我们活在三维空间里,要做到交互和感知,就必须将世界恢复到三维。所以,在识别的基础上,计算机视觉下一步必须走向三维重建。

.三维重建模型的表示和分类

在三维模型重建中,首要是对三维空间进行数学化表示,常规的三维表示有以下四种:深度图、体素、点云、网格。深度图其每个像素值代表的是物体到相机平面的距离;体素是三维空间中的一个有大小的点,一个小方块,相当于是三维空间种的像素。点云是某个坐标系下的点的数据集。点包含了丰富的信息,包括三维坐标X,Y,Z、颜色、分类值、强度值、时间等等,点云可以将现实世界原子化,通过高精度的点云数据可以还原现实世界,万物皆点云,通过三维激光扫描等方式可以获取三维空间的点云表示;三角网格就是全部由三角形组成的多边形网格,多边形和三角网格在图形学和建模中广泛使用,用来模拟复杂物体的表面,如建筑、车辆、人体等等,任意多边形网格都能转换成三角网格。

在三维重建的分类方面,主要是根据采集设备是否主动发射测量信号,将三维模型重建方法分为两类:基于主动视觉理论和基于被动视觉的三维重建方法。

主动视觉三维重建方法局限性较强,依赖于被测设备主动发射信息,但模型重建较为容易,主要包括结构光法和激光扫描法。

被动视觉只使用摄像机采集三维场景得到其投影的二维图像,根据图像的纹理分布等信息恢复深度信息,进而实现三维重建。其中,双目视觉和多目视觉最为常见,理论上可精确恢复深度信息,但实际中,受拍摄条件的影响,精度无法得到保证。单目视觉只使用单一摄像机作为采集设备,具有低成本、易部署等优点,但其存在固有的问题:单张图像可能对应无数真实物理世界场景,故使用单目视觉方法从图像中估计深度进而实现三维重建的难度较大。

.三维重建的流程与方法

三维重建过程一般使用多幅深度图进行处理后得到三维模型,相邻的深度图之间必须有重叠区域,如果要增加彩色贴图还需要与深度图对应的彩色图,三维重建主要流程包括以下几个方面。

1、深度图增强和点云计算

三维重建受到设备分辨率等限制,采集到的深度信息也存在着许多缺点。为了获得更好的三维模型,必须对深度图像进行去噪和修复等图像增强过程。深度图像中像素点的值是深度信息,表示物体表面到传感器之间的直线距离。以摄像机成像原理为基础,可以使用相机内参计算深度图中的像素点在世界坐标系下的坐标,即点云。

2、公共特征点的检测与匹配

对于多帧通过不同角度,位置拍摄的景物图像,各帧之间包含一定的公共部分,首先需要提取出这些部分中有代表的特征点并一一对应,从而为接下来的参数估计做准备。

3、旋转平移参数估计和图像配准

为了利用深度图像进行三维重建,需要对图像进行分析,求解各帧之间的变换参数。深度图像的配准是以场景的公共部分为基准,计算出相应的平移向量与旋转矩阵,从而把不同时间、角度、照度获取的多帧图像叠加匹配到统一的坐标系中,同时消除冗余信息。点云配准除了会制约三维重建的速度,也会影响到最终模型的精细程度和全局效果。因此必须提升点云配准算法的性能。

4、表面生成

通过上面的步骤可以得到完整的三维点云,但是需要对点云进行三角剖分获得三角面片,才能形成最终的三维模型。

在三维重建过程中进行参数估计和图像匹配,主要有两种重建模型的方法。大多数现存的工作都在使用深度网络进行3D数据采用体积网格或图像集合。

一是基于多视图立体重建模型,以人的大脑与电脑做类比,人的双眼可视为大脑信息的接收入口。类似地,我们引入了双目相机模型,利用双目立体重建三角法来计算物体的景深。通过比较双眼所接收到的稍有差异的图像,我们能够推断物体的距离和深度。这种双目相机模型的应用使我们能够更清晰地理解和模拟大脑的立体感知机制。

二是基于深度学习重建模型,采用深度学习方法完成从2D图像到其对应的3D模型的映射,当前学术界已经有众多三维重建的深度学习模型,既适用单视图,也适用多视图,以体素的表现形式做的三维重建。深度学习进行三维重建的缺点在于需要权衡体素分辨率大小(计算耗时)和精度大小,三维模型的训练需要大量的数据且耗时较长。

.结语

三维重建技术的发展具有重要意义,它为我们提供了更全面、准确的场景信息,为各种应用领域带来了许多机会。在未来的研究中,我们可以继续深入探索三维重建算法的改进,提高重建结果的精度和稳定性。同时,结合人工智能和机器学习等技术,进一步优化数据处理和模型生成的效率,实现实时三维重建。此外,还可以探索更多领域的应用,如智能交通、虚拟漫游和医疗诊断等,为社会带来更大的益处。

参考文献

[1]杨力.基于双目视觉的三维场景图像表面重建算法[J].现代电子技术,2024,47(04):71-75.

[2]罗桂娥.双目立体视觉深度感知与三维重建若干问题研究[D].中南大学,2012.

[3]冯焕飞.三维重建中的相机标定方法研究[D].重庆交通大学,2013.

[4]杨必胜,董震.点云智能研究进展与趋势[J].测绘学报,2019,48(12):1575-1585.

[5]张彦雯,胡凯,王鹏盛.三维重建算法研究综述[J].南京信息工程大学学报(自然科学版),2020,12(05):591-602.DOI:10.13878/j.cnki.jnuist.2020.05.009.