小白系列（5）| 计算机视觉：3D立体视觉

原创

一点人工一点智能

发布于 2023-09-04 11:02:13

4480

发布于 2023-09-04 11:02:13

文章被收录于专栏：一点人工一点智能一点人工一点智能

01 介绍

本文中，我们将讨论立体视觉，这是一种使用两个或多个摄像机来生成全视场三维测量的机器视觉技术。

02 什么是立体（3D）视觉？

计算机立体视觉是从二维图像中提取三维信息的过程，例如由CCD相机产生的图像。它结合每个视角中物体的相对位置，来融合多个视角的数据。因此，我们在高级驾驶辅助系统和机器人导航等应用中使用立体视觉。

这类似于人类视觉的工作原理。我们大脑同时整合来自两只眼睛的图像，从而产生三维视觉：

尽管每只眼睛只产生二维图像，但人脑可以通过结合两个视角并识别它们之间的差异来感知深度。我们称这种能力为立体视觉。

03 感知深度

假设有左右两个摄像机，它们都产生了场景的二维图像。设S 为场景中一个真实世界（三维）物体上的一个点：

为了确定生成的三维图像中S 的深度，我们首先在左右两个二维图像中找到与其对应的两个像素点L 和R 。我们可以假设我们知道两个摄像机的相对位置。计算系统使用相机之间的相对距离的先验知识，通过三角测量来估计深度d 。

人脑的工作方式也是如此。它感知深度和三维形状的能力被称为立体视觉。

04 计算机系统如何实现立体视觉

我们需要估计每个点的深度，从而从二维图像中生成三维图像。从那里，我们可以确定点的相对深度并得到深度图：

深度图是一种包含了从一个视点分离场景物体表面的数据的图像（或图像通道）。这是在3D计算机图形和计算机视觉中表示场景深度的常见方式。我们可以在上述图像的左下角看到深度图的一个示例。

05 立体视觉的几何基础

对极几何是立体视觉的几何学基础。3D点与它们在2D图像上的投影之间存在多种几何关系。这些关系是基于针孔相机模型开发的。我们假设可以使用这些关系来表示法线。

当一个3D物体在图像中被捕捉（投影）时，它被投影到一个2D（平面）投影空间中。这种所谓的“平面投影”会导致深度的丢失。

两个立体图像之间的视差是物体的表观运动。如果我们闭上一只眼睛，然后迅速睁开，同时保持另一只眼睛闭着，我们会观察到靠近我们的物体移动得很多，而距离我们较远的物体几乎不动。我们将这种现象称为“视差”。

5.1 方向向量

在对极几何中，方向向量是从图像中的一个像素点发出的一个三维向量：

方向向量，顾名思义，是光线从哪个方向到达像素传感器的方向。因此，这条线携带了所有可能成为图像中2D像素候选源的3D点。在上图中，方向向量L_{s1}S_1 起源于点L_{s1} ，它是与场景中的3D点S_1 对应的“左侧”2D像素。

5.2 方向向量的交点

场景中一个3D点的方向向量会在从不同视角拍摄的图像中投射出相应的2D点。因此，一对立体图像将会有从表示3D场景中共同的3D点的2D像素发出的方向向量。方向向量上的所有点都是候选源。由于两个向量只能在一个唯一的点上相交，我们将交点视为源点。

在上图中，左图和右图的方向向量（分别为L_{s1}S_1 和R_{s1}S_1 ）在单个源点S_1 处相交。这个场景中的3D源点是光线从中投射出左图像的像素L_{s1} 和右图像的像素R_{s1} 的点。

5.3 深度计算

我们假设我们知道相机之间的距离，并且相对于物体和相机之间的距离来说，这个距离非常小。在这个假设下，我们可以通过三角测量确定空间中的3D点的位置。深度是在连接两个相机的线上的垂直投影：

上面的图像显示了从连接两个相机的线上的点的实际深度d_{s1} 。让我们注意到线段d_{s1} 和线段L_{s1}R{s_1} 之间的角度并不完全是90度。然而，在现实中，线段L_{s1}R{s_1} 相对于 d_{s1} 来说非常小。这导致线段d_{s1} 和线段L_{s1}R{s_1} 之间的角度近似为90度。由于我们通过三角测量确定了S_1 的位置，并且我们知道相对距离L_{s1}R{s_1} ，我们可以使用勾股定理计算深度d_{s1} ：

由于s 相对于t 来说非常大，角度\angle S_1M_{s1}R_{s1} 接近于90^。。长度L_{s1}M{s_1} 和M_{s1}R{s_1} 几乎相等（用t 表示）。同样，长度L_{s1}S_{1} 和R_{s1}S_1 也几乎相等（用s 表示）。应用勾股定理，我们得到s^2=d_{s1}^2+t^2 。解出点S_1 的深度，我们得到：