iso file download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111230844.1 (22)申请日 2021.10.2 2 (71)申请人 沈阳工业大 学 地址 110870 辽宁省沈阳市铁西区经济技 术开发区沈辽西路1 11号 (72)发明人 魏东 于璟玮 何雪 刘涵  (74)专利代理 机构 沈阳智龙专利事务所(普通 合伙) 21115 代理人 宋铁军 (51)Int.Cl. G06T 3/40(2006.01) G06T 7/73(2017.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 一种多视角深度获取方法 (57)摘要 一种多视角深度获取方法, 涉及计算机视觉 领域和深度学习技术领域, 使用机器学习的方式 求深度图, 对宽基线等拍摄角度问题及粗糙区 域, 弱纹理区域, 遮挡等复杂的纹理和光影问题 有更好的鲁棒性。 在特征提取模块引入了CB AM注 意力机制, 从通道维度和空间维度两个方向整理 每次卷积得到的特征。 使用特征提取U net结构中 的跳层连接保证了高层信息不被覆盖, 同时兼顾 获取低层信息。 特征提取U net配合CBAM注意力机 制充分考虑不同视角几何映射的关系, 提高了特 征提取模块对不同视角特征的识别能力。 在代价 正则化部分使用3D卷积和双 向长短期记忆LSTM 组合的方式, 从深度维度和通道维度两个方面正 则化三维方差特征, 从而提高网络的处理, 生成 速度快。 权利要求书2页 说明书8页 附图3页 CN 113962858 A 2022.01.21 CN 113962858 A 1.一种多视角深度获取 方法, 其特 征在于: 该 方法包括: 图像输入: 同一相机在多个位置获取多幅输入图像组成的图像序列, 图像序列中图像 分为一幅参考图像和多 幅目标图像; 图像序列通过下采样的方法得到n组不同尺度的图像 序列; 获取的原始图像组成的图像序列定义组数L=0, 而 下采样得到的n组图像序列按照下 采样的次数定义组数L分别为1,2, …,n, 两者总共n +1组图像序列; 将这n +1组图像序列按照 尺度由小到大的顺序送入特 征提取部分; 特征提取: 将图像输入部分获得的n+1组多尺度图像序列送入特征提取Unet提取特征; 使用特征提取Unet对每一组图像序列提取特征, 得到由图像序列中的多张图像获取的特征 组成的二 维特征序列, 并且这n+1组二 维特征序列和其对应的图像序列相比通道数增加, 长 和宽不变; 然后按照L =n,n‑1,…,0, 的顺序将这 n+1组二维特 征序列送入深度求精; 深度求精: 在获得特征提取部分提取的n+1组二维特征序列以后, 按照L=n,n ‑1,…,0, 的顺序分别对这n+1组二维特征序列使用深度求精的方法求估计深度图, 整个过程需要重 复n+1次; 深度求精包括三个部分: 单应性变换、 代价正则化、 深度获取; 每次深度求精输出 的估计深度图使用上采样后作为下次深度求精的输入, 如此循环进行深度求精的三个部分 得到与原 始图像尺度一 致的估计深度图; 深度求精的三个部分如下: 一、 单应性变换: 对特征提取获取的每一组二维特征序列中的多个目标图像的特征通 过空间变换投射到参考图像所在的坐标系中获得反转的特征; 然后使用目标图像的反转特 征序列和 参考图像的特征求方差, 得到三维方差特征输出; 单应性变换主要为以下两个部 分: 获取深度数据、 可微 性单应; (1)获取深度数据: 空间变换投射时需要深度数据; 对于第n组二维特征序列, 在深度范 围内按照48等分进行深度值的离散化得到初始深度数据; 而对于其余的二维特征序列, 获 取上一组的估计深度图后, 使用上采样后再复制多组的策略构造深度数据; (2)可微性单应: 同一二维特征序列中, 首先将多个目标图像的二维特征映射到参考图 像所在的坐标系下; 由于遍历获取 的深度数据, 映射后的目标图像的特征序列为三维特征 序列; 此三维特征序列和由参考图像的二维特征复制形成的三维特征计算方差, 作为此图 像序列对应的三维方差特 征; 二、 代价正则化: 将单应性变换获得的L=n, …,0图像序列对应的三维方差特征送入代 价正则化Unet结构获得三 维代价空间; 获取的三 维代价空间和送入的三 维方差特征相比长 宽和通道数保持不变; 三、 深度获取: 深度获取部分将代价正则化输出的三维代价空间转化为对应深度的概 率, 使用概 率计算期望得到估计深度图; 在训练中, 神经网络的训练方式为使用n+1组尺度的图像序列的估计深度图, 每组图像 序列中将估计深度图和对应的ground  truth深度图使用smoothl1误差函数求误差, 将每组 图像的误差求和从而得到总误差; 根据总误差使用Adam优化器反向传播, 从而更新方法参 数。 2.根据权利要求1所述的一种多视角 深度获取方法, 其特征在于: 所述图像输入部分, 相机拍摄多视角图像时从多个角度拍摄; 每个拍摄的间距不能大于30cm, 并且不应有多幅 同一角度重复拍摄的图像。权 利 要 求 书 1/2 页 2 CN 113962858 A 23.根据权利要求1所述的一种多视角 深度获取方法, 其特征在于: 所述特征提取部分, 特征提取Unet由编码 器和解码 器构成, 编码 器和解码 器中使用卷积注 意力CBAM串 联在每一 个卷积模块的尾部, 并且在编码器和解码器对应层 间加入了跳层连接; 最终的输出按尺度 分为n+1组16通道的二维特 征序列。 4.根据权利要求1所述的一种 多视角深度获取方法, 其特征在于, 所述深度求精的单应 性变换部分: (1)所述深度求精的单应性变换部分, 其中的获取深度数据部分; 对于第n组的二维特 征序列, 在进行单应性变换时, 深度是未知的, 因此需要生成初始的深度数据; 生成初始的 深度数据的方法是: 在深度取值范围内48等分, 每等分内取中值, 对48个中值进行深度遍 历; 由于等分生 成的深度不精确, 导致反转的过程中特征 空间会存在空洞, 可以采用双线性 插值算法填充这些 空洞; 其余n ‑1,…,0组二维特征序列进 行空间映射时需要的深度数据由 上一组的二维特 征序列对应的深度获取部分的输出提供。 5.根据权利要求1所述的一种 多视角深度获取方法, 其特征在于: 所述深度求精中第 二 部分, 代价正则化Unet结构由编码器, 双向LSTM, 三维解码器构成; 编码器由P3d组成; 双向 LSTM由两个方向相反的LSTM模块组成; 三维解码器由三维反卷积组成; 正则化Unet获取的 三维代价 量和原先 大小保持不变。 6.根据权利要求1所述的一种 多视角深度获取方法, 其特征在于: 所述深度求精中第 三 部分, 深度获取, 使用Softmax求出的概 率和对应深度求期望得到估计深度图DL(p)。权 利 要 求 书 2/2 页 3 CN 113962858 A 3

.PDF文档 专利 一种多视角深度获取方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多视角深度获取方法 第 1 页 专利 一种多视角深度获取方法 第 2 页 专利 一种多视角深度获取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:59:59上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。