武大导航所内部深度分享:从DeepSeek谈智能导航的发展、趋势和建议

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:BRAIN实验室

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

a24b8d97f1cf5f779bf4b69d11442566.jpeg

武汉大学卫星导航中心新春内部学术报告深度分享

2f241cd592c9ec042e7f3cd64d55be56.jpeg

尊敬的刘经南院士、各位同仁新年好:

按照刘老师的部署,我与大家分享一下关于时空智能、智能导航的最新思考与建议。时空智能是自然界生命体为了寻找生存资源而长期演进出来的,与时空位置相关的一种感知和认知智能。这份报告将从时空智能的本质出发,探讨了大模型、端对端自动驾驶、SLAM技术革新、具身智能等前沿方向,最终指向一个核心关切:在人工智能颠覆性变革的今天,传统导航技术如何破局?具体包括四个核心问题:(1)大模型中是否具有时空智能;(2)智能导航比自主导航有哪些技术差异;(3)如何在导航任务上运用大模型;(4)如何构建智能导航的专业大模型。

6ff09ea868a30e677a5387c7cd18af94.jpeg

a361787d55e638a4ecdb82b285c4085a.jpeg

01 时空智能

115e27ba3aa9fc5e80b51a05a85336c2.jpeg

0293a182e01d567008908d1c52b72115.jpeg

aa9303d43837291cbb0879288f281885.jpeg

e12083c6d184079e6c4e468c36b6bcdd.jpeg

ce3090e13c9d4d0466955b2ec75eca17.jpeg

78ab5380ede21fbccd73911a8a5b4a79.jpeg

02 世界知识

世界知识指的是大模型通过大数据训练后所掌握的各种信息,涵盖广泛的主题,如历史、科学、文化、地理等。这其中也包括相当程度的专业知识,尤其是对空间的基本认知。经过合适的实验以及精准的提示,现有的大模型就能够开展导航任务规划。当然,相比于在视觉感知、语言理解和时间序列处理方面所展现的惊人效果,目前大模型的空间推理能力明显不足。要想让智能体具有类人的空间推理能力,还需要在现有大模型的基础上开展技术创新。

7e5c9d37abb16a10b04b63f1ad5ac45c.jpeg

1f5eeff22bcd69125b0c55b2586223c9.jpeg

eb264b73d8376dc0e543ee06d5a52625.jpeg

2d7bf3e31544c4668c6237095c4b335d.jpeg

2ffb157a66820b56a26e2394527fe3be.jpeg

307d21c7af03b96bcf3828b89f250867.jpeg

cadbb59d3f22e910cd96dceeb11a4f13.jpeg

3172fb9f0c0a8000dcfbe0d7d3b4b35e.jpeg

85d72db27346b02dcb01b99447c31631.jpeg

cc2c6cfa60522d1cb4049959cc6df291.jpeg

7e6ca037b880631ac259e00b8e05175c.jpeg

cac5dfcf223a301bfbdf0a64094b91b2.jpeg

d8f700a181179bd5c557a82eed4f66ad.jpeg

b849d56319abf1f3b678ff2f3fc211b7.jpeg

03 端对端的驾驶

自动驾驶是智能导航的重要体现。下面主要回顾自动驾驶发展的几个代表性技术阶段,包括分模块自动驾驶阶段、分网络自动驾驶阶段、分阶段端对端阶段和生成式端对端阶段。端对端驾驶将传感器数据与非传感器数据统一接入,通过大模型直接生成最终的路径预测、驾驶决策与控制指令,并能基于大模型开展驾驶评估,已经成为当前自动驾驶主流且必然的方案。从中我们可以看到几个主要的技术趋势,即(1)语言变成了一种传感器;(2)多模态数据统一感知与统一表示;(3)隐式的地图;(4)面向任务的评价。

1457f4594ec1f6491f8c7f32e721786b.jpeg

c012061e16e462758004946151603203.jpeg

1c1f8379fd7b9765aa84ebe33a5dde90.jpeg

2d606df59de6a6f83344d9c763e0f011.jpeg

c1338df875a85646981fdf93779a63e1.jpeg

fc8f6910fda4d233cfe8f3663d20f64a.jpeg

8e47a5858a9a71bee7365735121547ea.jpeg

93e66d021c6075b4c983597eb0c56741.jpeg

74fd7299eb018dc850279520f2ee6440.jpeg

800dd6c4a0d9efda385ec182242b5234.jpeg

521b8241e322ab61c2b34cc4a14c70ce.jpeg

1b66a2d3abc5e9a7168fae2a45156a9e.jpeg

d90324516b1e75a3c3b69c39d22d6ef9.jpeg

04 挣扎中的SLAM

在端对端技术的进逼下,SLAM何去何从成为一个非常值得关注的问题。从导航任务的角度看,传统仅提供自身位姿和简单地图信息的SLAM,已无法满足智能导航需求。SLAM作为一个感知器,要在场景感知与理解方面朝着越来越精准、精细、高效且可解释的方向发展,要更加积极主动地感知动态环境和动态目标,感知物体级和场景级的语义。SLAM和大模型现在也结合且互相促进,体现出很多新的发展趋势。SLAM作为一个感知器需要和其他规划模块组合,才能最终服务于导航,这就与端对端方案形成了明显的技术路线差异。虽然在自动驾驶领域已经普遍认为“SLAM已死”,但这两种技术真正的决战还未开始,最终的战场将在具身智能领域。

fa48c3f43b4457aa66a0ac7960ba45d9.jpeg

79be395fd1ea49ea88862c9d1b561298.jpeg

0ff34ea3aef437b18188e5c67f5fb758.jpeg

1e80ec42edac4a2cfb0a137804a98b27.jpeg

b66837106edb76e14e220a16e9bb3415.jpeg

852305e977e972c02d075ad1b52a0417.jpeg

f103e9fb4fecf6f08d2228e7fd803717.jpeg

4907a10cfce17bdc8394042cc2e05aab.jpeg

5c7460fd9437a5b98cd3e94083dd0e45.jpeg

05 具身智能

      具身智能是指智能体(如机器人)通过其身体与环境的交互来获取知识、学习和解决问题的智能。时空智能是具身智能的基础。大模型在具身智能导航中发挥重要作用,进而支撑了一些新型的导航技术形态如视觉导航VN、视觉语言导航VLN以及视觉语言动作VLA。VLA尤其值得关注。比如要求一个机器人“到冰箱拿瓶水给我”,不能把“走到冰箱”和“拿水”做成导航和抓取两个模块或者两套技术方案。事实上在VLA中,能“走到冰箱前”就能“拿出水” ,反之能“拿水”就能“导航到冰箱” ,用到的是同一个技术框架。这是一个非常依赖大模型的技术,将给智能导航带来很多启发。

e75f4be048e689cc131202ed5dc493dd.jpeg

66f454593d8342eab9f811ef0a5d2f0b.jpeg

ae8a16f4d4d984217c83c238877e4294.jpeg

2f6e51775418a456ce136c9fbbb1e629.jpeg

b4464d1dcf44b5cf531d7cf13116a2eb.jpeg

5cc338a7327f434769292770a2135837.jpeg

9f2c336a2d2dc0f5696ff7a9fed608f7.jpeg

cfb8f0289ed59ed53ba257730f266865.jpeg

2485f8a42f505cd93ca58ff1f889735b.jpeg

b4a76ddb8d1bf6d67641c0274292dbee.jpeg

8611fec5060ca61df32c32566d6b6a76.jpeg

06 回到DeepSeek

自此,我们再回到今天报告的话题“DeepSeek”。作为一个现象级的超级AI,我们要在导航问题的研究上,尤其是导航路径规划与导航动作生成方面借助这些大模型的推理能力。为此,仿照王国维的“读书三境界”,我提一个“使用DeepSeek做导航三境界”,'我看青山多妩媚,料青山看我应如是',此第一境也;'好风凭借力,扶我上青云',此第二境也;'问渠那得清如许,为有源头活水来',此第三境也。这其实也是三种技术框架,供各位参考。我们认为,智能导航大模型应该具备常识和记忆,必然是多模态深度融合,具有很好的场景适应和泛化能力,能够生成长周期的任务规划并在Sim2Real方面能够落地的模型。

7ca98952dbe81c99b46c712741ba8aed.jpeg

30bd1aa5ff959d2bc515635dd4b769c0.jpeg

dbbb98a2031e6345b52e51d590860998.jpeg

43c8a503076c59470456b5bb04f099a0.jpeg

68da2370f3d684837a87adc89beaa64d.jpeg

19d068f3c343fcbdd96b592342c0ff6c.jpeg

9662075762cd871222dd1c248770ad31.jpeg

05a85c7d932c46ac81b46251d6536e96.jpeg

07 总结与建议

我们非常小心和浅显地对“什么是智能导航”这个问题谈一下自己的看法,作为今天报告的总结。自主导航强调对复杂场景感知,而智能导航要对复杂场景的多模态数据进行统一感知与理解(统一计算、统一表征、统一建模);自主导航要求实时精准定位和适应性导航,而智能导航要在从未见过的陌生场景生成规划和推理决策,减少对人工规则和先验地图的依赖;同时智能导航一定要顾及控制问题,要所作出的规划是载体方便执行和可以执行的。未来,是否用到大模型或许将成为导航智不智能的衡量标志。智能导航尤其强调与人的交互,能在人类语言驱动的下开展行动规划并实时反馈与修正。导航智能体在生成动作决策时还要向人提供语言解释,如“避开障碍物因前方有行人”,以增加决策的解释性和安全性。

在自动驾驶已经落地成熟、机器人即将迎来爆发性增长、大模型越来越智能的今天,传统导航技术如高精度定位、组合导航、高精地图以及SLAM逐步边缘化。当然,状态估计和环境感知的需求是没有变化的,需要变化的是如何在新的范式下发展上述技术。继续奉行“精度至上”的研究思维,会让测绘学科与智能导航越来越远。导航与其他学科(技术)的边界在迅速消失。目前智能导航的主要研究群体已经不在传统测绘导航界。通导遥一体化,或者说感知规划决策控制一体化的方案才是市场需要的方案。导航研究和应用要树立新观念。同时,因为导航技术日新月异,已经处在了人工智能的最前沿,所以“课程学完即淘汰,学生毕业即失业”的风险非常大,导航人才培养模式亟需创新。

最后,我们愿意与各位同仁一起做好智能导航,请刘老师和各位同仁批评指正。

1c4634238ce0406ae651498db9202c68.jpeg

8d94c578d6a1ee477391e11792172312.jpeg

83d32d8b82819282072adea5cf170bcb.jpeg

7427292b96cec86f6ef6f1f4823007e7.jpeg

bec8cb69a30efe3ecc460a4470b5d34d.jpeg

6e97c3303583315f687426248a2b1794.png

本文仅做学术分享,如有侵权,请联系删文。

5b71ede1c7f95a0a6a763750a86a3b88.jpeg

cc084000ec5754d074174fa4cc567e69.jpeg

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

a02a013de913bcdcd5b8864bedf215c2.jpeg
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球(点开有惊喜),已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

77ddd5a7f7adcd07b3ec45f736b2d30e.jpeg

▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

卡尔曼滤波、大模型、扩散模型、具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

8c7f2dc48863e48810e6de3a46862b9d.jpeg
▲ 长按扫码学习3D视觉精品课程
3D视觉模组选型:www.3dcver.com

01f5d1a0e5977805848bcc74797db409.png

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

outside_default.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值