主办方:媒体管家合作
官方网站:http://www.mediafabu.com
商汤绝影CEO王晓刚发布“与世界模型协同交互的端到端自动驾驶路线R-UniAD”
“端到端自动驾驶本质是通过海量高质量人类驾驶数据,模仿学习最佳人类驾驶实验效果。端到端大模型的数据输入是各种高质量人类驾驶数据,多个摄像头采集到的视频,输出就是人类驾驶行为的轨迹。通过这样的模仿不断更新端到端大模型,提升驾驶能力。”商汤绝影CEO、商汤科技联合创始人、首席科学家王晓刚在日前举行的2025GDC全球开发者先锋大会上表示,商汤绝影的与世界模型协同交互的端到端自动驾驶路线R-UniAD与DeepSeek技术创新思路同归一源。
记者注意到,这一自动驾驶路线通过强化学习加速智驾跨越式演进,并且将在今年4月的上海车展完成实车部署。
据了解,在端到端方面,特斯拉通过700万台高阶智驾量产车和超10万P算力,已经跨越了这个门槛,同时也构筑了与国内车企具有数量级差距的基础设施壁垒。
而这与人工智能的发展历程非常相似。随着互联网上的数据红利被“榨干”,大模型性能的提升只能依靠进一步扩大算力规模和增加模型参数。人工智能技术的发展遇到了瓶颈,一定程度上变成了算力的比拼,一部分人认为,尺度定律(Scaling laws)失效了。
在此背景下,如何突破瓶颈显得尤为重要。多阶段的强化学习训练方法成为突破瓶颈的方法之一。据介绍,商汤绝影这一多阶段强化学习的端到端自动驾驶技术路线,具体分为三个阶段:首先是依靠冷启动数据通过模仿学习进行云端的端到端自动驾驶大模型训练;其次基于强化学习,让云端的端到端大模型与世界模型协同交互,持续提升端到端模型的性能;最后云端大模型通过高效蒸馏的方式,实现高性能端到端自动驾驶小模型的车端部署。
从性能上限来看,纯强化学习训练让端到端智驾模型有望通过在提升性能的同时,充分探索多元场景和驾驶风格。未来,端到端智驾体验的上限不再是“类人”,而是可以拥有超越人类的驾驶表现。
王晓刚表示,在这一过程中,端到端的模仿可以预测不同轨迹行为,世界模仿也可以模拟仿真出各种不同周边环境的变化。“仿真器通过一个reward function(奖励函数),根据不同轨迹、不同环境的变化打分,找到最佳的驾驶行为。”
“在强化学习范式下,通过小样本、多阶段地学习,去降低数据门槛。基于强化学习长的思维链,生成轨迹的序列、环境变化的序列类似长的思维链,充分探索多元场景里面不同的驾驶风格。背后关键的要素就是要有一个很强大的世界模型支撑,能够预测和模拟动态的驾驶环境,去支持在线的闭环训练。”王晓刚进一步表示。
基于此,商汤绝影发布了R-UniAD。据了解,该款端到端自动驾驶技术路线,以绝影量产智驾方案和“开悟”世界模型为核心,实车采集的真实数据和云端生成的仿真数据在“车云一体”的新范式下进行闭环流转,使得端到端智驾系统的训练更加全面、高效,大幅缩短了研发周期,降低了成本。
商汤绝影方面表示,上述量产端到端智驾方案预计将在年底交付,“开悟”世界模型也正式用于数据生产,已经抢占新技术路线的先机。
“依托商汤大装置算力基础设施,商汤绝影能够建立强大的云端自动驾驶大模型,蒸馏得到可以部署在更小算力芯片的端到端模型,助力车企合作伙伴基于更小数量级的数据,超越特斯拉依靠百万台量产车数据回流的自动驾驶方案。”商汤绝影方面表示,在今年4月的上海车展,将会展示“与世界模型协同交互的端到端自动驾驶方案”的实车部署。