google

Google DeepMind 发布机器人模型 RT-2

Google 旗下的 DeepMind 新发表 Robotic Transformer 2 ，它是一种与众不同的视觉-语言-行动模型，RT-2 使机器人辨识视觉和语言，解释指令并推断哪些物体最符合要求

Updated At 31 Jul 2023 2 min read

By myfreax

Google 旗下的 DeepMind 发表 RT-2（Robotic Transformer 2），它是一种与众不同的视觉-语言-行动（vision-language-action）模型，使用网络和机器人的数据进行学习，并将这些知识转化为控制机器人的通用指令。

RT-2 教导机器人辨识视觉和语言，解释指令并推断哪些物体最符合要求。过去训练机器人需要很长的时间，研究人员必须单独规划研究方向，如今借助 RT-2 等 VLA 模型的强大功能，机器人可在取得大量数据后，推断下一步该做什么。

DeepMind 在一篇论文表示，新模型以网络和机器人数据进行训练，也利用自家Bard 等大型语言模型的研究进展，与机器人自身数据相互结合，例如决定需要移动哪个机器手臂关节等，甚至能够理解英语以外的其他语言指令。

DeepMind 举例，RT-2 可让机器人在没有经过特定训练的情况下辨识并扔掉垃圾，以 AI 试图理解垃圾是什么以及通常如何处理垃圾，来引导行动。

DeepMind 研究人员在像是厨房的测试环境利用机械手臂测试 RT-2，《纽约时报》看完机械手臂的现场测试指出，一名研究人员下达「捡起绝种动物」的指令，机器手臂顺利从 3 个小物中捡起 1 只恐龙。不过，机器手臂也会把汽水口味辨识错误，把水果误认成白色，可见 RT-2 目前应用还不够完美。

Google 涉足更智能的机器人应用是从去年开始，当时宣布在机器人上使用 PaLM 模型，建立全新 PaLM-SayCan 机器人，将大型语言模型和机器人技术整合在一起。

RT-2 未来持续发展和测试下，Google 的机器人通过大型语言模型在行动上更聪明，不需要复杂的指令将能完成任务，仿佛让人们距离皮克斯电影 WALL-E 描述的未来世界更近一步。

google deepmind rt2 ai Technology

Related Articles