我很高兴来到这次库柏康跟大家分享我们在社区的工作那我今天带来的议题主要是LM跟机器人的结合是LM作为机器人大脑主要是想介绍我们基于大圆模型去帮助机器人理解一些复杂的任务和指令然后使机器人跟用户能有更好的交流去完成更加自主更加智能的一些决策那么首先做一个简单的自我介绍我叫毛思彤是来自华为云计算的一名算法工程师然后现在也参与了一些社区的工作比如说开源的项目然后我的主要的研究方向刚刚之前在学校里面其实是聚焦在基于CVE的迁御学习那么当前加入了华为云之后也渐渐地利用之前的知识然后去拓展到机器人感知还有一些其他的AI与机器人相结合的技术比如像今天提到的LM还有桥花学习等等那么首先今天先做一个简单的背景介绍第一个是我们对机器人这些年来整体的发展做了一个调研那么很容易发现的是机器人也正在走向AI和智能化从1958年开始出现了首个工业应用的机器人是U德沃尔创建的Unimation的公司为通用汽车安装了第一台工业机器人那么从1958年开始机器人也渐渐地走入工厂然后去解放一些工人的生产力到1973年的时候日本早到田大学研究了手台的疏控人形机器人那这个人形机器人他可以实现一些双足行走还有简单的抓取的一些任务这个也是一个访生的出行到1988年的时候这个时候就出现了行业里面首个服务型的机器人是Hopmate这个机器人主要当时是用于在医院里喂一些病人还有医生去送饭送药还有送邮件等等然后像这种专用型的多任务机器人在当时是成为了一个主流然后到2013年的时候已经有了一些面向自动化作业的一些写作的机器人因为这个时候随着机器人的硬件的核控制器的一些进步它已经能够很好更精准更快速地去完成一些写作型的任务从2013年到2019年期间那这个阶段其实也是AI在火速发展的一个阶段比如说2012年去提出的Alex Knight然后包括这期间提出的Rest Knight等等去为一些深度学习开拓的新的天地那比如说像机器人感知的任务比如图片识别然后像这些等等的任务都可以用到深度学习的负能然后随着2017年Google的一篇文章也就是Otansense All You Need这个时候Transformer其实更广泛地被大家接受了然后深度学习也基本上就进入了以Transformer为代表的这样一个时代那同时Transformer它可以接受很多不同的来源的数据做谈审所以说机器人Transformer这个形式其实也是比较适合机器人的比如说机器人的视觉然后包括运动规划都可以用到这样的一个结构然后不过到2019年为止这一类智能机器人其实它还是一个智能化的初级的阶段也就是说我们需要去人为定义我们要让这个机器人去完成哪一项或者哪几项的任务比如说我们希望这个机器人去做抓取那我们就要安排它去做一些目标的识别还有机械币的这样一些规划的任务而不是机器人自己去决定自己要完成什么任务所以它并不具备一些理解复杂指令还有自主探索和决策方案的能力那么近年来随着大模型的发展当然首先发展起来的就是自然语言大模型它给人们带来的震撼还要给AI带来的新的浪潮都为重塑产业智能化带来了新的希望这个里面主要是一些大模型的推理能力的月签交互能力的月签还有数据积累的月签可以使得各行各业都受到大模型带来的革命性的影响比如说从今年开始由于大模型的出现也是借助了自然语言大模型的能力不同类型的数据其实都在向大模型这个方向去汇聚那么其中有一些单模太大模型也有一些多模太大模型比如说视觉大模型 云大模型还有一些史序大模型这些都是大家正在研究的那么最终这些不同的模太其实也会做一个结合比如说目前也是非常火的一个方向就是视觉语言大模型然后包括现在其实正在进行的还有很多类似的方向比如说语言语音大模型还有语音视觉大模型包括现在也正向3D的CV的领域去迈进比如说我们可以同时接合点云 图像 语音等等这样也有一些论文现在已经发表已经公开了那么从今天开始的未来的3到6个月由于大模型的这种技术能力的形成我们已经可以去实现部分出于模型的落地比如说在社交层面的一些对话助手短文创作然后再比如说游戏其实是一个AI落地的很好的领域比如说图像 绘制 像Stable的Fuel现在其实已经可以替代一部分人工然后又比如说游戏里面的NPC的对话也是一个大模型落地的很好的方向那么在未来的6到12个月里面随着大模型能力的进一步的提升也是随着行业数据的积累那么大模型其实可以去渗透更多的突避的场景就是突避SNS场景这里面列举了三种第一点就是我们的办公场景我们的办公材料的写作最直接的就是我们在写Slice的时候那可能我们也会借助一些大模型的能力然后包括代码的开发那代码的开发现在我理解其实目前还处于一个不成熟的阶段但是我觉得在未来6到12个月可能去辅助一些工程师做代码开发应该是可以做到的然后第二个就是设计产业比如说像一些海报的设计然后加装的设计广告的制作都可以用到大模型的能力还有一些内容检索的方向那比如说视频分析比如说我们的监控那我们监控监控到了一段视频然后它如何对这段视频做分析然后反馈给用户说这段视频里面有什么问题我们应该如何去访范然后还有就是内容搜索内容搜索现在比如说像英伟达其实他们也有一些工作已经在用大模型去做搜索一些3D模型2D模型等等然后包括像Microsoft它已经继承了GDP的能力在自己的搜索栏里面然后在未来的一到两年更多的垂域会用到大模型的能力比如说今天我们讲到的机器人那么如何借助大模型的能力去做一些任务的拆解自主的决策是机器人真的能走向家庭走向工业这个是个很关键的一个点还有一些教育金融媒体比如说智能教学然后智能封控然后3D制作等等就是即使这些行业不能完全依赖AI但是AI像大模型这种发展的对这些行业的辅助也是非常重要的那么从今天开始也就是刚刚介绍的大模型带来的变迁在机器人这个领域其实大模型可以辅助机器人走向一个通用的巨深的智能那么比如说像2022年的一些工作我们已经可以看到大模型为机器人这个行业带来的一些颠覆性的生产模式比如说像Google的RT1还有C看这样的工作那RT1其实还没有完全的拥抱大模型它只是自己端到端了端到端的搭建了一套语言理解到动作生成的这样一个模型那么C看其实是Google比较有代表性的利用大模型的工作那么它会利用大模型去做一些任务的拆解同时也会把拆解的子任务输入到强化学习的模块里面然后最终输出机器人的训练机器人的palsy这些工作都是全球矚目的然后到了今年的时候其实对于大模型跟机器人的结合就有更多的工作在涌现比如说在GoogleRT1的基础上然后又全面拥抱大模型设计了Google的RT2而这个里面用的大模型其实是Google的自己做大模型是那个PAM-E然后包括像一些知名的知名高校的教授比如李续飞他们用的那个Wolxposer那篇论文现在可以在网上查到其实都为我们进一步地展现了大模型也就是大模型AI和机器人结合的更多的可能性而这个里面是我们总结的一些机器人与RM相结合的一些机遇和挑战那么一些机遇就是之前的大模型不管是自然语言大模型还是多么太大模型都是局限在软件层面的也就是说它是缺乏跟物理世界的真实的交互的它只是凭自己的经验去再为我们生成一些它认为合理的回答但是RM跟机器人的结合会让我们看到更多的与真实的物理世界发生交互的这样一个情况那第二个就是更智能由于大模型它拥有的一些突出的一些理解能力还有一些创作力所以说它大模型可以为机器人去创造一些自发理解更复杂指令还有更加自主决策的这样一个条件第三个就是强交互性我们有了大模型之后其实我们可以用自然语言去跟机器人产生更多的交流为用户的使用体验有一个很好的增强第四个其实也是我认为比较重要的一点其实是机器人与大模型的结合其实不仅可以带动机器人这个行业的发展其实也可以为其他的产业带来一些更广阔的事业和发展那比如说机器人领域机器人其实是一个很负责的领域它里面涉及到很多比如感知规控控制都是相关的领域所以说RM加入Baltex也为其他的领域带来了很多发展机会比如说我们是不是可以做RM加感知是不是可以做RM加规划然后规划感知控制这三个方向跟大模型相结合的话是不是都可以为各行各业去带来一个新的机会这个是我们需要去考虑的然后还有就是挑战那大模型其实有它自己的问题比如说换事这个其实是我们研究大模型的人或者是使用大模型的人认为大模型比较严重也比较难解决的一个问题因为它毕竟是一个黑盒的模型所以甚至无论给它生成无论给它输入什么它都会根据自己的推理方式根据自己的参数去自由的根据以往的经验生成一些东西给我们看但是这些东西是不是真的是不是真的合理的这个是我们要去考虑和改进的地方然后第二个就是数据是受限的虽然说现在的大模型它已经拥有了很多的训练数据但是具体到每一个垂域的行业的话那它的数据其实还是很难获取的就拿机器人为例其实机器人的数据就是很难获取的因为它需要去做一些无论是在访真还是在现实世界中它都需要去收集很多的行动序列的数据当然像这种数据都是没有经过自然语言标注的那标注这些数据其实是很耗费人力和时间的第三点的挑战就是机器人它的形态是非常多种多样的机器人是易购的那么每一种机器人它的环境硬件都是没有一个统一的标准的这个时候我们怎么去应对或者说我们的方案是否能够在未来泛滑到每一种形态的机器人上这个也是我们需要逐步去探索的那第四点就是语言大模型或者是其他多么太大模型的一个实验的问题由于大模型它比较大的体量需要比较大的算力支撑像目前的一些编端测设备其实是没有办法完全支撑大模型表现很好大模型完全运行在编测或者断测的那这个时候对于一些对实验要求比较高的实施性任务来说这个实验问题也同样是我们需要考虑和解决的接下来我会给大家介绍一下我们本次的项目它的名字叫RoboPilot其实就是自主机器人的意思RoboPilot它的目标是我们希望去打造一个边缘鞋统的巨声智能系统那么在这样一个巨声智能的系统里面我们将巨声智能系统分成了三个部分分别是云端大脑编测的小脑还有端测的去干那这个怎么去理解呢云端的大脑其实就是我们基于大模型去搭的一层云上的节点那这个里面这个云端大脑它主要去负责的就是一些复杂任务的理解比如说我们给它一个比较复杂指令比如说我渴了我饿了那它怎么去理解这个使用者的意图然后去对此任务进行一个拆解比如说是不是要给你拿一些吃的喝的这种然后还有就是一个连续对话的能力也就是对人们上下闻的理解还有就是对开放任务的推理能力也就是说是不是在所有的场景下都可以很好的完成这样一个任务理解和决策的任务那么当云端大脑对人们的任务有了一个比较好的理解和拆解之后它会将拆解的此任务下发给编测的小脑这里面的编测的小脑其实我们可以如果相对简单的理解的话其实可以是编测的服务器或者是机器人上面的一个有一定算力的AI主板这样都是可以的然后编测小脑它主要去完成的一个任务就是RoboScale也就是机器人的一些基本的技能比如说感知技能像3D的环境的感知然后像实时定位于导航就是Slime然后有一些路径规划的能力等等像比较简单一点的就是MoveBase那这些技能如果直接部署在编测或者是直接部署在机器人的AI主板上的话其实就是能减小一定的运行的实验也就是说我们不完全依赖云端去为我们下发端测驱干控制的指令而是可以在编测做一些自主的感知和据测然后端测驱干的话这里面其实就是指的机器人的自身的硬件像传感器这些比如说像相机 激光雷达这些都是端测驱干的一部分它可以为我们的云端大脑和编测小脑去反馈一些传感器的数据比如说图像 电云等等然后还有就是控制器这个是机器人底层的一些控制的接受一些机器人底层控制的命令比如说编测小脑去做了一些改革处理和路径规划那么端测驱干该如何控制自己去响应编测小脑下发的任务然后主要是分成这三个部分然后接下来这个是我们Rovopilot里面用到的一些关键技术那首先是一个编云协统的技术就像刚刚上一年提到的云上的大脑和编测的小脑那么我们当前的项目是一拖了kubelage去提供了强大的编云信息的同步的机制然后建立可靠的编云通信的通道实现云上下发任务编测执行并且反馈编测状态这样一个事情然后第二个其实是大脑型本身它带有的一个能力是任务理解和认知也就是说它大脑型可以完美地理解人们的需求然后去结合自己的先业知识去为人们提供一些合理的有创造性的回答那第三个是一个叫思维链的技术也就是说在思维链这个技术里面我们可以提供一些体式去引导大脑型按照我们的方式去给出我们想要的回答比如说在机器人需要去执行一个任务的时候我们可以先给出几个例子去引导大脑型比如说step by step的去思考这个问题然后这样的话在后面大脑型去拆解这个任务的时候就会相对的合理成功率也会相对高一些然后第四个我们用到的关键技术是我们构建了一组先业知识库这个里面的具体内容会在下一页的架构里面具体的做一个介绍总的来说先业知识库就是储存了我们一些先业的知识包括环境的还有机器人本身的按照相量的这样的方式去进行存储然后我们会对先业知识库进行更新然后也会按需的使用第五个就是code as policies其实这个也是谷歌的一篇论文然后我们接用了里面的四项也就是说我们并不是直接下发机器人的action给机器人而是拆解成代码之后用把代码部署到机器人上然后让机器人去完成特定的一些任务那最后一个就是react的思想就是针对某个特定的问题我们会做一些先让大模型去想象一些自己的动作然后观测是否能够成功然后如此反馈几次最终形成最终的运行的方式任务执行的方式那这个就是我们RoboPilot的一个基本的架构这个上面是我们云上的节点然后下面是我们的编和端侧的节点这个里面之所以把编和端画在一起是因为往往编和端在机器人这个领域里面的拆分其实并不够明确比如说一个机器人的本体上它既有可能是端侧也有可能是编侧编侧就比如提到的像Li主板一些处理器然后像端侧的话就是机器人的硬件传感器等等所以这个里面我们还是并没有对机器人的编端做一个拆分还是整体的放在了一个节点里面去进行拿冠这个里面云上的节点它完成的主要任务其实就是去理解用户输入的指令然后输出的就是需要部署到机器人上去执行的代码那么我们具体做了哪些事情在这个云上的chat server里面首先我们构建了一个知识库那么这个知识库里包含的一些内容第一个是world space这个里面其实包含了一些世界信息的存储比如说可以是室内的也可以是室外的那如果是室内的话比如说哪里是bad room那里是bad room然后那里是living room这样一些等等的信息还有一些就是物体比如说冰箱里有可乐雪壁那这些可乐跟雪壁有几瓶这个都是可以在我们这个知识库里进行存储的然后第二个就是world-based preference这个是它会针对我们这个服务会针对一些规则性的规则性的东西去做更多的考虑比如说人众比如说时间比如说现在是晚上然后我跟机器人说我可乐那它大概率不会给我拿来一瓶咖啡而是会给我带来一瓶牛奶或者一杯水这个意思然后第三个知识库里面的内容就是robot scale就是刚刚提到的一些感知规划决策这样的一些基本的技能可以供大漫行去调用然后这些知识库的内容都是大漫行可以去调用的然后基于这些知识库里面的内容大漫行再去结合用户书的指令做任务的理解做任务的拆分然后做子任务的选择还有code的下发那这个里面其实有一个问题就是我们的知识库台里面存储的相量可以是很多的因为它可以存储很多的知识云上的存储空间跟算力理论上是无限的但是大漫行它可以接受的token是有限的那么如果说我们每次去执行一个任务的时候都把知识库里面所有的内容告诉机器人大漫行那这个时候显然是这个大漫行的容量显然是不够的其实它是记不住这么多东西的那这个时候其实我们里面用了一个long-chain的技术去自动地根据相量检索的这样类似于限量检索的一个方式去帮助用户去帮助我们的服务去自动从知识库里面搜索一些用户真正需要的知识然后再输入到大漫行里面然后大漫行接受到这些有用的信息之后再去做任务的理解和下发然后生成代码之后我们会先把代码部署到访真节点去进行测试但是这个访真节点其实不能够作为我们这个整体架构里面的一个关键技术因为这个访真节点它可以是各类的访真器比如在我们现在的实验里面我们用的是个贼布那后面我们其实也可以对接更多种类的访证器比如像一些无理引擎比较强的排波类等等然后包括像英伟达的一些比较好的访证器其实像开源设计的用户也都是可以去调用的在访真里面执行发现没有问题之后因为访真里面执行的比较快比较安全所以说我们选择现在访真里去运行在访真里面运行没有问题之后我们再将代码部署到真实世界的机器人上去执行然后反馈机器人的状态到云上和端侧然后对知识库也会进行一定的更新比如说原来在桌子上有瓶水但是执行完这个任务之后机器人已经把水拿走了那么这个时候知识库里面水的位置就会发生变化接下来我们简单的看两个代码吧这个就是根据刚才的架构去设计的证据里面做的一些加速时间也有点不够第一个是一个这个是我们做的一个简单的代码我们快速看一下然后首先我们先跟它闲聊了一下比如让它讲一个笑话然后第二点我们是让它列出了当前的房间的一个状态包括各个房间的状况还有一些家具还有物品的状况然后这个是房间的地图那么接下来我们提出的一个ProMT其实是听到楼梯口有一些异常的声音然后这个时候利用我们上述的技术其实机器人会对我们的ProMT进行一些理解和认为的拆分然后最终通过像COTL and React这样的技术它会为我们生成一份代码然后我们把这个代码大成形象去推到机器人上这个是我们做的一个真实的实验是在我们华为的休息区我们可以看到机器人走到楼梯口的地方拍了一张照片然后传回到云端我们发出了第二个指令是说现在没有异常那我现在有些渴了能不能帮我找一杯水拿点喝的然后这个时候机器人接收到指令之后同样按照上面的一些架构去为我们生成了一份可不属的代码然后这个时候机器人会自主地到航到我们休息区的冰箱的地方但是机器人知识库里面存储的机器人他对自身的了解是没有机器B的所以他会拿水这个任务其实是失败的他会反馈给我们所以他目前是没有办法做到这一点的那么我们第二个代码其实是不久前在上海的华为HC大会展示的一个跟大蒙型结合的一个代码不好意思 这个忘旋转了这个完成的主要任务其实是用户说他饿了然后我们现在使用的是一个复合机器人他会自主地规划并且做一些抓取然后最终给用户选择了一个弹簧牌好 这个就是我们的两个代码后面还有一些后面还有一些比较简单的内容就是我们对未来的展望还有今天的一些总结能快速地说一下未来展望我们这里面展望了三点一个是如何利用多么的大蒙型去拓展机器人处分自理解之外的一些能力然后第二点就是我们希望去达到一个边缘系统的大蒙型因为当前如果完全依赖云上的大蒙型去下发任务的话其实这个实验还是有点高所以说我们如何做成一个边缘系统的形式这个是我们未来努力的方向之一还有第三个就是边缘系统的数据避缓我们如何通过边端侧的反馈对RoboScale, Knowledgebase等等还有仿正 包括仿正环境去进行一个持续的更新促进系统性能的持续优化也是我们的重要方向之一那么最后一点就是今天的总结今天主要讲了一位大蒙型为狙生智能可以开辟一条新赛道第二点就是我们为Kubaiz的社区去提出了一个名为RoboPilot的开源项目这个也会在后续逐步的进行开源欢迎大家去我们的社区查看和做技术贡献第三点是SegraBautex我们有这样一个兴趣小组我们致力于原生机器人的应用和发展也欢迎大家的加入好 谢谢大家今天就是我演讲的全部下面有三个二维码大家感兴趣的话可以拍下来然后回后扫一下第一个是我们Kubaiz的公众号第二个是我们云机器人的交流社区现在人满了只能扫这个二维码联系小助手拉进去第三个是我们GitHub的链接一个二维码好 谢谢大家