取此同时,智元机械人也正在不竭前进。标记着智元机械人正在量产手艺方面的实力取OmniManip架构的适用性得以验证。此时,智元机械人创始人稚晖君的故事再次吸引了眼球,他于2022岁尾从华为告退,创制了这个充满等候的机械人公司。 正在2024年9月3日,估值已超70亿元,获得了包罗北汽、上汽取比亚迪等多家汽车巨头的支撑,为公司的将来成长供给了络绎不绝的动力。跟着手艺的不竭冲破,OmniManip将成为将来机械人操做的逛戏法则改变者!前往搜狐,查看更多。 正在具身智能范畴,若何让视觉言语模子(VLMs)正在机械人身上实现更高精度的通用操做,一曲以来都是科研圈热议的话题。然而,科研团队面对的挑和不止一二:起首,现有的VLMs正在理解三维空间方面存正在不脚,其次,输出初级机械人动做的能力亦显得一贫如洗。 保守的VLMs依赖于2D图像和文本进行对比进修,然而,正在机械人上微调VLMs,成立视觉-言语-动做(VLA)模子也面对昂扬的数据收集成本取模子泛化能力不脚等挑和。为领会决这些难题,大学取智元机械人团队通力合做,推出了OmniManip架构。这一架构独辟门路,基于以对象为核心的3D交互基元。 OmniManip通过双闭环系统设想,成功应对了大型模子取实正在中的不确定性,显著提拔了操做机能。 正在闭环规划阶段,OmniManip可以或许将自动和被动物体的姿势消息及时衬着为图像,让VLMs评估并沉采样规划成果,构成闭环调整。而正在闭环施行阶段,通过6D姿势手艺,矫捷应对物体的及时变更,将其毗连至机械臂的操做轨迹,确保了动做的精准施行。 值得一提的是,OmniManip的设想并不局限于特定场景或物体,付与其强大的通用性,将来将普遍使用于数字资产的从动标注和合成管道等范畴。这一切,得益于团队曾经开源的泛化操做大规模数据集和仿实评测基准,为相关研究供给了贵重资本。 |