
来源:新浪科技
新浪科技讯 6月26日晚间消息,近日,通用具身智能企业RoboScience机器科学首次披露自研Visics大模型技术架构VLOA(Vision-Language-Object-Action),并展示了模型在多项真实场景的应用,包括全球最复杂具身操作任务家具拼装。
当前,机器人操作面临泛化能力差、精细操作难、长程任务误差累积三大核心瓶颈。据RoboScience机器科学创始人兼CEO田野介绍,Visics大模型通过自研技术架构VLOA,把机器人“认知”与“执行”彻底解耦,实现了三大维度泛化:指导任意机器人、操作任意物体、完成任意任务。以抓取操作为例,相比现有基于特定物体和机械臂的方法,其在成功率、姿态多样性及计算速度上均有显著提升。
在技术架构上,Visics大模型融合“具身世界模型”和“通用操作模型”两大核心引擎,创新性地引入Object Trajectory作为中间接口,并以物体的连续3D点云轨迹进行显示信息传递。实现了上层具身世界模型负责认知和预演物理轨迹,下层通用操作模型负责将轨迹转化为不同机器人的物理控制信号,让高层语义与底层物理规律的完美解耦,并分别用海量互联网视频及仿真数据进行预训练。
相比当前以视频预测为中心的世界模型,Visics内置的具身世界模型是以物体交互为中心且3D动态的,架构更接近机器人真实执行所需的底层表示。在执行层,Visics通用操作模型解决了泛化性与灵巧操作难题,可支持刚体、铰链体、1D/2D/3D可形变体等全空间物体的各类操作任务;支持跨本体、不同类型的各种机器人及末端执行器;支持含视觉、触觉、力觉等多模态感知数据。
针对被业内视为具身智能领域“登月级”挑战的家具拼装任务,Visics大模型控制机器人读取说明书后即可自主启动拼装,且当拼装过程中人为拆解已装好的部件时,机器人能够自动恢复状态并接续完成后续步骤。
据悉,在商业化落地方面,RoboScience机器科学已与多家零售、物流、康养服务企业及机器人本体、灵巧手公司开展试点合作配资公司最靠谱三个平台,并计划于今年实现面向工业与商业场景的标准化机器人本体产品量产。(文猛)
万丰配资提示:文章来自网络,不代表本站观点。