首页 > 科技

CVPR2025：中科视语发布首个具身物理空间大模型PhysVLM！战略布局“AI+机器人”新生态

2025-03-19 科技互联网

在人工智能技术加速向具身智能（Embodied AI）演进的关键节点，中科视语重磅发布其最新前沿成果 ——PhysVLM（首个机器人物理空间具身大模型），作为具身智能领域的里程碑式突破，PhysVLM 率先实现 “环境感知 - 本体理解 - 决策执行” 全链条技术闭环，通过多模态感知、动态环境建模、自主决策规划的深度融合，赋予机器人在复杂物理空间的类人级操作能力。

作为首创“环境感知、本体理解、决策执行”全链条技术突破的AI企业，中科视语以PhysVLM的发布为起点，正逐步构筑面向工业4.0、智慧交通、具身机器人等领域的核心技术底座，重新定义“AI+机器人”协同发展新范式。

物理感知革命，机器人也懂“分寸感”！

随着视觉语言模型（VLM）的快速发展，机器人已能精准理解场景语义，但 “看懂” 不等于 “能做”。传统模型普遍缺乏对机器人自身物理约束的感知能力，导致其在工业、智慧城市等复杂场景中频繁出现 “越界操作”，如机械臂试图抓取超出其可达范围的物体，或因未考虑关节限位而引发机械故障。这种 “感知与决策割裂” 的问题，已成为制约具身智能规模化落地的关键瓶颈。

针对这一挑战，中科视语创新性地提出首个机器人物理空间具身大模型，通过创新的空间-物理约束表征的学习范式，有效整合了对环境的视觉理解和对具身智能体的物理空间约束感知，通过三大维度的突破，实现了从 “环境感知” 到 “可靠行动” 的质的飞跃。

构建“空间感知-物理约束”双轮驱动决策体系

具身空间-物理约束建模，打破平台壁垒

首创空间 - 物理约束映射（S-P Map）技术，将机械臂的几何参数、关节运动范围等物理约束转化为可学习的视觉语义表征。通过这种 “物理约束视觉化” 的方法，模型无需依赖具体机器人参数即可实现跨平台泛化，为构建通用型具身智能奠定了基础。

视觉-物理空间协同推理，重塑决策逻辑

采用视觉 - 物理双编码器架构：主视觉分支保留开放域场景理解能力，物理约束分支专注于可达性分析。通过多模态融合模块和对齐模块，模型能够实时权衡环境语义与物理可行性，生成 “既看得懂又做得到” 的动作规划。例如，当识别到目标物体超出当前机械臂范围时，系统会自动规划 “移动底盘靠近目标” 的分步策略。

百万级数据集，定义行业标准

中科视语研究团队构建了包含6类工业机械臂、10万组操作场景的基准数据集，涵盖RGB图像—可达物理空间图（S-P Map）—具身物理问答三元组数据。配套开发的EQA-phys评估基准包含带有4类工业机械臂的仿真环境和问答数据，为具身智能的物理认知提供了量化评估基准。

实验结果表明，PhysVLM在EQA-phys上的性能比GPT-4o高出14%，在RoboVQA-val和OpenEQA等基准测试中也超过了RoboMamba和SpatialVLM等先进的具身VLM。此外，S-P Map与各种VLM高度兼容，集成到GPT-4o-mini后，提升了7.1%的可达性理解任务性能。

战略布局：“三维框架”引领从感知到具身智能跨越

中科视语始终以前瞻性眼光，致力于将先进的通用视觉技术与机器人实际操作深度融合，此次发布的PhysVLM作为重要战略成果，以“三维战略框架”构筑坚实的产业壁垒：

视语坤川®通用视觉大模型：中科视语经过多次技术升级与迭代，构建了多模态大语言模型（MLLM），融合大语言模型的基础能力，结合了视语多年面向行业的人工智能视觉解决方案经验，具备超强的视觉感知能力，并进一步支持了原生的视觉理解与推理。

具身智能核心算法：中科视语宣布正式开源 PhysVLM（首个机器人物理空间具身大模型），实现 “环境感知 - 本体理解 - 决策执行” 全链条技术闭环，为工业、智慧交通等场景提供安全可靠的决策支撑，为具身智能领域开辟了新路径。

行业场景深度融合：中科视语具备20余年行业专业知识储备及成熟的行业落地经验，聚焦工业、交通、具身机器人等高价值场景，推动技术落地。

行业融合加速推进，打造“AI+机器人”协同生态圈

目前，PhysVLM已在多个高价值领域形成实际应用并取得显著成果，尤其在工业4.0、智慧交通、具身机器人等领域展现出突出商业价值。

在工业领域，中科视语智能焊接机器人，在工业焊接、喷涂等精密作业场景中，突破传统机械臂常因路径规划粗放导致碰撞风险高、生产效率低。中科视语创新推出（S-P Map）模型，通过三维空间动态建模与智能视觉路径规划双重引擎，实现机械臂作业效率与安全性的革命性提升。

在交通领域，中科视语智能劝导机器人，在城市交通治理智能化升级的浪潮中，以 “AI + 混合模态感知” 技术重构非机动车监管模式。该产品通过实时识别违规行为、动态路径规划及智能语音劝导，实现交通监管效率提升 40%、事故率下降 35%，为智慧城市交通治理提供 “零接触、全时段、高精度” 的创新解决方案。基于此次发布的最新成果，PhysVLM已初步实现跨机器人、跨行业、跨场景的泛化应用能力，逐渐形成产业级的技术壁垒，为工业4.0、智慧城市与服务机器人市场带来新的产业机遇。

Tags：

上一篇：唯卓仕 AF 135mm F1.8 LAB Z卡口上市，国产镜头的“高端化”破局之战

下一篇：标准化与数智化赋能循环包装集约化租赁：全链路协同降碳引领产业绿色转型