Long-term Direction 03

多模态智能体与具身智能

VLA, Multimodal Agent & Embodied Intelligence

关注 AI 如何从识别和感知继续走向任务理解、规划、行动和反馈：多模态模型、智能体系统、VLA 与机器人共同构成下一阶段真实世界智能。

Current notes Back to research

Writing System

把感知能力延展成行动闭环。

多模态智能体和机器人系统的核心，是让模型能力进入任务、工具、环境和反馈构成的完整链路。

Insight

智能体不等于聊天界面

Agent 的关键是任务状态、工具调用、记忆、评估和失败恢复，语言只是其中一种交互与推理媒介。

State Tools Recovery

Understanding

具身智能需要环境约束

机器人不是把大模型接到机械臂上，而是让感知、规划、控制、安全和任务目标在真实物理约束中协同。

Planning Control Safety

Knowledge

VLA 是跨层系统问题

Vision-Language-Action 涉及数据、模型、动作空间、仿真、真实环境、评估协议和硬件接口，需要系统化学习。

VLA Simulation Embodiment

Notes

近期札记

围绕多模态智能体、VLA、机器人和真实世界任务闭环持续追加。

2026.06

Insight

从识别到行动，中间缺的是任务结构

识别结果只有进入目标、约束、工具、时序和反馈系统，才可能成为可执行行动的一部分。

Task Model Context Feedback

2026.06

Understanding

真实世界智能要处理失败

物理环境里失败不是异常分支，而是常态。一个可用的智能系统必须能识别失败、解释失败并选择新的恢复策略。

Failure Detection Recovery Safety

2026.06

Knowledge

具身智能知识索引

后续可按 VLM、VLA、动作空间、任务规划、视觉伺服、仿真到真实、机器人评测和多智能体协作逐步展开。

VLM VLA Servoing Sim2Real

Knowledge Map

知识地图

把多模态智能和具身系统拆成可持续补充的学习域。

VLM

多模态理解

关注视觉、语言、空间、文本和业务上下文如何共同进入任务理解与决策过程。

Agent

智能体系统

沉淀工具调用、状态管理、记忆、计划生成、执行监控和失败恢复的系统模式。

VLA

视觉语言动作模型

梳理动作表示、示教数据、策略学习、任务泛化和模型评测之间的关系。

Robotics

机器人任务闭环

围绕感知、定位、抓取、路径、控制、安全和运维，连接算法能力与真实设备执行。

Writing Path

后续写作路径

从系统架构、任务闭环和前沿论文继续扩展。

Main Thread

真实世界智能如何从感知走向行动

把感知模型、任务规划、工具调用、环境反馈和硬件执行放在同一个系统里思考，判断哪些能力真正可落地。

Case Notes

机器人任务复盘

记录识别不稳定、抓取失败、路径受阻、任务中断、物体变化和安全策略等真实问题。

Reading Notes

VLA 与具身智能资料

补充多模态模型、机器人基础模型、仿真平台、数据集和评测协议相关资料。

返回 AI Platform 方向返回长期沉淀方向