AI 走向现实世界：数据问题

当讨论 AI 的发展瓶颈时，人们通常首先想到模型能力、算法创新和算力规模。这些因素确实重要。但如果目标是让 AI 真正进入现实世界，一个更基础的问题是：

现实世界的数据从哪里来？

1 观察性数据的局限

当前大模型主要依赖互联网文本和视频。这些数据规模巨大，但本质上属于观察性数据（observational data）——模型看到了状态变化，却缺少干预信息：动作控制信号、力与触觉、明确的任务目标。

换句话说，AI 需要的是带有因果关系的干预性数据（interventional data）：记录了"做了什么"和"发生了什么"的因果对。对于需要与物理世界交互的系统（如机器人），这类数据至关重要。

人类天然就是一个干预性数据的采集系统。我们从出生起就在持续执行：

感知 → 行动 → 环境变化 → 新感知

感知 → 行动 → 环境变化 → 新感知

这种感知—行动闭环（perception–action loop）使人类持续获得带有因果信息的数据。相比之下，当前 AI 系统主要依赖离线数据集，缺少这种持续交互的数据来源。

仿真环境数据生成快、成本低、实验可控，但本质上是基于假设建立的世界模型，不可避免地包含大量 inductive bias。在飞行器空气动力学仿真等成熟工程领域，这类模型价值很高；但对于训练通用的现实世界能力，sim-to-real gap 仍然显著。

一种值得关注的数据类型是人类第一视角数据（egocentric data）：第一视角视频、手部动作、语音交互、环境变化。Meta 的 Ego4D 项目已经在这个方向进行了大规模探索。

如何规模化获取？AR 设备可能是一个关键载体。如果 AR 逐渐成为日常计算平台，意味着数亿用户每天数小时的真实世界感知数据——本质上是一个分布式的现实世界传感网络。类似的逻辑已在自动驾驶领域得到验证：Tesla 通过百万级终端持续回传真实驾驶场景，形成数据飞轮驱动模型迭代。

当然，大规模第一视角数据采集面临严峻的隐私挑战。Meta Ray-Ban 智能眼镜已经引发广泛争议，如何在数据价值与用户隐私之间取得平衡，是这条路径绕不开的核心问题。

从长期角度看，一个关键问题浮现：谁能够持续获得高质量的真实世界数据。

模型架构可以开源复制，算力可以按需采购，但数据飞轮——大规模用户持续产生的真实交互数据——几乎无法复制。这意味着占据感知入口的公司（无论是 AR 生态、自动驾驶网络，还是其他大规模终端平台），可能比单纯掌握模型能力的公司，在 AI 落地现实世界这件事上拥有更深的结构性优势。

注：从人类行为数据出发而非直接使用机器人探索数据，主要原因在于当前机器人自主探索效率较低，且在真实环境中存在安全约束，人类行为数据可以提供更高效的先验知识。