AI 走向现实世界:数据问题
当讨论 AI 的发展瓶颈时,人们通常首先想到模型能力、算法创新和算力规模。这些因素确实重要。但如果目标是让 AI 真正进入现实世界,一个更基础的问题是:
现实世界的数据从哪里来?
1 观察性数据的局限
当前大模型主要依赖互联网文本和视频。这些数据规模巨大,但本质上属于 观察性数据(observational data)——模型看到了状态变化,却缺少干预信息:动作控制信号、力与触觉、明确的任务目标。
换句话说,AI 需要的是带有因果关系的 干预性数据(interventional data):记录了"做了什么"和"发生了什么"的因果对。对于需要与物理世界交互的系统(如机器人),这类数据至关重要。
2 人类的感知—行动闭环
人类天然就是一个干预性数据的采集系统。我们从出生起就在持续执行:
感知 → 行动 → 环境变化 → 新感知
感知 → 行动 → 环境变化 → 新感知
这种 感知—行动闭环(perception–action loop) 使人类持续获得带有因果信息的数据。相比之下,当前 AI 系统主要依赖离线数据集,缺少这种持续交互的数据来源。
3 仿真环境不够
仿真环境数据生成快、成本低、实验可控,但本质上是基于假设建立的世界模型,不可避免地包含大量 inductive bias。在飞行器空气动力学仿真等成熟工程领域,这类模型价值很高;但对于训练通用的现实世界能力,sim-to-real gap 仍然显著。
4 第一视角数据与 AR 平台
一种值得关注的数据类型是 人类第一视角数据(egocentric data):第一视角视频、手部动作、语音交互、环境变化。Meta 的 Ego4D 项目已经在这个方向进行了大规模探索。
如何规模化获取?AR 设备可能是一个关键载体。如果 AR 逐渐成为日常计算平台,意味着数亿用户每天数小时的真实世界感知数据——本质上是一个分布式的现实世界传感网络。类似的逻辑已在自动驾驶领域得到验证:Tesla 通过百万级终端持续回传真实驾驶场景,形成数据飞轮驱动模型迭代。
当然,大规模第一视角数据采集面临严峻的 隐私挑战。Meta Ray-Ban 智能眼镜已经引发广泛争议,如何在数据价值与用户隐私之间取得平衡,是这条路径绕不开的核心问题。
5 一个可能的推论
从长期角度看,一个关键问题浮现:谁能够持续获得高质量的真实世界数据。
模型架构可以开源复制,算力可以按需采购,但数据飞轮——大规模用户持续产生的真实交互数据——几乎无法复制。这意味着占据感知入口的公司(无论是 AR 生态、自动驾驶网络,还是其他大规模终端平台),可能比单纯掌握模型能力的公司,在 AI 落地现实世界这件事上拥有更深的结构性优势。
注:从人类行为数据出发而非直接使用机器人探索数据,主要原因在于当前机器人自主探索效率较低,且在真实环境中存在安全约束,人类行为数据可以提供更高效的先验知识。