CVPR 2022 · 大规模数据集

Ego4D: Around the World in 3,000 Hours of Egocentric Video

史上最大规模第一视角视频数据集与基准套件,覆盖全球 74 地、9 国、931 名拍摄者
Kristen Grauman, Andrew Westbury, et al. (85 位共同作者) · Meta AI, CMU, 及全球 13 所合作高校

Ego4D 收录 3,670 小时日常生活第一视角视频,横跨家务、户外、职场、休闲等数百种场景,是此前最大 egocentric 数据集的 20 倍以上。配套提供五大基准任务(情景记忆、手-物交互、音视频说话人分析、社交互动、行为预测),旨在催生增强现实与机器人感知领域的新一轮研究浪潮。

CVPR 2022 3,670 小时视频 931 名拍摄者 · 74 地 · 9 国 arXiv:2110.07058 ego4d-data.org
egocentric video first-person perception episodic memory hand-object interaction action forecasting large-scale dataset 第一视角视频 增强现实 机器人感知

01 动机

当前计算机视觉系统高度依赖「第三人称」互联网图像数据集,善于识别孤立的短片段对象与动作。然而,增强现实(AR)与机器人技术中的核心输入是第一视角(egocentric)的长流式视频——摄像头戴在人身上,实时记录日常互动、物体操作与社交行为。现有数据集在规模、多样性与真实性上均无法满足这一需求。

"Today's influential Internet datasets capture brief, isolated moments in time from a third-person 'spectator' view. However, in both robotics and augmented reality, the input is a long, fluid video stream from the first-person or 'egocentric' point of view — where we see the world through the eyes of an agent actively engaged with its environment."
Ego4D dataset overview: global locations and diverse activities
Ego4D 数据集全貌:随机采样 5% 视频片段,展示跨越 74 个全球地点、丰富多样的活动场景与拍摄模态。地图颜色区分各合作机构。
3,670小时视频(hours of video)
931独立拍摄者(unique camera wearers)
74全球地点(worldwide locations)
20×超越此前最大 egocentric 数据集

Ego4D 名称来源:Ego 代表 egocentric(第一视角),4D 代表三维空间加时间维度。数据集由来自 9 个国家、5 大洲的 14 个机构历时两年联合采集,历经逾 250,000 小时的标注工作,产出数百万条时序、空间与语义标注。

Ego4D scenario distribution
Ego4D 场景分布:外圈为最常见的 14 个场景(占数据的 70%),词云展示其余 30% 场景;内圈颜色对应各合作机构。数据覆盖家务、室外、职场、休闲等数百种日常场景。

02 数据集构建与基准套件

Ego4D 的核心贡献分为两部分:(1)大规模、多样化的第一视角视频数据集;(2)覆盖「过去·现在·未来」三个时间维度的五大基准任务。

数据采集策略

采用分布式采集策略:14 个合作团队分布于全球 9 个国家、5 大洲,各自招募志愿者佩戴摄像头持续拍摄 1–10 小时。绝大多数视频为非脚本、自然状态下的日常活动,拍摄者涵盖不同职业(面包师、木匠、园丁、机械师等)、年龄段(96 人超过 50 岁)与性别(45% 为女性)。平均每段原始视频约 8 分钟,远长于第三人称视频研究中常见的 10 秒片段。

采集设备使用七种不同头戴摄像头(GoPro、Vuzix Blade、Pupil Labs、ZShades、ORDRO EP6、iVue Rincon 1080、Weeview),避免模型过度拟合单一设备。除 RGB 视频外,数据还包含多种模态:

模态时长(小时)
RGB video3,670
Text narrations(文本叙述)3,670
Audio(音频)2,535
IMU(惯性测量)836
Faces(人脸,已授权)612
3D scans(Matterport3D 扫描)491
Multi-cam(多视角同步)224
Stereo(立体视频)80
Gaze(眼动追踪)45

叙事标注(Narrations)

所有视频在进入基准标注前,先经过叙事(narration)流程:标注人员每看完 5 分钟视频片段,以密集的时间戳句子描述拍摄者的每个动作。平均密度为 13.2 句/分钟,共产出 3.85M 条叙事句子,覆盖 1,772 个唯一动词与 4,336 个唯一名词。这些叙事既用于后续标注任务的引导,本身也是一项多模态自然语言研究资源。

五大基准任务:过去 · 现在 · 未来

Episodic Memory benchmark
过去(Past)— Episodic Memory:给定 egocentric 视频和查询,在用户过去的视频中定位答案所在时刻或区域。包含三种查询类型:自然语言查询(NLQ)、视觉查询(VQ)、时刻查询(MQ),共约 74K 条查询,覆盖 800 小时视频。
Present benchmarks: Hands&Objects and Audio-Visual
现在(Present)— Hands & Objects + Audio-Visual Diarization + Social Interactions: (1) Hands and Objects:识别物体状态变化的时序定位(Point-of-No-Return)、检测与分类; (2) Audio-Visual Diarization (AVD):说话人定位、追踪、身份识别、说话活动检测与语音转录; (3) Social Interactions:判断对话者是否在看向(Looking at Me, LAM)或对着摄像头拍摄者说话(Talking to Me, TTM)。
Forecasting benchmark
未来(Future)— Forecasting:包含四个子任务:(1) 运动轨迹预测(Locomotion prediction);(2) 手部运动预测(Hand movement prediction);(3) 短期物体交互预测(Short-term object interaction anticipation);(4) 长期动作序列预测(Long-term action anticipation)。
Episodic Memory query types
Episodic Memory 的三种查询类型:自然语言查询(如"我把什么放进抽屉了?")、视觉查询(给定物体图片定位其最后出现位置)、时刻查询("我什么时候给孩子读书了?")。

03 基线实验结果

论文为所有五大基准设计并评测了基线模型,使用 SlowFast(ResNet-101,Kinetics-400 预训练)作为视频特征主干,BERT 作为语言特征编码器。以下为各任务关键基线结果(verbatim from the paper)。

Episodic Memory — Natural Language Query (NLQ)

基线模型R@1, IoU=0.3 (%)R@5, IoU=0.3 (%)R@1, IoU=0.5 (%)R@5, IoU=0.5 (%)
2D-TAN (test)5.8013.902.345.96
VSLNet (test)5.4711.212.806.57
2D-TAN — visual2.296.771.323.46
2D-TAN — text3.4610.131.784.38

消融实验表明,视觉特征与文本特征对 NLQ 任务均有显著贡献(去除任一特征均导致明显性能下降)。

Forecasting — 各子任务基线

子任务基线模型关键指标
Short-term object interaction anticipationFaster RCNN + SlowFastTop-5 mAP: 1.75%
Long-term action anticipation (verbs)SlowFast + TransformerED@20: 0.741
Long-term action anticipation (nouns)SlowFast + TransformerED@20: 0.784

Locomotion prediction 基线(AlexNet + KNN):1 秒预测 1-MTE = 0.73m,5 秒预测 1-MTE = 2.73m。手部运动预测(I3D encoder):左/右手 Mean Key Frame Displacement Error 分别为 64.28 / 61.18。

Social Interactions 基线

任务基线模型mAPTop-1 Acc
Looking at Me (LAM)BiLSTM + ResNet-180.690.87
Talking to Me (TTM)Video + Audio (MFCC + ResNet-18)0.540.58
Ego4D camera wearer demographics
Ego4D 拍摄者人口统计信息(自报告数据,覆盖 64% 参与者):涵盖年龄、性别、居住国与职业分布。字体大小反映职业出现频率。45% 为女性,96 人年龄超过 50 岁。

消融与分析

通过对 NLQ 任务的视觉/文本特征消融,论文证明两类特征缺一不可:仅去除视觉特征使 R@1(IoU=0.3) 从 5.80% 降至 2.29%;仅去除文本特征降至 3.46%。这表明 egocentric NLQ 需要真正的多模态理解,而非单靠语言偏见即可解决。

叙事数据分析:13.2 句/分钟的标注密度、1,772 个唯一动词、4,336 个唯一名词,体现了 Ego4D 词汇的丰富性与真实日常活动的多样性。

04 局限性

Note:以下局限性部分由作者在论文中明确陈述(标注为「stated」),部分为根据数据集设计推断(标注为「inferred」)。
地理与人口覆盖不完整 [stated]

论文明确指出:"74 locations is still a long way from complete coverage of the globe. In addition, the camera wearers are generally located in urban or college town areas."——农村与欠发达地区代表性不足,全球日常生活活动的完整覆盖仍十分困难。

COVID-19 对采集场景的影响 [stated]

"The COVID-19 pandemic led to ample footage in stay-at-home scenarios such as cooking, cleaning, crafts, etc. and more limited opportunities to collect video at major social public events."——疫情造成社交公共场景数据偏少,采集时间也因设备电池寿命限制而集中在一天中较为活跃的时段。

标注语言偏差 [stated]

"Ego4D annotations are done by crowdsourced workers in two sites in Africa. This means that there will be at least subtle ways in which the language-based narrations are biased towards their local word choices."——叙事标注集中于少数标注站点,语言表达存在地域性偏差。

数据集规模与可及性挑战 [stated + inferred]

作者明确提供了缓解措施(预计算 SlowFast 特征、按基准子集下载),但 3,670 小时的原始视频对计算资源有限的研究者仍构成较高门槛。各基准标注仅覆盖部分小时数(48–1,000 小时不等),与全量数据之间存在差距(inferred)。

隐私与伦理风险 [stated]

论文专设附录讨论潜在社会影响:可穿戴摄像头在公共场所的普及带来隐私隐患;egocentric 感知技术若被滥用可能用于监控;未来采集工作可能缺乏同等严格的知情同意与去标识化程序。Ego4D 通过许可协议限制数据用途,但无法完全规避风险。