YouTube-8M 資料集簡介

Preface

Google 公佈了一個大型的視訊資料集:YouTube-8M 視訊資料集(專案主頁地址),這個資料集的 Technical Report 在 arXiv 上也掛出來了:YouTube-8M: A Large-Scale Video Classification Benchmark

本文是對 Google 對這個資料集介紹的博文:Announcing YouTube-8M: A Large and Diverse Labeled Video Dataset for Video Understanding Research 的一個總結歸納,

Introduction

這個資料集包含 8,000,000 萬個 YouTube 視訊連結,這些視訊集進行了 video-level(視訊層級) 的標註,標註為 4800 種 Knowledge Graph entities(知識圖譜實體)。

這次公佈的 YouTube-8M 資料集相比較於之前公佈的資料集:YouTube-1M,又是一次的大提升。之前的 YouTube-1M 是包含 500 種體育專案的 YouTube 視訊資料集,包含 1,000,000 個視訊連結。

Characteristic

這個的資料集的特點如下:

這裡寫圖片描述

8 Million video URLs

為了保證資料集的質量,在選取視訊時,做了一些限制:

  • 每一個視訊都是公開的,且每個視訊至少有 1000 幀
  • 每一個視訊的長度在 120s 到 500s 之間
  • 每一個視訊至少與一個 Knowledge Graph entities(知識圖譜實體)相聯絡
  • 成人視訊由自動分類器移除

0.5 Million Hours of video

資料集中視訊超過了 50005000 個小時,一般需要 1PB(1PB=1024TB1PB=1024TB) 的硬碟來儲存,同時一般也需要 50 CPU-years 來處理這個視訊。

所以為了減小儲存開銷與計算時間開銷,Google 提供了 pre-computed and compressed features,這樣的話就可以在單臺機子上一天內完成模型的訓練。

1.9 Billion Frame Features

同時,已經用在 ImageNet 上訓練得到的 Inception-V3 image annotation model 提取了這些視訊的 frame-levelvideo-level 特徵。

這些特徵是從 1.9 Billion 視訊幀中,以每秒 1 幀的時間解析度進行提取的。之後進行了 PCA 降維處理,是最後的特徵能夠儲存在一張硬碟中(小於 1.5T)。

4800 Classes

這些視訊被標註的 annotation vocabulary 包含 4800 個 Knowledge Graph entities(知識圖譜實體)。

每一個 entity 至少有 120 個訓練視訊,平均每個 entity 有 2229 個訓練視訊。annotation 的定義方式參照 YouTube Data API

其中最多的一個 entity 是 Vehicle,超過了 500K 個訓練視訊;擁有最少視訊的 entity 是 Somersault,只有 120 個視訊。

4800 個 entity 被分為 24 種 frequent,最高 frequent 的是 Arts & Entertainment,超過 2,800,000 個訓練視訊。最少 frequent 是 Finance,小於 14,000 個訓練視訊。

這裡,所謂的 24 top-level verticals,詳情可以參考 Youtube-8M 主頁中的這個 Explore 頁面:dataset browser,如下圖:

這裡寫圖片描述

具體的,如 Arts & Entertainment 這類,其 Entity 如下:

這裡寫圖片描述

另外,關於資料集的具體的 labels,其歸屬的 Vertical,對應的 KnowledgeGraphID,可以參加這個 CSV 檔案:train-labels-histogram

這裡寫圖片描述

1.8 Avg.Labels/Video

每個視訊平均有 1.8 個 labels,這些 ground truth labels 來自於 Youtube data API,根據視訊的 content、metadata、contextual、user signals 對每個視訊進行 annotation。

每個視訊的 label 個數從 1 到 39,平均每個視訊有 1.8 個 labels。大約有 60%60\% 到 80%80\% 的視訊,其 labels 個數在 2~3 個。

Postscripts

上面只是我對這個資料集的一點翻譯式的記錄描述,使用時具體的詳情,請參見 Google 對這份 YouTube-8M 的 Technical Report: YouTube-8M: A Large-Scale Video Classification Benchmark

這裡寫圖片描述