YouTube-8M 資料集介紹與使用總結

NO IMAGE
1 Star2 Stars3 Stars4 Stars5 Stars 給文章打分!
Loading...

比賽概述

YouTube-8M 是谷歌、YouTube共同舉辦的視訊標籤比賽,包含大量的視訊畫面資訊、音訊資訊、標籤資訊。是用於基於視訊內容的標籤分析研究的良好素材

常用網址

資料集介紹

  • 4716 類標籤,多標籤體系,平均每個視訊 3.4 個標籤。標籤定義下載:https://research.google.com/youtube8m/csv/vocabulary.csv
  • Each video must be public and have at least 1000 views
  • Each video must be between 120 and 500 seconds long
  • Each video must be associated with at least one entity from our target vocabulary
  • Adult & sensitive content is removed (as determined by automated classifiers)
  • 特徵分兩種:frame-leval, video-level,每種都包括 rgb 特徵、audio 特徵。官網下載
  • 視訊特徵源自 inception-v3 TensorFlow model & PCA
  • 音訊特徵源自《CNN Architectures for Large-Scale Audio Classification》
  • 儲存檔案格式為 .tfrecord

本地特徵提取

  • 官方開放的只有 frame-level 的特徵提取工具。成績比較好的隊伍,用到的也是 frame-level 特徵(資訊更多)參見論文《YouTube-8M: A Large-Scale Video Classification Benchmark》
  • 執行環境檢查
    1. 環境要求:TensorFlow, OpenCV (linked with ffmpeg)
    2. 檢查語句,返回 True 即可:
python -c 'import tensorflow; import cv2; print cv2.VideoCapture().open("/[path]/[to]/[some]/video1.mp4")'
  • 視訊名稱、類別資訊 .csv 格式儲存為 /[path]/[to]/[some]/vid_dataset.csv,video1.mp4、video2.mp4 是本地視訊的名稱。52;3;10 是其所屬的類別號(人為定義),可以包括多標籤,分號隔開。同一份檔案可以包含多個視訊

/[path]/[to]/[some]/video1.mp4,52;3;10
/[path]/[to]/[some]/video2.mp4,1;2

  • 提取特徵語句,特徵儲存到 output.tfrecord 檔案:
python extract_tfrecords_main.py --input /[path]/[to]/[some]/vid_dataset.csv --output_tfrecords_file /[path]/[to]/[some]/output.tfrecord

訓練 & inference

相關文章

程式語言 最新文章