NO IMAGE

摘要: 結合人工智慧視訊理解流程和使用者的需求場景,我們將視訊AI的功能分成四個大部分,視訊智慧稽核、視訊內容理解、視訊智慧編輯、視訊版權保護。其中視訊稽核功能包括視訊鑑黃、暴恐涉政識別、廣告二維碼識別、無意義直播識別等,利用識別能力將網路上沒營養和不健康的視訊內容進行排查和處理;視訊理解功能包括視訊分類、標籤,人物識別、語音識別,同時也包括對視訊中的文字進行識別(OCR);視訊編輯層面可以實現視訊首圖、視訊摘要、視訊highlight的生成,同時支援新聞拆條;關於視訊版權,支援視訊相似性、同源視訊檢索和音視訊指紋等功能。

點此檢視原文: http://click.aliyun.com/m/40746/

寫在前面
近期,阿里視訊雲推出了智慧視訊解決方案,依託阿里雲強大的計算能力和多媒體人工智慧技術,可以提高視訊稽核、處理的效率,助力視訊產業加速。

行業背景
根據行業報告顯示,2017上半年中國線上視訊行業使用者規模已經接近6億,而2017年線上視訊市場規模已經達到了503.3億元,視訊行業進入了使用者規模穩中有升、市場規模快速擴大的階段。其中直播、短視訊等視訊形態的崛起和大範圍的行業交叉分佈也帶動了PGC、UGC的內容發展,海量的視訊等多媒體資料隨之產生。

市場的繁榮也促進了技術進步,視訊雲市場風起雲湧,大量廠商加入角逐大軍,提供從一站式音視訊雲服務到垂直細分技術服務等各類解決方案。平臺方也希望通過推陳出新的技術來重塑視訊的觀看體驗,從而沉澱更多使用者。這其中VR、AR、AI技術也走進視訊,開始為整個行業帶來創新。尤其是行業關注度非常高的人工智慧技術,它是可以基於雲端計算和人工智慧模組來對海量視訊資料進行分析、研究和處理。那麼人工智慧技術可以在視訊領域應用於哪些場景呢?

需求場景

視訊智慧稽核需求
網路發展也帶來了內容的肆意氾濫,淫穢色情、暴恐、恐怖等不良視訊影響了和諧的網路氛圍,也給平臺方帶來了很多隱患。從2014年快播被關停至今,多家線上視訊、直播、短視訊平臺都受到了處罰、整改、關停等監管措施。稍有不慎,平臺方就會置身於違規違法的邊緣。隨著UGC短視訊的爆發,傳統的人工稽核方式效率低下,很難滿足快速、準確的稽核海量的視訊內容的需求,利用AI技術來提升視訊資料的稽核效率與精準度是一個新的方向。

視訊內容理解需求
海量的視訊源源不斷的產生,如何將視訊推給最合適的人群是一個巨大的挑戰。在大多數情況下,為了方便使用者的選擇和觀看,線上視訊網站的視訊是需要分類管理的,有的短視訊APP還可以按照使用者的喜好標籤來推送指定的小視訊,以提高視訊點選率,優化使用者體驗,這一切都需要對視訊資料進行最初的理解和判斷。除此之外,在視訊監控場景中,安防管控、人流監控等動作都是以視訊理解技術為支撐的。

視訊智慧編輯需求
在我們瀏覽直播APP的時候,經常會被漂亮的封面圖所吸引,從而進入直播間。有研究稱最受使用者喜歡的視訊長度在2.1分鐘左右,那麼如何從2分鐘的視訊內選取最精華的縮影作為首圖,是非常重要的提升使用者點選率的手段。通常,平臺方會通過編輯操作或提示使用者選擇一張效果最好的截圖作為封面,但是這個辦法效果並不理想。而且在廣電新聞行業,也經常會出現需要將大段新聞拆成單條短新聞的業務場景,人工操作效率和準確率並不理想。利用AI技術,對視訊進行編輯,就可以解決這個問題。

視訊版權保護需求
網路盜版一直都是線上視訊行業的一顆毒瘤,不僅影響了版權方的利益,也不利於行業健康的發展。線上教育、金融財經分析、版權劇等平臺方都知道,如何對視訊排重、相似度判斷、盜版鑑定和防止侵權是非常重要的。目前PGC短視訊盛行,那平臺方對這些視訊進行內容保護,可以鼓勵原創性,推動視訊內容的蓬勃發展。視訊AI技術可以抓取視訊資料進行鑑別,防止自有版權內容被侵權。

視訊AI大圖
圖片描述

根據使用者的需求場景,阿里雲推出了視訊AI解決方案。上圖是通過基礎層、技術層、應用層、業務層四個層面來解讀了視訊AI解決方案的能力。在最底層,也就是基礎層,主要是做演算法的準備,保障演算法的效率和效果,包括資料、離線訓練、線上服務、移動端、高效能運算等等;第二層是技術層,這一層是演算法的技術實現,分為四類:第一是視訊檢索,可以實現視訊指紋、時序表徵、視訊索引。第二是視訊理解,可以對視訊進行識別、分類、語義分割和目標跟蹤。第三是視訊編輯,實現結構化分析、內容編解碼和內容生成。第四是多模態分析,實現OCR/ASR/Face/Motion和跨媒體理解;第三層是應用層,是在搜尋、識別、互動、編輯、監控這五類典型場景中,進行功能的封裝;最上層是業務層,在這一層中,我們結合客戶的實際業務,進行功能的提供,比如視訊內容稽核和視訊版權保護的功能可以幫助安全業務更準確、高效的開展。

結合人工智慧視訊理解流程和使用者的需求場景,我們將視訊AI的功能分成四個大部分,視訊智慧稽核、視訊內容理解、視訊智慧編輯、視訊版權保護。其中視訊稽核功能包括視訊鑑黃、暴恐涉政識別、廣告二維碼識別、無意義直播識別等,利用識別能力將網路上沒營養和不健康的視訊內容進行排查和處理;視訊理解功能包括視訊分類、標籤,人物識別、語音識別,同時也包括對視訊中的文字進行識別(OCR);視訊編輯層面可以實現視訊首圖、視訊摘要、視訊highlight的生成,同時支援新聞拆條;關於視訊版權,支援視訊相似性、同源視訊檢索和音視訊指紋等功能。

圖片描述

功能與應用

視訊智慧稽核

視訊智慧稽核依託阿里集團海量場景資料,具備高效資料流轉體系,歷經雙11保障考驗,可以對色情、暴恐、涉政、廣告內容、二維碼、無意義的視訊進行識別,同時能夠識別性暗示等未明顯露點的色情行為和gif鑑黃,保證稽核的高準確度。

功能實現了從產品接入、測試、策略管理、運營監控、到稽核打標及模型/規則動態優化的閉環能力支撐。在通用能力滿足常用場景的基礎上,支援對高階能力的定製,可根據使用者管控尺度進行靈活調整和快速迭代。為不同場景(視訊/直播/社交/電商)提供視訊內容安全稽核的整套完整解決方案。

相對於傳統的10萬張/人/天的人工效率,智慧稽核可以達到10億張/天的超高處理效率,同時大大節省了人力,成本得以壓縮。

視訊內容理解
在視訊內容理解這個階段,阿里雲提供視覺、語音、文字、運動多模態資訊分析技術,全方位理解視訊,可以把非結構化的內容進行結構化處理。主要功能體現在以下五個方面。

1. 視訊分類
通過視訊多模態特徵分析,自動對視訊進行類目分類,提高視訊分發、管理的效率。

圖片描述

2. 語音識別
將語音轉成文字的服務,能支援中文、普通話、英文的語音識別。可應用於實時會議記錄、視訊直播實時字幕等場景。

其中一個典型的應用場景是會議內容的實時轉寫,法庭庭審識別。智慧語音識別技術將參會人所說的每一句話實時轉寫成文字並進行儲存,依靠人工智慧技術替代了人工記錄會議內容,法庭庭審中取代書記員。另一個典型應用場景是視訊直播實時字幕,現場演講、直播場景下,將視訊中的音訊實時轉寫成字幕展示。相應速度極快,幾乎與直播同步,提升了視聽體驗。

3. 視訊標籤
分析視訊中影象、文字、語音、人臉、物體、行為等多模態資訊,自動為視訊打多維度標籤。
圖片描述

這個功能的應用場景包括:視訊的個性化推薦和視訊檢索,基於視訊內容,可以實現快速給視訊打多維度標籤,並在新增熱門標籤時快速補充,解決新視訊標籤缺失和新熱門標籤缺失的問題。

4. 人臉識別
人臉識別(Facial Recognition)是提供視訊幀和影象中人臉分析的服務,包括人臉檢測、人臉特徵提取、人臉關鍵點定位、人臉檢索等服務。可應用於人臉美化、人臉識別和認證、大規模人臉檢索、照片管理等場景。
圖片描述

人臉識別的功能應用場景非常廣泛,包括會場、大廈等安防管控中的大規模人臉檢索,零售行業通過人流監控分析貨品擺放合理性,出勤率統計,照片管理與智慧分類,娛樂美顏等等方面。

5. 目標檢測
目標檢測(Object Detection)是基於深度學習的目標檢測技術,準確找出給定視訊的視訊幀中多目標及位置,並給出每個目標的具體類別。應用場景包括:第一,可以檢測並識別特定類目的目標,對特定目標做有趣的互動;第二,可以識別視訊中的目標位置及目標分類,為視訊提供豐富的分類標籤,可用於個性化推薦和視訊搜尋;第三,在目標檢測後,可以對目標進行實時跟蹤定位,精確地分割出目標的時域片段,用於智慧監控系統、流量控制系統等。舉個最實際的例子,在淘寶商家上傳視訊過程中,可以自動檢測商品並跟蹤,在前端展示的時候,感興趣的使用者點選錨點可以直接進入商品頁。

圖片描述

視訊智慧編輯
視訊編輯是為了更好的輸出內容,提升使用者點選率,優化使用者體驗。在這個環節,人工智慧可以讓視訊千人千面,結合使用者行為和封面圖屬性,同一個視訊向不同使用者展示不同的畫面。並且支援類目定製,結合行業運營經驗,定製不同的封面圖生成模型。同時,視訊編輯功能具有高精準度,利用多項AI技術,對視訊進行全方位理解後,甄別出最優、最高精準度的畫面或片段。

1. 視訊首圖
通過對視訊內容的理解結合畫面美學,選出最優的關鍵幀或關鍵片段作為視訊封面圖。

圖片描述
這個功能非常適用於UGC視訊封面,使用者上傳的視訊,使用智慧生成封面圖服務,為海量視訊自動生成具有代表性的高質量封面圖,提升使用者視覺體驗,展示在 feed 流、視訊搜尋結果頁等場景。同時,在長視訊場景中,通過智慧生成封面圖服務,擷取精彩片段作為視訊看點,利用動態展示方式吸引使用者並快速展示精彩內容。

2. 視訊摘要
視訊摘要服務(Video Summary Service)根據視訊內容智慧提取最能代表視訊的截圖組成GIF,作為視訊的摘要概括。應用場景同視訊首圖。

3. 視訊Highlight
視訊摘要服務(Video Summary Service)根據視訊內容智慧提取最能代表視訊的5s視訊,作為視訊的highlight。應用場景同視訊首圖。

4. 新聞拆條
將新聞節目以單條新聞為單元自動化分割的服務,有助於後期對單條新聞的播放推送和加工處理,為新聞推送生產素材,並且可以靈活對某個或某類新聞做後期加工處理。

圖片描述

視訊版權保護
阿里雲人工智慧通過長時間調研選型驗證,如今已能夠識別多種視訊抄襲手段,保證視訊查重結果的精準性。同時支援多解析度多視訊格式,億級視訊查重及相似度實時結果返回、視訊入庫、刪除等操作。可用於如廣告分成等多種業務場景。

1. 視訊指紋
視訊指紋是一種軟體識別、提取、壓縮視訊技術,可以產生唯一“指紋”代表視訊檔案進行視訊查詢。在視訊查重場景中,視訊通過視訊指紋在樣本庫中比對,召回相同/相似視訊,進行入庫、排序控制。

同時,視訊指紋可對自有版權的視訊資源,從公網抓取視訊資料鑑別,防止自有版權內容被侵權,保護版權視訊安全,並對原創視訊、剪輯視訊、自媒體再造視訊進行識別,檢索成分庫召回認領視訊,支撐廣告分成業務生態。

2. 相似性計算
相似性技術可以生成給定視訊的定長特徵,計算視訊之間相似度。可應用於基於視訊內容推薦相關視訊,個性化視訊等場景,提高視訊點選轉化,也可以用於視訊去重業務場景。

3. 跨媒體檢索
支援對文字、語音、影象、視訊等不同多媒體種類進行內容統一特徵檢索。

效果展示及使用
我們線上上的視訊AI產品專題頁和【視網膜】頁面中,可以看到阿里雲視訊AI的能力體現。

以線上已經有的示例視訊為例,使用者可以對人物識別、視訊分類、標籤識別、語音識別、文字識別(OCR)、視訊稽核、智慧封面等功能進行體驗。

下圖是智慧封面功能,人工智慧為視訊選擇了最能代表視訊內容的一幀圖片。
圖片描述

下圖是語音識別功能將功守道電影中的精彩片段裡的音訊別出來。
圖片描述

在視網膜系統中,我們看到一段熱播劇獵場的視訊片段,示例視訊中的明星人物被完整無誤的識別出來,同時,該人物在視訊中出現的位置也被標記出來,點選標記點,即可直接跳轉到人物的片段,這就是人物識別功能。
圖片描述
整個視訊被分解出無數標籤,點選某個標籤,直接跳轉到對應的畫面,這是視訊標籤。
圖片描述

雲棲大會的視訊中,除了嘉賓演講的語音被實時識別和顯示,視訊中的字幕、現場PPT等文字資訊都也被識別出來,也就是OCR。
圖片描述