世界最大色情網站Pornhub使用AI識別AV,鑑黃師要下崗了!

NO IMAGE

總部位於加拿大的“Pornhub”是一個免費色情網站,在美國英國都有分公司,是世界三大色情網站之一。

他們根據訪客線上時長,製作了一張“誰最持久”的世界地圖。大部分的國家觀看色情影片的時間在7~10分鐘之間,包括美國、歐洲、澳大利亞等等,非洲國家時間偏長,大多超過11分鐘。

最奇妙的是中國大陸,統計資料顯示,大陸人平均觀看色情影片時間最長,平均14分鐘左右。640?wx_fmt=png&wxfrom=5&wx_lazy=1

640?wx_fmt=png&wxfrom=5&wx_lazy=1

上圖來自人民網

Pornhub

前幾天,成人色情網站Pornhub宣佈,將基於面部識別技術來自動識別網站中的AV視訊。在接下來的一年,該公司計劃識別其視訊庫中所有500萬個視訊,並對視訊進行高階分類:如場景(私人或公共場所)、女演員髮色等。

新的AI系統讓使用者手動給視訊打標籤。下圖顯示了Pornhub的機器學習模型工作步驟:

0?wx_fmt=png

1.從數千張圖片中獲得某色情明星的相關資料;

2.去除不正確的資料及模糊影象;

3.訓練機器學習模型;

4.在包含數百萬視訊的視訊庫上訓練模型;

5.使用反饋迴圈優化模型(回到第3步)。

每天訪問量達8千萬,上傳10000個成人短片,給Pornhub造成巨大的工作壓力。

Pornhub副總裁CoreyPrice說到開發該機器學習模型的初衷:“我們希望為粉絲們提供他們想要的東西,我們的新模型將能夠為他們搜尋到更準確的結果。”

AI如何鑑黃

目前,尚在測試階段的Pornhub模型一個月內只掃描了大約5萬個視訊。以這個速度,掃描整個網站將需要近十年的時間,但還有優化的空間。

0?wx_fmt=png

目前,各視訊及直播平臺的大流量促進了對“鑑黃”的需求,但使用人力鑑黃的成本高昂,且價效比低。據瞭解,直播平臺映客曾經聘用800多人進行7*24小時的內容稽核,佔用了7000平米的稽核基地。但事實上,直播的違規比例僅佔0.04%甚至更低。

相比之下,AI稽核則大大節約了時間和資金。全球各大科技公司也在積極投入使用AI稽核違規內容:

Facebook正在開發一項新的系統工具,可以在直播視訊中對違規內容進行自動標記;雅虎也對外開源了一套深度學習神經網路,專門用於自動檢測圖片是否含有色情內容;

國內的騰訊、阿里、百度、網易等多家公司,都已開始佈局AI鑑黃這一具有潛力的產業。

插一句:當年中科院計算所有一個組在做這方面的國家專案,黃色內容識別。人家都是去國外採購影片和輪子的東東回來做訓練資料的……

隨著人工標註的資料越來越多,鑑黃的手段也越加豐富。目前常見的識別方法有:

  • 機器學習 MD5識別:構建資料訓練一個機器學習模型,識別視訊影象的特徵 檔名文字特徵 檔案格式,大小等特徵;

  • 識別動作:影象識別人物行為一直是一個難點,因為特定圖片/視訊中的人物、場景複雜多變,目前的困難是訓練資料不足。不過,Google在今天釋出了一個AVA人類動作識別資料集,絕佳助攻。(請看小雞今天推送的第三條);

  • 資料識別:比如Facebook的點贊、評論數,直播產品的送禮數、線上人數。

中國並不落後

0?wx_fmt=png

百度雲的解決方案

百度雲利用業界領先的深度學習技術,判斷一張圖片的涉黃程度,分別給出色情、性感、正常三個置信度分值,使用者可以根據業務需要利用置信度分值對違規影象進行自動過濾,及時避免產品涉黃風險,大幅降低稽核人力成本。

0?wx_fmt=png

視訊稽核:通過對視訊、直播等多媒體抽幀檢測,可以快速高效檢測出不雅視訊,快速杜絕產品涉黃風險

圖片稽核:可對使用者上傳的圖片進行稽核,避免使用者上傳色情等不雅圖片,確保產品內容質量可控

另外,來自蘭州大學的餘偉也曾釋出論文—《基於圖上半監督學習的色情視訊識別演算法》

 

摘要

——

本文針對以往演算法,在色情視訊檢測時不能準確提取出鏡頭內完整前景區域的問題,提出了一種基於圖上半監督學習的色情視訊識別演算法。

該演算法藉助視訊中幀與幀之間在時間上表現出的連續性,準確的提取出視訊中完整的前景區域,再對前景區域進行膚色和隱私部位檢測以對該視訊做出識別。該演算法能夠有效地避免接近膚色背景的干擾,提高視訊中不良內容檢測的準確率。

本演算法包括以下步驟:

首先,對視訊進行鏡頭分割,獲取鏡頭內的關鍵幀。將關鍵幀和它相鄰的前後多幀影象進行幀間差分,對差分的多幀影象進行合併,提取出部分的運動前景區域。

然後,以提取的部分運動前景區域作為獲取真實前景區域的先驗資訊,採用基於圖上半監督學習演算法(線性鄰域傳播)提取出完整的前景區域。

最後,建立膚色模型,分割出完整前景區域中的膚色區域,通過對膚色區域的色情內容檢測識別出關鍵幀所屬類別,藉助關鍵幀的檢測結果判斷視訊的類別。通過實驗發現,該演算法在不良視訊檢測中表現出較好的魯棒性,檢測準確率能夠達到90%以上,能夠有效的檢測和阻斷網路中傳輸的不良視訊內容。

0?wx_fmt=png

0?wx_fmt=png

Paper:http://suo.im/4i4ZKt

 

★推薦閱讀

DeepMind釋出千年以來最強圍棋選手

MIT女教授使用AI檢測早期乳腺癌準確率97%

拍人更美!谷歌工程師揭祕Pixel
2手機黑科技

華為新品手機釋出會全程回顧

超級計算機影象識別率達人類醫生水平

一文讀懂語音識別史

打造百度AI大腦的80後科學家

斯坦福釋出3D街景資料集

谷歌重磅釋出43頁Waymo無人車報告

長期招聘志願者

加入「AI從業者社群」請備註個人資訊

新增小雞微信  liulailiuwang

640?wx_fmt=png