今日頭條敗給了色情?AI演算法不行,還是另有隱情?

NO IMAGE

640?wx_fmt=png&wxfrom=5&wx_lazy=1

今日頭條出事了,相關負責人表示,將嚴格落實網信部門管理要求,對相關問題進行自查自糾,分別對違規問題嚴重的部分頻道暫停內容更新。今日頭條手機客戶端“推薦”“熱點”“社會”“圖片”“問答”“財經”等6個頻道自2017年12月29日18時至12月30日18時暫停更新24小時。

這兩天,有一篇文章似乎在為今日頭條打抱不平《AI 演算法起家的今日頭條為何敗給了色情?》文章稱曾經靠 AI 雄霸天下的今日頭條,如今也因 AI 的不足,敗給了色情。文章指出一些圖片會被AI誤認為是色情圖片。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

其實,小編對這種說法持懷疑態度。

1. 在追逐流量下對低俗內容的放縱,不只今日頭條,眾多的網際網路自媒體平臺、直播平臺都不同程度存在,甚至已經成為潛規則。

2. 如果因為誤殺的原因,調大閾值即可,寧可錯殺,也不可能會這麼多色情訊息。

3. 今日頭條都沒有做任何澄清,如果使用鑑黃策略,究竟是哪一家的?

圖片鑑黃哪家強?

山東藍翔!

認真點,小編不懂鑑黃的演算法,更沒有足夠的資料集去訓練模型。如果哪位同學覺得自己有足夠的資料集的話,我們可以私下探討下演算法~

0?wx_fmt=png

好了,我們選取4家知名企業,同時開放公共API的。雅虎,clarifai,阿里和騰訊的鑑黃服務進行了一次測試。

要測試不同公司鑑黃技術的好壞,首先要選擇一個客觀的測試集,就像考試需要有考卷一樣。 由於敏感性,網上很少有公開的色情圖片資料集。通過檢索筆者找到了一個名為NPDI的色情圖片測試集,NPDI色情圖片集是巴西一所大學的一個小組釋出的,他們收集了80個小時的視訊,包括400段正常的視訊,200段比較容易混淆的正常視訊和200段色情視訊,並且通過截幀獲取到1萬6千張圖片,其中色情圖片6000多張,非色情10000多張。其中一部分圖片如下圖所示。

0?wx_fmt=png

評價指標也要明確一下,這裡筆者採用了固定誤判率(FAR)下的識別率(TAR)來測試結果進行評價,其中誤判率為非色情圖片中被誤判為色情圖片的比例, 識別率為色情圖片中被正確識別的比例。例如對於一個包含100張非色情圖片和100張色情圖片的測試集,有10張非色情圖片被模型誤判為了色情圖片,同時有90張色情圖片被正確識別,那麼這個模型的誤判率就是10%, 識別率為90%。

最終測試結果如下:

  Clarifai  64.80%

  Yahoo  65.42%

  阿里    69.86%

  騰訊    75.90%

看測試結果,騰訊永珍優圖效果最好(名字也取得好)。但是結果都及格了,更加讓小編懷疑,今日頭條要麼就是自己的演算法太懶。。要麼就是故意的。我更傾向後者~

往期乾貨回顧:

【機器學習】樸素貝葉斯演算法分析

【機器學習】主成分(PCA)演算法分析

【機器學習】非線性迴歸演算法分析

【機器學習】線性迴歸演算法分析

  讀AlphaZero論文隨想

 進擊的TensorFlow

 【通俗理解】協方差

【通俗理解】貝葉斯統計

 從一個雙控開關思考神經網路(下)

 從一個雙控開關思考神經網路(上)

0?wx_fmt=jpeg