【學習筆記】基於隨機森林分類的微博機器使用者識別研究

NO IMAGE

1.基於隨機森林分類的微博機器使用者識別研究  這篇論文在網上隨便找

2.文中提出了8個點來識別是否為機器使用者

條件資訊熵
內容相似度

互關的比例

發私信率等等

比較難實現的應該是第一個點,條件資訊熵,大概是如果發微博的比較規律,那麼就可能是機器使用者。

內容相似度指使用者釋出的微博與其他使用者微博的相似程度,因為機器使用者會偽裝(那我的微博全部都是hhhhh 哈哈哈哈 66666 豈不是被識別成機器使用者了?)

3.隨機森林分類

文章列了很多隨機森林分類的優點,比如每個指標只需要包含少量區分資訊就可以了,對相關性不是特別敏感,對離散點不敏感等等。

如果不知道什麼是隨機森林分類,可以先學學決策樹。

我決策樹是在《機器學習實戰》裡學的,覺得講得特別好。

隨機森林分類就是很多決策樹。

這裡決策樹的訓練還和一般的不同。要有放回地抽樣,有隨機的特徵候選集

在論文裡特徵候選集m=3,也就是在8個特徵裡隨機挑3個,構造決策樹,然後多個決策樹一起構成隨機森林分類。

4.原始資料集的獲取

呼叫api介面(微博現在有好多限制)和爬蟲,人工劃分機器學習使用者和普通使用者

感覺好麻煩啊= =