全國到底有多少人在看直播?我用Node寫了個爬蟲統計了一下

NO IMAGE

火爆的直播

近幾年直播可以說是相當火爆,但是直播間裡動輒成百上千萬的人氣讓人禁不住產生疑惑,怎麼會有這麼高的人氣?難道全國人民都在看直播?

為了解決這個困擾我已久的問題,我專門去學習了node爬蟲的相關知識,下面就跟大家分享一下。

鬥魚

先從平常看的最多的鬥魚開始,後來也證明鬥魚是最簡單的一個。

通過去分析鬥魚的網站發現,鬥魚有一個全部分類的頁面https://www.douyu.com/directory

全國到底有多少人在看直播?我用Node寫了個爬蟲統計了一下

這個頁面已經統計好了所有分類下的總人氣,接下來要做的就是通過DOM解析操作拿到每個分類下的總人數,然後把這些人數相加就可以。

在這裡用到了cheerio這個包,這個包就相當於服務端的jQuery,用在服務器端需要對DOM進行操作的地方,使用方法也跟jQuery差不多。

因為鬥魚的網頁經過了gzip壓縮,還要用到zlib,這個包的作用是解壓縮。

// 引入https模塊
const https = require('https')
// zlib包,用於解壓縮
const zlib = require('zlib')
// cheerio包,提供了類似jQuery的功能
const cheerio = require("cheerio");
function douyu () {
// 創建請求對象
let req = https.request('https://www.douyu.com/directory', res => {
// 接收數據
let chunks = []
// 監聽到數據就存儲起來
res.on('data', chunk => {
chunks.push(chunk)
})
// 數據傳輸結束
res.on('end', () => {
// 拼接數據
var buffer = Buffer.concat(chunks)
// 使用zlib解壓縮
zlib.gunzip(buffer, function (err, decoded) {
// gzip解壓後的html文本
let html = decoded.toString()
// 使用cheerio解析html
let $ = cheerio.load(html)
// 獲取包含直播數據的元素列表
let list = $('#allCate .layout-Module-container .layout-Classify-list .layout-Classify-item .layout-Classify-card')
// 解析dom,取出標籤中的數據
const dataList = {}
Array.prototype.map.call(list, item => {
let key = '', value = ''
item.children.forEach(childrenItem => {
if (childrenItem.name === 'strong') {
key = childrenItem.children[0] ? childrenItem.children[0].data : '空'
} else if (childrenItem.name === 'div') {
value = $(childrenItem).find('span').html()
value = unescape(value.replace(/&#x/g, '%u').replace(/;/g, ''))
}
})
dataList[key] = value
})
// 相加得出總人數
let total = 0
for (let key in dataList) {
let value = dataList[key]
// 處理單位為萬的數字
if (value.indexOf('萬') != -1) value = Number.parseFloat(value) * 10000
total += Number.parseFloat(value) ? Number.parseFloat(value) : 0
}
console.log(`鬥魚:${total}`)
})
})
})
// 發送請求
req.end()
}

虎牙

查看虎牙的網站發現並沒有像鬥魚一樣提供統計的分類列表,但是找到了該網站查詢直播間列表信息的接口https://www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&tagAll=0&page=1。通過該接口可以拿到所有直播間的信息,其中就包含了每個直播間的人數,接下來就是把每個直播間的人數相加就可以得到該平臺的總人數。

// 引入https模塊
const https = require('https')
function huya {
// 初始化總數
let total = 0
// 初始化總頁數
let totalPage = 1
// 初始化當前頁數
let currentPage = 1
// 與鬥魚一樣的開始獲取、處理數據
huyaGetData(currentPage)
function huyaGetData(currentPage) {
let req = https.request(`https://www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&tagAll=0&page=${currentPage}`, res => {
const chunks = []
res.on('data', chunk => {
chunks.push(chunk)
})
res.on('end', () => {
const data = JSON.parse(Buffer.concat(chunks).toString('utf-8')).data
const dataList = data.datas
// 拿到總頁數
totalPage = data.totalPage
// 累加直播間的人數
total = dataList.reduce((total, item) => {
return total + Number.parseInt(item.totalCount)
}, total)
// 獲取下一頁的數據
currentPage += 1
if (currentPage < totalPage) {
huyaGetData(currentPage)
} else {
console.log(`虎牙:${total}`)
}
})
})
req.end()
}
}

嗶哩嗶哩

嗶哩嗶哩頁面中也有與虎牙相似的全部直播間查詢接口,統計方法與虎牙差不多,這裡就不再贅述了。

YY

在YY的網頁中並沒有提供全部直播間的查詢接口,只提供了單一分類的查詢接口https://www.yy.com/more/page.action?biz=sing&subBiz=idx&page=3&moduleId=308&pageSize=60,而每個分類查詢要傳過去的參數值都不一樣,又沒有任何規律可循,所以現在要拿到每個分類查詢所需要的信息,之後的查詢就跟虎牙一樣了。

那現在要做的就是拿到接口所需信息,通過分析頁面發現每個分類直播的列表頁都有一個pageInfo的全局變量,這裡邊就包含了查詢所需的所有信息。我們可以拿到這些分類頁面的html文件,然後解析出其中的pageInfo變量。但是這裡為了演示,我們使用另一個方法Selenium來解決這個問題。

Selenium是一個Web應用的自動化測試框架,用在爬蟲中可以使用它打開瀏覽器,用代碼去模擬人的真實操作去爬取需要的信息,突破反爬蟲手段的限制。

要使用Selenium,首先要根據平臺去下載對應的webdriver這裡chromeDriver的下載地址,根據自己電腦上Chrome的版本下載對應的chromeDriver,下載好之後複製到項目根目錄。別的瀏覽器可以自行去找對應的包下載。

然後在項目中安裝selenium-webdriver包的依賴。

const { Builder, By } = require('selenium-webdriver')
async function getYYPageInfoList() {
// 構建WebDriver對象
let driver = await new Builder().forBrowser('chrome').build();
// 打開網頁
await driver.get('https://www.yy.com/catalog');
// 獲取分類標籤列表
let aList = await driver.findElements(By.css('.w-video-module-cataloglist a'))
// 獲取分類頁面地址列表
let hrefList = []
for (let i = 0; i < aList.length - 1; i++) {
let href = await aList[i].getAttribute('href')
hrefList.push(href)
}
// 打開分類頁面
for (let i = 0; i < hrefList.length - 1; i++) {
await driver.get(hrefList[i])
// 在頁面中執行 return pageInfo, 取到pageInfo
driver.executeScript('return pageInfo').then(function (obj) {
// 存儲pageInfo信息
pageInfoList.push(obj)
})
}
// 退出瀏覽器
driver.quiet()
return pageInfoList
}

統計結果

統計結果的地址:http://liupenglong.com/live/index.html(每五分鐘統計一次)

全國到底有多少人在看直播?我用Node寫了個爬蟲統計了一下

可以看到目前僅僅統計出了鬥魚、虎牙、嗶哩嗶哩、YY的數據,總人數已經超過全國總人口了,算上別的沒有統計上的。。。結果可想而知,估計全球人民都在看中國的直播了。

接下來有時間會把別的平臺的也統計出來,最終希望能推算出來真正在看直播的人數,大家如果有什麼好的想法可以評論交流一下。

相關文章

SVG入門指南(看完,對SVG結構不在陌生)

ReactSSR詳解【近1W字】+2個項目實戰

Nginx的這些妙用,你肯定有不知道的!

[解鎖新姿勢]回想起被`ifelse`支配的恐懼,我們要打倒ifelse