3 天破 9 億!上萬條評論解讀《西虹市首富》是否值得一看

NO IMAGE

原文連結:https://mp.weixin.qq.com/s/86FWpM6wG9QZLgXSKGBhPA

幾件必須說的小事

1、本次很榮幸收到【徐麟】的投稿,一個非常用心耕耘的大資料開發,歡迎有需要的朋友關注他個人公眾號:資料森麟(ID:shujusenlin)。

2、昨天送書獲獎的朋友會在文末公佈,屆時會後臺聯係獲獎小夥伴們。

3、【碼農翻身】電子書由於我的失誤,確實沒看過這本書,造成我找到的 PDF 是預覽版,小娌昨天在全網搜尋了,並沒有找到有效的網址能夠下載此書,我在各大售書平臺都找過(豆瓣,京東,噹噹),就連淘寶閒魚我都翻過,都沒有賣 PDF 版。但是我找到了碼農翻身的精華文集,基本上書中所有知識點都有整理,我會將連結連同今天的好書推薦一起放在後臺,回覆關鍵字即可。

4、上面我說朋友們聯絡我讓我找書我沒找到,肯定有人要不服了,覺得我連這麼點小事都辦不好,關注我何用?那你現在就可以取關,我做公號並不只是為了幫你找書,是為了讓自己成長,讓我的讀者成長,找書是順便的事情,也是為了幫所有人推薦優質書籍做鋪墊,我自己也能在推薦中接觸到更多的好書。俗話說得好,己所不欲勿施於人 ,自己辦不到的事情,也不用非要別人辦到。希望我的讀者能體諒一下小娌,我真的用心幫你找過了,在此向我所有的粉絲們抱歉,你們領到的碼農翻身並不是完整版。

前言

縱觀近幾年的國產電影市場,“開心麻花“似乎已經成為了票房的保證。從《夏洛特煩惱》、《羞羞的鐵拳》到最新上映的《西虹市首富》都引爆了票房。本期我們會根據從貓眼電影網爬取到的上萬條評論為你解讀《西虹市首富》是否值得一看。

image

資料爬取

此次資料爬取我們參考了之前其他文章中對於貓眼資料的爬取方法,呼叫其介面,每次取出部分資料並進行去重,最終得到上萬條評論,程式碼如下:

tomato = pd.DataFrame(columns=['date','score','city','comment','nick'])for i in range(0, 1000):   j = random.randint(1,1000)   print(str(i) ' ' str(j))   try:      time.sleep(2)       url= 'http://m.maoyan.com/mmdb/comments/movie/1212592.json?_v_=yes&offset='  str(j)      html = requests.get(url=url).content      data = json.loads(html.decode('utf-8'))['cmts']      for item in data:          tomato = tomato.append({               'date':item['time'].split(' ')[0],               'city':item['cityName'],               'score':item['score'],               'comment':item['content'],               'nick':item['nick']           },ignore_index=True)       tomato.to_csv('西虹市首富4.csv',index=False)                              except:       continue

資料分析

我們看一下所得到的資料

image

資料中我們可以得到使用者的暱稱,方便後面進行去重。後面的部分主要圍繞評分、城市、評論展開。

評論分佈熱力圖

image

京津翼、江浙滬、珠三角等在各種榜單長期霸榜單的區域,在熱力圖中,依然佔據著重要地位。同時,我們看到東三省和四川、重慶所在區域也有著十分高的熱度,這也與沈騰自身東北人&四川女婿的身份不謀而合。

主要城市評論數

下面我們要看的是主要城市的評論數量與打分情況

image

打出最高分4.77分的正是沈騰家鄉的省會城市哈爾濱(沈騰出生於黑龍江齊齊哈爾),看來沈騰在黑龍江還是被廣大父老鄉親所認可的。最低分和次低分來自於合肥和鄭州,今後的開心麻花可以考慮引入加強在中部地區的宣傳。

主要城市評分

我們按照打分從高到底對城市進行排序

image

在評論數量最多的二十個城市中,評分前七名的城市中東北獨佔四席,而分數相對較低的城市中武漢、合肥、鄭州都屬於中部地區,可見不同地區的觀眾對影評的認可程度有著一定差異。

城市打分情況對映到地圖

我們把城市打分情況投射到地圖中:(紅色表示打分較高,藍色表示較低)

image

城市劃分割槽域「 較高 OR 較低 」

進一步,我們把城市劃分為評分較高和較低兩部分

較高區域

image

較低區域

image

可以看到對於“西紅柿”,南北方觀眾的評價存在一定差異,這與每年春晚各個地區收視率似乎有一些吻合知乎。沈騰本身也是春晚的常客,電影中自然會帶一些“春晚小品味”,這似乎可以一定程度上解釋我們得到的結果。

生成評論詞雲

看過了評分,我們看一下評論生成的詞雲圖,以下分別是原圖和據此繪製的詞雲圖

image

image

不知道大家的想法如何,至少在我看到了這樣的詞雲,搞笑、笑點、值得、開心、不錯,甚至是哈哈都會激起我強烈的看片慾望。同時,沈騰也被大家反覆提起多次,可以預見其在片中有著非常不錯的表演,也會一定程度上激發大家看片的慾望。

程式碼示例

熱力圖

tomato_com = pd.read_excel('西虹市首富.xlsx')grouped=tomato_com.groupby(['city'])grouped_pct=grouped['score']#tip_pct列city_com = grouped_pct.agg(['mean','count'])city_com.reset_index(inplace=True)city_com['mean'] = round(city_com['mean'],2)data=[(city_com['city'][i],city_com['count'][i]) for i in range(0,      city_com.shape[0])]geo = Geo('《西虹市首富》全國熱力圖', title_color="#fff",         title_pos="center", width=1200,         height=600, background_color='#404a59')attr, value = geo.cast(data)geo.add("", attr, value, type="heatmap", visual_range=[0, 200],visual_text_color="#fff",       symbol_size=10, is_visualmap=True,is_roam=False)geo.render('西虹市首富全國熱力圖.html')

折線圖 柱形圖組合

city_main = city_com.sort_values('count',ascending=False)[0:20]attr = city_main['city']v1=city_main['count']v2=city_main['mean']line = Line("主要城市評分")line.add("城市", attr, v2,         is_stack=True,xaxis_rotate=30,        yaxis_min=4.2,mark_point['min','max'],        xaxis_interval=0,line_color='lightblue',        line_width=4, mark_point_textcolor='black',        mark_point_color='lightblue',        is_splitline_show=False)  bar = Bar("主要城市評論數")bar.add("城市", attr, v1, is_stack=True,xaxis_rotate=30,yaxis_min=4.2,        xaxis_interval =0,is_splitline_show=False)overlap = Overlap()# 預設不新增 x y 軸,並且 x y 軸的索引都為 0overlap.add(bar)overlap.add(line, yaxis_index=1, is_add_yaxis=True)overlap.render('主要城市評論數_平均分.html')

詞雲

tomato_str =  ' '.join(tomato_com['comment'])words_list = []word_generator = jieba.cut_for_search(tomato_str) for word in word_generator:   words_list.append(word)words_list = [k for k in words_list if len(k)>1]back_color = imread('西紅柿.jpg')  # 解析該圖片wc = WordCloud(background_color='white',                 # 背景顏色              max_words=200,                 # 最大詞數              mask=back_color,                 # 以該引數值作圖繪製詞雲,這個引數不為空時,width和height會被忽略              max_font_size=300,                 # 顯示字型的最大值              stopwords=STOPWORDS.add('苟利國'),                 # 使用內建的遮蔽詞,再新增'苟利國'              font_path="C:/Windows/Fonts/STFANGSO.ttf",               random_state=42,                 # 為每個詞返回一個PIL顏色                             # width=1000,  # 圖片的寬                             # height=860  #圖片的長                           )tomato_count = Counter(words_list)wc.generate_from_frequencies(tomato_count)# 基於彩色影象生成相應彩色image_colors = ImageColorGenerator(back_color)# 繪製詞雲plt.figure()plt.imshow(wc.recolor(color_func=image_colors))plt.axis('off')

票房預估

最後我們來大膽預估下《西虹市首富》的票房,我們日常在工作中會選取標杆來對一些即將發生的事情進行預估。這次我們選擇的標杆就是《羞羞的鐵拳》

image

基於以下幾點我們選擇《羞羞的鐵拳》作為標杆:

  • 均是開心麻花出品、題材相似

  • 演員陣容重合度高

  • 豆瓣粉絲認可程度相似(評分均為6.9,處於喜劇片中位數水平)

  • 貓眼粉絲認可程度相似(鐵拳評分9.1,西紅柿評分9.3)

城票房前三天走勢

我們看一下兩部影片前三天的走勢

image

前三天兩部片子的票房走勢十分相似,基於之前我們的平均,我們可以嘗試性(比隨機準一點)預測一下“西紅柿”最終的票房。“西紅柿”票房預測值≈“鐵拳”總票房/“鐵拳”前三天票房*“西紅柿”前三天票房=22.13/5.25*8.62≈36,考慮到鐵拳上映是在國慶假期,西紅柿的票房預估需要相應的下調。

綜上所述,我們給出30億票房的預估。*大家來和我們一起見證本公眾號“章魚保羅”般神奇的預測的or“球王貝利”般被啪啪打臉的預測。*

推薦閱讀

來北京的日子
這麼多年都白學了,原來是方法沒有用對
貝斯狸的 Python 之旅 – 深入切片操作及原理
牆裂推薦 Anaconda | 安利 Python IDE
程式設計界的半壁江山

好書推薦

流暢的 Python

本書致力於幫助Python開發人員挖掘這門語言及相關程式庫的優秀特性,避免重複勞動,同時寫出簡潔、流暢、易讀、易維護,並且具有地道Python風格的程式碼。本書尤其深入探討了Python語言的高階用法,涵蓋資料結構、Python風格的物件、並行與併發,以及超程式設計等不同的方面。

本書適合中高階Python軟體開發人員閱讀參考。

豆瓣簡介

本書由奮戰在 Python 開發一線近 20 年的 Luciano Ramalho 執筆,Victor Stinner、Alex Martelli 等 Python 大咖擔綱技術審稿人,從語言設計層面剖析程式設計細節,兼顧 Python 3 和 Python 2,告訴你 Python 中不親自動手實踐就無法理解的語言陷阱成因和解決之道,教你寫出風格地道的 Python 程式碼。

● Python 資料模型:理解為什麼特殊方法是物件行為一致的關鍵。

● 資料結構:充分利用內建型別,理解 Unicode 文字和位元組二象性。

● 把函式視作物件:把 Python 函式視作一等物件,並瞭解這一點對流行的設計模式的影響。

● 物件導向習慣用法:通過構建類學習引用、可變性、介面、運算子過載和多重繼承。

● 控制流程:學習使用上下文管理器、生成器、協程,以及通過 concurrent.futures 和 asyncio包實現的併發。

● 超程式設計:理解特性、描述符、類裝飾器和元類的工作原理。

image

當我談跑步時,我談些什麼

村上春樹,日本著名作家。還是是一位跑步發燒友、馬拉松愛好者。他已經堅持跑了 32 年,還曾經專門到雅典參加馬拉松比賽。他的小說都是暢銷書籍,很多人都是他的忠實讀者,這樣一個自律的人,給讀者帶來的影響是由內而外的。

豆瓣簡介

他以文字名滿全球。

他的“藍調”令萬千人神迷憂傷。

文字是他的符號,“跑者藍調”何嘗不是?

不再是浮華迷茫,不再是旖旎感傷,不再羚羊掛角無跡可尋——寫了幾十年“別人”的文字,他第一次只寫自己:小說之外、故事之外、文字之外,均是不施雕琢娓娓道來,清淡如雲,寧靜如水……

image

昨天送書中獎的三個小夥伴維信 Id 為:

遙想公瑾當年】,【水風空落】,【來如風雨,去似…

看到的請主動後臺聯絡 小娌,並將您的 地址 電話 姓名 告知。

想要書籍的請在後臺留言【180801】獲取這兩本書的 PDF 版,【碼農翻身】精華文集也包括在內,我會盡量推薦自己讀過的好書,希望讀者們能跟著我一起多讀書,讀好書。

image

image