國內外三個不同領域巨頭分享的Redis實戰經驗及使用場景

NO IMAGE

隨著資料體積的激增,MySQL memcache已經滿足不了大型網際網路類應用的需求,許多機構也紛紛選擇Redis作為其架構上的補充,下面就一覽新浪微博、Pinterest及Viacom的實踐分享。

隨著應用對高效能需求的增加,NoSQL逐漸在各大名企的系統架構中生根發芽。這裡我們將為大家分享社交巨頭新浪微博、傳媒巨頭Viacom及圖片分享領域佼佼者Pinterest帶來的Redis實踐,首先我們看新浪微博 @啟盼cobain的Redis實戰經驗分享:

新浪微博:史上最大的Redis叢集

Tape is Dead,Disk is Tape,Flash is Disk,RAM Locality is King. — Jim Gray

Redis不是比較成熟的memcache或者Mysql的替代品,是對於大型網際網路類應用在架構上很好的補充。現在有越來越多的應用也在紛紛基於Redis做架構的改造。首先簡單公佈一下Redis平臺實際情況:

  • 2200 億 commands/day 5000億Read/day 500億Write/day
  • 18TB Memory
  • 500 Servers in 6 IDC 2000 instances

應該是國內外比較大的Redis使用平臺,今天主要從應用角度談談Redis服務平臺。

Redis使用場景

1.Counting(計數)

計數的應用在另外一篇文章裡較詳細的描述,計數場景的優化 http://www.xdata.me/?p=262這裡就不多加描述了。

可以預見的是,有很多同學認為把計數全部存在記憶體中成本非常高,我在這裡用個圖表來表達下我的觀點:

很多情況大家都會設想純使用記憶體的方案會很有很高成本,但實際情況往往會有一些不一樣:

  • COST,對於有一定吞吐需求的應用來說,肯定會單獨申請DB、Cache資源,很多擔心DB寫入效能的同學還會主動將DB更新記入非同步佇列,而這三塊的資源的利用率一般都不會太高。資源算下來,你驚異的發現:反而純記憶體的方案會更精簡!
  • KISS原則,這對於開發是非常友好的,我只需要建立一套連線池,不用擔心資料一致性的維護,不用維護非同步佇列。
  • Cache穿透風險,如果後端使用DB,肯定不會提供很高的吞吐能力,cache宕機如果沒有妥善處理,那就悲劇了。
  • 大多數的起始儲存需求,容量較小。

2.Reverse cache(反向cache)

面對微博常常出現的熱點,如最近出現了較為火爆的短鏈,短時間有數以萬計的人點選、跳轉,而這裡會常常湧現一些需求,比如我們向快速在跳轉時判定使用者等級,是否有一些賬號繫結,性別愛好什麼的,已給其展示不同的內容或者資訊。

普通採用memcache Mysql的解決方案,當呼叫id合法的情況下,可支撐較大的吞吐。但當呼叫id不可控,有較多垃圾使用者呼叫時,由於memcache未有命中,會大量的穿透至Mysql伺服器,瞬間造成連線數瘋長,整體吞吐量降低,響應時間變慢。

這裡我們可以用redis記錄全量的使用者判定資訊,如string key:uid int:type,做一次反向的cache,當使用者在redis快速獲取自己等級等資訊後,再去Mc Mysql層去獲取全量資訊。如圖:

當然這也不是最優化的場景,如用Redis做bloomfilter,可能更加省用記憶體。

3.Top 10 list

產品運營總會讓你展示最近、最熱、點選率最高、活躍度最高等等條件的top list。很多更新較頻繁的列表如果使用MC MySQL維護的話快取失效的可能性會比較大,鑑於佔用記憶體較小的情況,使用Redis做儲存也是相當不錯的。

4.Last Index

使用者最近訪問記錄也是redis list的很好應用場景,lpush lpop自動過期老的登陸記錄,對於開發來說還是非常友好的。

5.Relation List/Message Queue

這裡把兩個功能放在最後,因為這兩個功能在現實問題當中遇到了一些困難,但在一定階段也確實解決了我們很多的問題,故在這裡只做說明。

Message Queue就是通過list的lpop及lpush介面進行佇列的寫入和消費,由於本身效能較好也能解決大部分問題。

6.Fast transaction with Lua

Redis 的Lua的功能擴充套件實際給Redis帶來了更多的應用場景,你可以編寫若干command組合作為一個小型的非阻塞事務或者更新邏輯,如:在收到message推送時,同時1.給自己的增加一個未讀的對話 2.給自己的私信增加一個未讀訊息 3.最後給傳送人回執一個完成推送訊息,這一層邏輯完全可以在Redis Server端實現。

但是,需要注意的是Redis會將lua script的全部內容記錄在aof和傳送給slave,這也將是對磁碟,網絡卡一個不小的開銷。

7.Instead of Memcache

  1. 很多測試和應用均已證明,
  2. 在效能方面Redis並沒有落後memcache多少,而單執行緒的模型給Redis反而帶來了很強的擴充套件性。
  3. 在很多場景下,Redis對同一份資料的記憶體開銷是小於memcache的slab分配的。
  4. Redis提供的資料同步功能,其實是對cache的一個強有力功能擴充套件。

Redis使用的重要點

1.rdb/aof Backup!

我們線上的Redis 95%以上是承擔後端儲存功能的,我們不僅用作cache,而更為一種k-v儲存,他完全替代了後端的儲存服務(MySQL),故其資料是非常重要的,如果出現資料汙染和丟失,誤操作等情況,將是難以恢復的。所以備份是非常必要的!為此,我們有共享的hdfs資源作為我們的備份池,希望能隨時可以還原業務所需資料。

2.Small item & Small instance!

由於Redis單執行緒(嚴格意義上不是單執行緒,但認為對request的處理是單執行緒的)的模型,大的資料結構list,sorted set,hash set的批量處理就意味著其他請求的等待,故使用Redis的複雜資料結構一定要控制其單key-struct的大小。

另外,Redis單例項的記憶體容量也應該有嚴格的限制。單例項記憶體容量較大後,直接帶來的問題就是故障恢復或者Rebuild從庫的時候時間較長,而更糟糕的是,Redis rewrite aof和save rdb時,將會帶來非常大且長的系統壓力,並佔用額外記憶體,很可能導致系統記憶體不足等嚴重影響效能的線上故障。我們線上96G/128G記憶體伺服器不建議單例項容量大於20/30G。

3.Been Available!

業界資料和使用比較多的是Redis sentinel(哨兵)

http://www.huangz.me/en/latest/storage/redis_code_analysis/sentinel.html

http://qiita.com/wellflat/items/8935016fdee25d4866d9

2000行C實現了伺服器狀態檢測,自動故障轉移等功能。

但由於自身實際架構往往會複雜,或者考慮的角度比較多,為此 @許琦eryk和我一同做了hypnos專案。

hypnos是神話中的睡神,字面意思也是希望我們工程師無需在休息時間處理任何故障。:-)

其工作原理示意如下:

Talk is cheap, show me your code! 稍後將單獨寫篇部落格細緻講下Hypnos的實現。

4.In Memory or not?

發現一種情況,開發在溝通後端資源設計的時候,常常因為習慣使用和錯誤瞭解產品定位等原因,而忽視了對真實使用使用者的評估。也許這是一份歷史資料,只有最近一天的資料才有人進行訪問,而把歷史資料的容量和最近一天請求量都拋給記憶體類的儲存現實是非常不合理的。

所以當你在究竟使用什麼樣的資料結構儲存的時候,請務必先進行成本衡量,有多少資料是需要儲存在記憶體中的?有多少資料是對使用者真正有意義的。因為這其實對後端資源的設計是至關重要的,1G的資料容量和1T的資料容量對於設計思路是完全不一樣的

Plans in future?

1.slave sync改造

全部改造線上master-slave資料同步機制,這一點我們借鑑了MySQL Replication的思路,使用rdb aof pos作為資料同步的依據,這裡簡要說明為什麼官方提供的psync沒有很好的滿足我們的需求:

假設A有兩個從庫B及C,及 A `— B&C,這時我們發現master A伺服器有宕機隱患需要重啟或者A節點直接宕機,需要切換B為新的主庫,如果A、B、C不共享rdb及aof資訊,C在作為B的從庫時,仍會清除自身資料,因為C節點只記錄了和A節點的同步狀況。

故我們需要有一種將A`–B&C 結構切換切換為A`–B`–C結構的同步機制,psync雖然支援斷點續傳,但仍無法支援master故障的平滑切換。

實際上我們已經在我們定製的Redis計數服務上使用瞭如上功能的同步,效果非常好,解決了運維負擔,但仍需向所有Redis服務推廣,如果可能我們也會向官方Redis提出相關sync slave的改進。

2.更適合redis的name-system Or proxy

細心的同學發現我們除了使用DNS作為命名系統,也在zookeeper中有一份記錄,為什麼不讓使用者直接訪問一個系統,zk或者DNS選擇其一呢?

其實還是很簡單,命名系統是個非常重要的元件,而dns是一套比較完善的命名系統,我們為此做了很多改進和試錯,zk的實現還是相對複雜,我們還沒有較強的把控粒度。我們也在思考用什麼做命名系統更符合我們需求。

3.後端資料儲存

大記憶體的使用肯定是一個重要的成本優化方向,flash盤及分散式的儲存也在我們未來計劃之中。(原文連結: Largest Redis Clusters Ever

Pinterest:Reids維護上百億的相關性

Pinterest已經成為矽谷最瘋故事之一,在2012年,他們基於PC的業務增加1047%,移動端採用增加1698%, 該年3月其獨立訪問數量更飆升至533億。在Pinterest,人們關注的事物以百億記——每個使用者介面都會查詢某個board或者是使用者是否關注的行為促成了異常複雜的工程問題。這也讓Redis獲得了用武之地。經過數年的發展,Pinterest已經成為媒體、社交等多個領域的佼佼者,其輝煌戰績如下:

  • 獲得的推薦流量高於Google 、YouTube及LinkedIn三者的總和
  • 與Facebook及Twitter一起成為最流行的三大社交網路
  • 參考Pinterest進行購買的使用者比其它網站更高( 更多詳情

如您所想,基於其獨立訪問數,Pinterest的高規模促成了一個非常高的IT基礎設施需求。

 

通過快取來優化使用者體驗

近日,Pinterest工程經理Abhi Khune對其公司的使用者體驗需求及Redis的使用經驗 進行了分享。即使是滋生的應用程式打造者,在分析網站的細節之前也不會理解這些特性,因此先大致的理解一下使用場景:首先,為每個粉絲進行提及到的預檢查;其次,UI將準確的顯示使用者的粉絲及關注列表分頁。高效的執行這些操作,每次點選都需要非常高的效能架構。

不能免俗,Pinterest的軟體工程師及架構師已經使用了MySQL及memcache,但是快取解決方案仍然達到了他們的瓶頸;因此為了擁有更好的使用者體驗,快取必須被擴充。而在實際操作過程中,工程團隊已然發現快取只有當使用者sub-graph已經在快取中時才會起到作用。因此。任何使用這個系統的人都需要被快取,這就導致了整個圖的快取。同時,最常見的查詢“使用者A是否關注了使用者B”的答案經常是否定的,然而這卻被作為了快取丟失,從而促成一個資料庫查詢,因此他們需要一個新的方法來擴充套件快取。最終,他們團隊決定使用Redis來儲存整個圖,用以服務眾多的列表。

使用Redis儲存大量的Pinterest列表

Pinterest使用了Redis作為解決方案,並將效能推至了記憶體資料庫等級,為使用者儲存多種型別列表:

  • 關注者列表
  • 你所關注的board列表
  • 粉絲列表
  • 關注你board的使用者列表
  • 某個使用者中board中你沒有關注的列表
  • 每個board的關注者及非關注者

Redis為其7000萬使用者儲存了以上的所有列表,本質上講可以說是儲存了所有粉絲圖,通過使用者ID分片。鑑於你可以通過型別來檢視以上列表的資料,分析概要資訊被用看起來更像事務的系統儲存及訪問。Pinterest當下的使用者like被限制為10萬,初略進行統計:如果每個使用者關注25個board,將會在使用者及board間產生17.5億的關係。同時更加重要的是,這些關係隨著系統的使用每天都會增加。

Pinterest的Reids架構及運營

通過Pinterest的一個創始人瞭解到,Pinterest開始使用Python及訂製的Django編寫應用程式,並一直持續到其擁有1800萬使用者級日410TB使用者資料的時候。雖然使用了多個儲存對資料進行儲存,工程師根據使用者id使用了8192個虛擬分片,每個分片都執行在一個Redis DB之上,同時1個Redis例項將執行多個Redis DB。為了對CPU核心的充分使用,同一臺主機上同時使用多執行緒和單執行緒Redis例項。

鑑於整個資料集執行在記憶體當中,Redis在Amazon EBS上對每秒傳輸進來的寫入都會進行持久化。擴充套件主要通過兩個方面進行:第一,保持50%的利用率,通過主從轉換,機器上執行的Redis例項一半會轉譯到一個新機器上;第二,擴充套件節點和分片。整個Redis叢集都會使用一個主從配置,從部分將被當做一個熱備份。一旦主節點失敗,從部分會立刻完成主的轉換,同時一個新的從部分將會被新增,ZooKeeper將完成整個過程。同時他們每個小時都會在Amazon S3上執行BGsave做更持久的儲存——這項Reids操作會在後端進行,之後Pinterest會使用這些資料做MapReduce和分析作業。(更多內容見原文)

Viacom:Redis在系統中的用例盤點

Viacom是全球最大的傳媒集體之一,同時也遭遇了當下最大的資料難題之一:如何處理日益劇增的動態視訊內容。

著眼這一挑戰的上升趨勢,我們會發現:2010年世界上所有資料體積達到ZB級,而單單2012這一年,網際網路產生的資料就增加了2.8個ZB,其中大部分的資料都是非結構化的,包括了視訊和圖片。

覆蓋MVN(以前稱為MTV Networks、Paramount及BET),Viacom是個名副其實的傳媒巨頭,支援眾多人氣站點,其中包括The Daily Show、osh.0、South Park Studios、GameTrailers.com等。作為媒體公司,這些網站上的文件、圖片、視訊短片都在無時無刻的更新。長話短說,下面就進入Viacom高階架構師Michael Venezia 分享的Redis實踐:

Viacom的網站架構背景

對於Viacom,橫跨多個站點傳播內容讓必須專注於規模的需求,同時為了將內容竟可能快的傳播到相應使用者,他們還必須聚焦內容之間的關係。然而即使The Daily Show、Nickelodeon、Spike或者是VH1 這些單獨的網站上,日平均PV都可以達到千萬,峰值時流量更會達到平均值的20-30倍。同時基於對實時的需求,動態的規模及速度已成為架構的基礎之一。

除去動態規模之外,服務還必須基於使用者正在瀏覽的視訊或者是地理位置來推測使用者的喜好。比如說,某個頁面可能會將一個獨立的視訊片段與本地的促銷,視訊系列的額外部分,甚至是相關視訊聯絡起來。為了能讓使用者能在網站上停留更長的時間,他們建立了一個能基於詳細後設資料自動建立頁面的軟體引擎,這個引擎可以根據使用者當下興趣推薦額外的內容。鑑於用於興趣的隨時改變,資料的型別非常廣泛——類似graph-like,實際上做的是大量的join。

這樣做有利於減少類似視訊的大體積檔案副本數,比如資料儲存中一個獨立的記錄是Southpark片段“Cartman gets an Anal Probe”,這個片段可能也會出現在德語的網站上。雖然視訊是一樣的,但是英語使用者搜尋的可能就是另一個不同的詞語。後設資料的副本轉換成搜尋結果,並指向相同的視訊。因此在美國使用者搜尋真實標題的情況下,德國瀏覽者可能會使用轉譯的標題——德國網站上的“Cartman und die Analsonde”。

這些後設資料覆蓋了其它記錄或者是物件,同時還可以根據使用環境來改變內容,通過不同的規則集來限制不同地理位置或者是裝置請求的內容。

Viacom的實現方法

儘管許多機構通過使用ORM及傳統關係型資料庫來解決這個問題,Viacom卻使用了一個迥然不同的方法。

本質上,他們完全承擔不了對資料庫的直接訪問。首先,他們處理的大部分都是流資料,他們偏向於使用Akamai從地理上來分配內容。其次,基於頁面的複雜性可能會取上萬個物件。取如此多的資料顯然會影響到效能,因此JSON在1個資料服務中投入了使用。當然,這些JSON物件的快取將直接影響到網站效能。同時,當內容或者是內容之間的關係發生改變時,快取還需要動態的進行更新。

Viacom依靠物件基元和超類解決這個問題,繼續以South Park為例:一個私有的“episode”類包含了所有該片段相關資訊,一個“super object”將有助於發現實際的視訊物件。超類這個思想確實非常有益於建設低延遲頁面的自動建設,這些超類可以幫助到基元物件到快取的對映及儲存。

Viacom為什麼要使用Redis

每當Viacom上傳一個視訊片段,系統將建立一個私有的物件,並於1個超類關聯。每一次修改,他們都需要重估私有物件的每個改變,並更新所有複合物件。同時,系統還需要無效Akamail中的URL請求。系統現有架構的組合及更敏捷的管理方法需求將Viacom推向了Redis。

基於Viacom主要基於PHP,所以這個解決方案必須支援PHP。他們首先選擇了memcached做物件儲存,但是它並不能很好的支援hashmap;同時他們還需要一個更有效的進行無效步驟的重估,即更好的理解內容的依賴性。本質上說,他們需要時刻跟進無效步驟中的依賴性改變。因此他們選擇了Redis及Predis的組合來解決這個問題。

他們團隊使用Redis給southparkstudios.com和thedailyshow.com兩個網站建設依賴性圖,在取得了很大的成功後他們開始著眼Redis其它適合場景。

Redis的其它使用場景

顯而易見,如果有人使用Redis來建設依賴性圖,那麼使用它來做物件處理也是說得通的。同樣,這也成了架構團隊為Redis選擇的第二使用場景。Redis的複製及持久化特性同時也征服了Viacom的運營團隊,因此在幾個開發週期後,Redis成為他們網站的主要資料及依賴性儲存。

後兩個用例則是行為追蹤及瀏覽計數的緩衝,改變後的架構是Redis每幾分鐘向MySQL中儲存一次,而瀏覽計數則通過Redis進行儲存及計數。同時Redis還被用來做人氣的計算,一個基於訪問數及訪問時間的得分系統——如果某個視訊最近被訪問的次數越多,它的人氣就越高。在如此多內容上每隔10-15分鐘做一次計算絕對不是類似MySQL這樣傳統關係型資料庫的強項,Viacom使用Redis的理由也非常簡單——在1個儲存瀏覽資訊的Redis例項上執行Lua批處理作業,計算出所有的得分表。資訊被拷貝到另一個Redis例項上,用以支援相關的產品查詢。同時還在MySQL上做了另一個備份,用以以後的分析,這種組合會將這個過程耗費的時間降低60倍。

Viacom還使用Redis儲存一步作業資訊,這些資訊被插入一個列表中,工作人員則使用BLPOP命令列在佇列中抓取頂端的任務。同時zsets被用於從眾多社交網路(比如Twitter及Tumblr)上綜合內容,Viacom通過Brightcove視訊播放器來同步多個內容管理系統。

橫跨這些用例,幾乎所有的Redis命令都被使用——sets、lists、zlists、hashmaps、scripts、counters等。同時,Redis也成為Viacom可擴充套件架構中不可或缺的一環。

相關連結:

Using Redis at Pinterest for Billions of Relationships 

8 Ways Media Giant Viacom Uses Redis to Serve Dynamic
Video At Scale
 (審校/周小璐)

From: http://www.csdn.net/article/2013-10-07/2817107-three-giant-share-redis-experience