mapreduce

1/8ページ

Hadoop-2.3.0學習(6)——MapReduce效能調優

一個程式完成基本的功能是還不夠的,還有一些具有實際意義的問題需要解決,比如效能是不是足夠好、有沒有足夠的空間等。 前面都是MapReduce程式的基本實現,現在要來簡單介紹一下提高效能的方法。 輸入採用大檔案 對於同樣10G的檔案總量,MapReduce一次性處理一個10G大檔案的時間是要少於處理1 […]

大資料集的SVM訓練方法

第一篇:SVM與MapReduce結合 一:總體思路 SVM演算法在分散式雲端儲存端進行訓練,將訓練後獲得的支援向量合併,迭代以上兩個過程直到收斂。也就是說資料是分為幾個部分的,但是支援向量是全域性支援向量 二:背景介紹 當面對訓練資料集特別大的情況,有兩種方法:1.減小特徵向量的維度 如SVD,P […]

MapReduce和Yarn的理解

MapReduce設計理念:移動計算,而不移動資料 計算框架MR說明: 分為4個步驟,按順序執行: split(左淺黃色框):將單個的block進行切割,得到資料片段。 map Task(左藍色框):自己寫的map程式,一個map程式就叫一個map任務,有多少個碎片,就有多少個map任務(Java執 […]