olap資料分析

1/2ページ

資料分析中缺失值處理~R語言

最近接到了一些真實的資料,資料中包含著許多缺失值,如何對缺失值處理,能更好的為我們做資料分析,更高效率的建模,縮小在測試集上預測分析的偏差,當然這個偏差越小我們肯定越高興的。 資料準備 我用的是一份地理樣本資料,裡面有座標,各種物質成分(Ca,N,P等) 對於缺失資料的檢驗,有多個方法。 第一種: […]

【資料分析】001、業餘如何快速學習資料分析

轉自知乎:https://www.zhihu.com/question/22119753 1.1    方法論 高票答案分兩種。 一是提供學習資源的,各種經典書籍、網站教程,都很好,能夠為初學者減少很多資源篩選的時間。但對於很多浮躁的小白來說,無疑是目標缺失的,每一部分學完能做什麼,如何應用,是一個 […]

資料分析與機器學習入門(一)——EDA探索性資料分析(持續更新中…)

與傳統的統計分析方法的區別 單變數分析 兩個變數的分析 報表 與傳統的統計分析方法的區別: 傳統:先假定資料服從某種分佈,然後運用這種模型進行預測,以概率論為基礎,做各種的引數檢驗。 EDA:“拋開”概率理論,從資料出發,強調資料視覺化 單變數分析 基本統計量(中位數、四分位數、偏度、峰度等等) 偏 […]

【資料分析】電商資料探勘之關聯演算法(一)

所謂關聯,反映的是一個事件和其他事件之間依賴或關聯的知識。當我們查詢英文文獻的時候,可以發現有兩個英文詞都能形容關聯的含義。第一個是相關性relevance,第二個是關聯性association,兩者都可以用來描述事件之間的關聯程度。其中前者主要用在網際網路的內容和文件上,比如搜尋引擎演算法中文件之 […]

從資料分析看遊戲粘性——正確理解DAU/MAU

不少遊戲開發者特別看重遊戲的DAU/MAU,認為這項指標直接說明遊戲的質量如何,如果這個指標的表現不好,就認為這款遊戲做的不好。這種觀點是片面的,移動遊戲的運營資料分析是一個比較複雜的工作,每項指標都有其應有的作用,並且各項指標、維度,需要綜合評估。單憑一項指標,就下定論,並不可取。這裡,我們來簡單 […]

資料分析介紹之一——單變數資料觀察之抖動圖

資料分析介紹之一——單變數資料觀察之抖動圖 一、單變數資料關注的幾個問題 資料點的位置在哪裡,它們如何傳播?什麼是典型資料、最小和最大值? 資料是如何分配的? 它們是均勻分佈還是在某些地方聚集? 有多少個點? 這是一個大資料集還是比較小的? 分佈對稱還是不對稱? 換句話說,分佈的尾巴在一邊是否比另一 […]

用資料分析看共享單車

前幾天是小文人生中一個非常重要的紀念日,說不上里程碑,但也是非常值得紀念的一個日子,為此,小文騎著“hello bike”奔向慶祝的大道上。有人問,為什麼要騎共享單車,那還用說嗎?這是情(zhuang)調(bi)懂不懂… 那天之後,小文就想做一個關於共享單車的分析,上kaggle看見有一個資料集&# […]