數(shù)據(jù)分析方法必備書單,數(shù)據(jù)分析師入門推薦
有不少人留言希望我推薦數(shù)據(jù)分析的書單,剛好即將春節(jié),無(wú)論是假日學(xué)習(xí)還是年后,都值得充電。讀書最好的時(shí)候是學(xué)生時(shí)期,其次是現(xiàn)在。內(nèi)容按照如何七周成為數(shù)據(jù)分析師的順序。 數(shù)據(jù)分析是一門專業(yè)且跨越多個(gè)領(lǐng)域的學(xué)科,雖然我每篇公眾號(hào)都足夠篇幅(乃至我自己覺(jué)得啰嗦),可我還是得承認(rèn)存在缺漏。如果有好書作為參考,對(duì)數(shù)據(jù)分析能力的成長(zhǎng)更有幫助。 這份書單權(quán)作入門級(jí)推薦,如果大家有更好的歡迎留言說(shuō)明。我不能保證全部看過(guò),畢竟基礎(chǔ)書沒(méi)必要看幾本,但我盡量做到客觀。建議大家根據(jù)自己基礎(chǔ)挑選,不要貪多。 大家多支持正版。 Excel 《誰(shuí)說(shuō)菜鳥不會(huì)數(shù)據(jù)分析》 知名度比較高的一套書,適合新手,優(yōu)點(diǎn)是它和數(shù)據(jù)分析結(jié)合,而不是單純地學(xué)習(xí)函數(shù)。學(xué)會(huì)函數(shù)適用的場(chǎng)景和過(guò)程比它本身更重要。 是否需要學(xué)習(xí)VBA是仁者見(jiàn)仁的答案。我個(gè)人不建議。Excel VBA的最大優(yōu)勢(shì)是適用性廣,哪怕去其他行業(yè)其他職位,都離不開Excel,這時(shí)候它就是一個(gè)工作加分的亮點(diǎn)。但是在互聯(lián)網(wǎng)行業(yè),對(duì)數(shù)據(jù)分析師,VBA的性價(jià)比就不高了。 這里只推薦一本,因?yàn)槲揖头^(guò)上面這本,還沒(méi)全看… 數(shù)據(jù)可視化 數(shù)據(jù)可視化的書不多。市面上多以編程為主,面向新手和設(shè)計(jì)的教程寥寥無(wú)幾。 如果只是了解圖表,看Excel的書籍也管用。 《鮮活的數(shù)據(jù)》 內(nèi)容很豐富,涉及可視化的方方面面,也囊括更類編程語(yǔ)言和設(shè)計(jì)軟件:Python+JS+R+Excel。作者還有另外一本書《數(shù)據(jù)之美》。 可視化是一門側(cè)重靈感的學(xué)科,有一種入門技巧是從他人設(shè)計(jì)中學(xué)習(xí),從模仿開始,了解他人是如何設(shè)計(jì)的,這個(gè)網(wǎng)絡(luò)上有大量的信息圖可以參考。當(dāng)然數(shù)據(jù)分析師更需要的是如何發(fā)現(xiàn),別只學(xué)習(xí)展示。 英文足夠好,可以看Edward Tufte的著作:《The Visual Display of Quantitative Information》、《Envisioning Information》、《Beautiful Evidence》。他是數(shù)據(jù)可視化的領(lǐng)軍人物,他的理念是反對(duì)為藝術(shù)效果而混淆或者簡(jiǎn)化數(shù)據(jù)。暫時(shí)沒(méi)有中文版。 分析思維 《金字塔原理》 分析思維首推《金字塔原理》,金字塔原理有些人說(shuō)它晦澀難懂,我認(rèn)為是芭芭拉這個(gè)老太有騙稿費(fèi)之嫌,本書包含了報(bào)告、寫文、演講等諸多內(nèi)容?梢约(xì)看可以快看。另外還有一本同名案例集,有興趣可以買。 另外麥肯錫相關(guān)的書籍還有《麥肯錫意識(shí)》《麥肯錫工具》《麥肯錫方法》等。 《深入淺出數(shù)據(jù)分析》 深入淺出系列是對(duì)新手非常友好的叢書,用生動(dòng)但啰嗦的語(yǔ)言講解案例。厚厚的一本書翻起來(lái)很快。本書涉及的基礎(chǔ)概念比較廣,包含一點(diǎn)統(tǒng)計(jì)學(xué)知識(shí),學(xué)下來(lái)對(duì)數(shù)據(jù)分析思維會(huì)有一個(gè)大概了解。 《精益數(shù)據(jù)分析》 國(guó)外的精益系列一直以互聯(lián)網(wǎng)創(chuàng)業(yè)作內(nèi)容導(dǎo)向,本書也屬于此類。如果是互聯(lián)網(wǎng)行業(yè)相關(guān),可以看看。它介紹了不同領(lǐng)域的指標(biāo),以及產(chǎn)品不同時(shí)期的側(cè)重點(diǎn)。案例都是歐美,這部分做參考用。 接下來(lái)的幾本,是興趣向讀物!逗谔禊Z》能拓展思維,講敘了不確定性!端伎嫉募夹g(shù)》,大前研一的著作,也是咨詢類經(jīng)典。如果對(duì)咨詢向的分析感興趣,還可以看BCG系列,或者刷CaseBook!杜行运季S》,則是教你如何形成理性思維。 SQL 數(shù)據(jù)庫(kù)有很多種,常見(jiàn)有Oracle,MySQL,SQL Server等。我推薦學(xué)習(xí)MySQL,這是互聯(lián)網(wǎng)公司的主流數(shù)據(jù)庫(kù)。以后學(xué)習(xí)Hadoop生態(tài)時(shí),MySQL也是最接近Hive語(yǔ)法的語(yǔ)言。 MySQL不需要專門看書學(xué)習(xí),因?yàn)閿?shù)據(jù)分析師以查詢?yōu)橹,不需要考慮數(shù)據(jù)性能、數(shù)據(jù)安全和架構(gòu)的問(wèn)題。使用搜索引擎能解決90%的問(wèn)題,我就是w3cschool學(xué)的。 《MySQL必知必會(huì)》 如果真想買書看,可以看這本,適合新手向的學(xué)習(xí),看基礎(chǔ)概念和查詢相關(guān)的章節(jié)即可。網(wǎng)絡(luò)上大部分MySQL都是偏DBA的。 如果想深入,可以看《高性能MySQL》,對(duì)分析師沒(méi)啥用。至于另外一個(gè)方向NoSQL,對(duì)入門者還是小眾了些。 如果有余力,就學(xué)習(xí)正則表達(dá)式吧,清洗數(shù)據(jù)的工作就靠它了。 統(tǒng)計(jì)學(xué) 統(tǒng)計(jì)學(xué)是比較大的范圍,分析師往后還需要學(xué)線性代數(shù)和矩陣、關(guān)系代數(shù)等。初學(xué)者不需要掌握所有公式定理的數(shù)學(xué)推導(dǎo),懂得如何應(yīng)用就行用。 《深入淺出統(tǒng)計(jì)學(xué)》 大概是最啰嗦的深入淺出系列,從賣橡皮鴨到賭博機(jī)的案例,囊括了常用的統(tǒng)計(jì)分析如假設(shè)檢驗(yàn)、概率分布、描述統(tǒng)計(jì)、貝葉斯等。書本注重應(yīng)用和趣味性,數(shù)學(xué)推理一般。 《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)》 國(guó)外的經(jīng)典教材,已經(jīng)出到第十二版了。國(guó)外教材都有豐富有趣的案例,所以讀起來(lái)會(huì)比國(guó)內(nèi)的輕松不少。如果你還在讀書,不妨買這本看一看。 名字既然有商務(wù)與經(jīng)濟(jì),所以書中輔以了大量的相關(guān)案例。書內(nèi)容很多,看起來(lái)不會(huì)快,適合細(xì)讀。 《The Elements of Statistical Learning》 稍微有一些難度的英文書籍,屬于進(jìn)階版統(tǒng)計(jì)學(xué),國(guó)外很推崇。如果要往機(jī)器學(xué)習(xí)發(fā)展,這本書可以打下很好的基礎(chǔ)。 以上書籍的難度是逐步遞增的。統(tǒng)計(jì)學(xué)是機(jī)器學(xué)習(xí)的基礎(chǔ),是概率、矩陣等實(shí)際應(yīng)用,F(xiàn)在已經(jīng)有很多統(tǒng)計(jì)工具,Excel的分析工具庫(kù)、傳統(tǒng)行業(yè)的SPSS、SAS以及R、Python等,使用過(guò)程都不用計(jì)算推導(dǎo),大學(xué)考試才會(huì)考,現(xiàn)在都是計(jì)算機(jī)解決,輕松不少。 業(yè)務(wù)知識(shí) 不同領(lǐng)域的業(yè)務(wù)知識(shí)都不一樣,這里以互聯(lián)網(wǎng)舉例。 《增長(zhǎng)黑客》 增長(zhǎng)黑客的概念就是隨著這本書的暢銷傳播開來(lái)。增長(zhǎng)黑客在國(guó)內(nèi)即是數(shù)據(jù)分析+運(yùn)營(yíng)/產(chǎn)品的復(fù)合型人才。這本書好的地方在于拓展思路,告訴我們數(shù)據(jù)能夠做什么,尤其是連AB測(cè)試都不清楚的新人。 實(shí)際涉及的業(yè)務(wù)知識(shí)不多,我推薦,是希望新人能夠了解數(shù)據(jù)驅(qū)動(dòng)的概念,這本算是我走上數(shù)據(jù)化運(yùn)營(yíng)的啟蒙讀物了。 《從零開始做運(yùn)營(yíng)》 知乎亮哥的書籍,互聯(lián)網(wǎng)所有的數(shù)據(jù)都是和運(yùn)營(yíng)相關(guān)的,如果是新手,就以此學(xué)習(xí)業(yè)務(wù)知識(shí)。如果已經(jīng)工作很多,就略過(guò)吧。 《網(wǎng)站分析實(shí)戰(zhàn)》 互聯(lián)網(wǎng)不再是網(wǎng)站的天下,但是移動(dòng)端依舊有Web,我們?cè)谂笥讶吹降乃蠬5活動(dòng)、第三方內(nèi)容等,都是依托網(wǎng)頁(yè)實(shí)現(xiàn)。網(wǎng)站的數(shù)據(jù)分析依舊有存在空間,網(wǎng)站的數(shù)據(jù)指標(biāo)還是能夠指導(dǎo)我們運(yùn)營(yíng)。 《數(shù)據(jù)挖掘與數(shù)據(jù)化運(yùn)營(yíng)實(shí)戰(zhàn)》 這本書涉及了數(shù)據(jù)挖掘,但是比較淺,可以作為數(shù)據(jù)分析師視野的承上啟下,了解數(shù)據(jù)化運(yùn)營(yíng)的高級(jí)應(yīng)用。特點(diǎn)是以阿里的實(shí)際工作相結(jié)合,可又因?yàn)楸C茉瓌t不夠詳盡。 《數(shù)據(jù)實(shí)踐之美》 是各領(lǐng)域?qū)<冶娀I完成的書本,比起傳統(tǒng)的書籍,囊括范圍更廣。雖然沒(méi)有深度講解技術(shù),但是各領(lǐng)域的案例都是一手資料,對(duì)業(yè)務(wù)的觸類旁通理解有幫助。 業(yè)務(wù)知識(shí)我不再多推薦,以后我會(huì)通過(guò)公眾號(hào)文章的形式講解。因?yàn)閺奈铱磥?lái),市面上也沒(méi)有詳盡介紹數(shù)據(jù)角度下的用戶行為、產(chǎn)品運(yùn)營(yíng)的書籍,都是點(diǎn)到為止。這一塊內(nèi)容,盡量從工作中去學(xué),收獲才是最大的。 Python/R 歡迎來(lái)到數(shù)據(jù)分析的最后殿堂,Python和R都是大分支,基本是前面所有內(nèi)容的實(shí)現(xiàn)。Python的學(xué)習(xí)以PY3為前提,畢竟2017年了,我實(shí)在想不出不用Python3的理由。 除了書籍,Python/R更多依靠博客和文檔學(xué)習(xí)。Python的學(xué)習(xí)路徑不陡峭,新手水平取決于查詢能力,所以也請(qǐng)學(xué)會(huì)如何高效搜索。 《深入淺出Python》 還是深入淺出系列,完全適合零基礎(chǔ)的新人。需要注意的是,編程學(xué)習(xí)不同于其他知識(shí),如果計(jì)算機(jī)基礎(chǔ)不穩(wěn)固,在使用中會(huì)遇到各類問(wèn)題。知其然不知其所以然,這是本書缺點(diǎn):能掌握,但是Bug比較多。 《Python學(xué)習(xí)手冊(cè)》 對(duì)于擁有編程基礎(chǔ)的人,這本書系無(wú)巨細(xì)的有些啰嗦,不過(guò)對(duì)新人,可以避免不必要的坑。把它當(dāng)作一本工具文檔吧,當(dāng)遇到不理解的內(nèi)容隨時(shí)翻閱。這是紙質(zhì)書比電子書好的優(yōu)勢(shì)之一。 《利用Python進(jìn)行數(shù)據(jù)分析》 非新手向的書籍,成書較早,部分內(nèi)容比較老舊。雖然學(xué)習(xí)中不會(huì)有問(wèn)題,但很多Pandas函數(shù)已經(jīng)有更優(yōu)雅的寫法了,例如df.query。每段代碼都敲打一遍,千萬(wàn)行的數(shù)據(jù)清洗基本不會(huì)有大問(wèn)題了。 《Python Cookbook》 Python的進(jìn)階書,如果想要掌握更好的編程能力,這是一本經(jīng)典,值得時(shí)時(shí)翻閱。注意,它更偏向程序員。 《R語(yǔ)言實(shí)戰(zhàn)》 R語(yǔ)言的入門書籍,從數(shù)據(jù)讀取到各類統(tǒng)計(jì)函數(shù)的使用。雖然沒(méi)有涉及機(jī)器學(xué)習(xí),依靠這本書入門R是綽綽有余了。 《統(tǒng)計(jì)學(xué):從數(shù)據(jù)到結(jié)論》 這本書是將R語(yǔ)言和統(tǒng)計(jì)學(xué)結(jié)合的教材,可以利用這本書再?gòu)?fù)習(xí)一遍統(tǒng)計(jì)知識(shí)。缺點(diǎn)是書本后面的內(nèi)容質(zhì)量不如前部分。 到這里,入門書籍推薦完畢,當(dāng)然好書不嫌多,例如《數(shù)學(xué)之美》、《集體智慧編程》、《統(tǒng)計(jì)學(xué)習(xí)方法》等,有興趣不妨閱讀。 上面的內(nèi)容都吃透,不論是成為一名數(shù)據(jù)分析師,還是往后向機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)家、數(shù)據(jù)產(chǎn)品發(fā)展、都有了良好的基礎(chǔ)。 數(shù)據(jù)分析必備書單,先馬再說(shuō)!希望你能沉下心閱讀。
|