機器學(xué)習(xí)&數(shù)據(jù)科學(xué)不可不讀的十本書 下面的書單將循序漸進的指引你走進AI & ML:從基本的統(tǒng)計學(xué)到機器學(xué)習(xí),再對前沿的機器學(xué)習(xí)主題略覽二三,最后將前面的各類主題做個總覽。經(jīng)典與時髦的技術(shù)主題相結(jié)合,希望你能從中找到樂趣,并擴展下視野。 1. Think Stats: Probability and Statistics for Programmers 《統(tǒng)計思維:程序員數(shù)學(xué)之概率統(tǒng)計》 By Allen B. Downey Think Stats 是一本為 Python 程序員所作、介紹概論統(tǒng)計相關(guān)的書籍。內(nèi)容強調(diào)實戰(zhàn),書中并未使用復(fù)雜難懂的技術(shù),但能解決一些有趣的問題。作者使用美國衛(wèi)生研究所的數(shù)據(jù)作為樣本,讀者能從實際的DIY中獲得最直觀的感受。 2. Probabilistic Programming & Bayesian Methods for Hackers 《貝葉斯方法:概率編程與貝葉斯推斷》 By Cam Davidson-Pilon 本書介紹概率論及貝葉斯方法,更側(cè)重于概念原理的介紹,而不是數(shù)學(xué)公式的推導(dǎo)。 通常關(guān)于貝葉斯方法的介紹涉及好幾章的公式講解,常常使初學(xué)者忽略了該方法的出發(fā)點;并且教科書的例子一般比較簡單、理想化,讓人難以有深入的理解、體會。作者本人在剛開始學(xué)習(xí)貝葉斯方法就有這種尷尬。 3. Understanding Machine Learning: From Theory to Algorithms 《深入理解機器學(xué)習(xí):從原理到算法》 By Shai Shalev-Shwartz & Shai Ben-David 當(dāng)今機器學(xué)習(xí)發(fā)展極快且應(yīng)用廣泛,是計算機科學(xué)的熱點之一。本書涉及機器學(xué)習(xí)的理論基礎(chǔ),并將公式推導(dǎo)以實際的算法代碼形式展現(xiàn)。本書涵蓋了前面兩本書的主題,并且介紹了算法的復(fù)雜度、穩(wěn)定性;算法部分主要包括隨機梯度下降、神經(jīng)網(wǎng)絡(luò)、structured output learning,書中也提及了如PAC-Bayes、compression-based bounds等相關(guān)概念。 4. The Elements of Statistical Learning(esl) 《統(tǒng)計學(xué)習(xí)要點》 By Trevor Hastie, Robert Tibshirani & Jerome Friedman 本書從統(tǒng)計學(xué)角度按部就班的介紹了本領(lǐng)域的重點概念,然而內(nèi)容講解更注重理念而不是公式。作者提供了許多例子,穿插彩圖介紹。主題包括神經(jīng)網(wǎng)絡(luò)、SVM、分類樹、boosting,囊括監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)算法,對統(tǒng)計學(xué)家、數(shù)據(jù)挖掘從業(yè)人員而言是一本不可多得的好書。 5. An Introduction to Statistical Learning with Applications in R 《統(tǒng)計學(xué)習(xí)導(dǎo)論:基于R應(yīng)用》 By Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani 本書介紹統(tǒng)計學(xué)習(xí)方法,可用作非數(shù)學(xué)專業(yè)的高年級本科、碩士、博士的教材。作者使用R語言,以真實數(shù)據(jù)作為實驗素材,詳細(xì)講解如何實現(xiàn)各類算法,很有實際參考價值。 6. Foundations of Data Science (數(shù)據(jù)科學(xué)基礎(chǔ)) (沒有official中文名) By Avrim Blum, John Hopcroft, and Ravindran Kannan 盡管經(jīng)典的計算機技術(shù)依然重要,但隨著實際應(yīng)用帶來的海量數(shù)據(jù),未來的技術(shù)人員需要解決如何利用好這些數(shù)據(jù)的難題。因此,本書寫作的目的就是介紹將來40年可能有用的技術(shù)理論,這些理論的重要性堪比自動控制原理等相關(guān)算法(在過去的40年間還挺重要)。 7. A Programmer's Guide to Data Mining: The Ancient Art of the Numerati 《寫給程序員的數(shù)據(jù)挖掘?qū)嵺`指南》 By Ron Zacharski 使用Python,跟著作者一起進行練習(xí)、操作,在實戰(zhàn)中學(xué)習(xí)、理解數(shù)據(jù)挖掘。隨著一點一滴的積累,讀完本書時,你已打好數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)。 8. Mining of Massive Datasets 《大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理》 By Jure Leskovec, Anand Rajaraman and Jeff Ullman 本書為斯坦福計算機科學(xué)本科課程的教科書(Mining Massive Datasets,Data Mining)。本書假設(shè)讀者沒有相關(guān)的預(yù)備基礎(chǔ)知識,如果想要了解相關(guān)主題的更多內(nèi)容,可以根據(jù)書中索引進行深入學(xué)習(xí)。 9. Deep Learning 《深度學(xué)習(xí)》 By Ian Goodfellow, Joshua Bengio and Aaron Courville Deep Learning 給了讀者一塊進入機器學(xué)習(xí)的敲門磚,尤其是深度學(xué)習(xí)。網(wǎng)上有完整的在線免費版本可供閱讀。 10. Machine Learning Yearning 《機器學(xué)習(xí)的渴望》 By Andrew Ng AI、機器學(xué)習(xí)以及深度學(xué)習(xí)已經(jīng)得到商業(yè)化應(yīng)用,當(dāng)你實際構(gòu)建機器學(xué)習(xí)系統(tǒng)時,你需要考慮什么:需要更多的訓(xùn)練樣本嗎?需要采用end-to-end的深度學(xué)習(xí)嗎?當(dāng)你的訓(xùn)練集與測試集不匹配,如何解決?等等此類問題... 過去,此類決策需要多年的實踐學(xué)習(xí)才能hold;作者就是想加快你關(guān)于以上種種“戰(zhàn)略性”技能的學(xué)習(xí)進度,這樣你將能夠構(gòu)建更好的AI系統(tǒng)。
|