作品介紹

NLP秘笈,從入門到進階


作者:著名作家     整理日期:2022-07-17 08:13:04

自然語言處理(NLP)作為人工智能研究的核心領(lǐng)域之一,長久以來都受到廣泛關(guān)注。微軟全球執(zhí)行副總裁沈向洋博士曾表示“懂語言者得天下,人工智能對人類影響最為深刻的就是自然語言方面!爆F(xiàn)在很多研究人員都在進入自然語言領(lǐng)域,希望可以解決“讓機器理解人類語言”這一難題。
  為了幫助大家更好地學(xué)習(xí)NLP,我們邀請微軟亞洲研究院自然語言計算組資深研究員韋福如為大家推薦了一些關(guān)于自然語言學(xué)習(xí)方面經(jīng)典的書籍和課程,分為入門級和進階級兩大類。
  好,同學(xué)們現(xiàn)在都準(zhǔn)備好了嗎?請系好安全帶,我們這輛開往“NLP大佬界”方向的車就要發(fā)車了!
  一、入門篇
  主要目標(biāo):熟悉和了解自然語言處理領(lǐng)域的基本術(shù)語、任務(wù)定義和基本算法,比如輸入輸出、評價標(biāo)準(zhǔn)和應(yīng)用場景。為以后的進一步學(xué)習(xí)、科研、產(chǎn)品開發(fā)以及學(xué)術(shù)和技術(shù)交流奠定基礎(chǔ)。
  1、Speech and Language Processing, 2nd Edition
  NLP秘笈,從入門到進階
  作者:Daniel Jurafsky and James H. Martin
  中文譯名:語音與語言處理
  適合人群:初級到中級學(xué)者
  推薦指數(shù):★★★★★
  主要內(nèi)容:本書內(nèi)容涵蓋了自然語言處理的方方面面,從底層的詞法分詞、語法分析和語義分析,到和應(yīng)用更為接近的自然語言處理任務(wù),如信息抽取、機器翻譯、自動問答、文本摘要、對話系統(tǒng)等。書中將自然語言處理、計算語言學(xué)以及語音識別等內(nèi)容融合在一起,把各種技術(shù)相互聯(lián)系起來,讓讀者了解怎樣才能最佳地利用每種技術(shù),怎樣才能將各種技術(shù)結(jié)合起來使用。
  推薦理由:最經(jīng)典的自然語言處理的入門教程,也被國外許多著名大學(xué)選為自然語言處理和計算語言學(xué)課程的主要教材。本書寫作風(fēng)格引人入勝,深入技術(shù)細節(jié)而又不讓人感覺枯燥,不僅可以作為高等學(xué)校自然語言處理和計算語言學(xué)等課程的本科生和研究生教材,對于自然語言處理相關(guān)領(lǐng)域的研究人員和技術(shù)人員也是不可或缺的權(quán)威參考書。
  2、Foundations of Statistical Natural Language Processing
  NLP秘笈,從入門到進階
  作者:Christopher Manning and Hinrich Schütze
  中文譯名:統(tǒng)計自然語言處理基礎(chǔ)
  適合人群:初級到中級學(xué)者
  推薦指數(shù):★★★★★
  主要內(nèi)容:本書涵蓋的內(nèi)容十分廣泛,分為四個部分,共16章,包括了構(gòu)建自然語言處理軟件工具將用到的幾乎所有理論和算法。全書的論述過程由淺入深,從數(shù)學(xué)基礎(chǔ)到精確的理論算法,從簡單的詞法分析到復(fù)雜的語法分析,適合不同水平的讀者群的需求。同時,《統(tǒng)計自然語言處理基礎(chǔ):國外計算機科學(xué)教材系列》將理論與實踐緊密聯(lián)系在一起,在介紹理論知識的基礎(chǔ)上給出了自然語言處理技術(shù)的高層應(yīng)用(如信息檢索等)。
  推薦理由:經(jīng)典的統(tǒng)計自然語言處理的入門教材。內(nèi)容涉及統(tǒng)計自然語言處理用到的數(shù)學(xué)基礎(chǔ),詞法到語法分析,以及自然語言處理的基本任務(wù)(比如文本分類、聚類,統(tǒng)計機器翻譯,以及信息檢索)。本教材成書較早(1999年),但是自然語言處理領(lǐng)域的基本概念和任務(wù)沒有太大的變化,仍然適用于初學(xué)者快速了解自然語言處理相關(guān)的概念和任務(wù)。
  3、統(tǒng)計自然語言處理(第2版)
  NLP秘笈,從入門到進階
  作者:宗成慶
  適合人群:初級到中級學(xué)者
  推薦指數(shù):★★★★☆
  主要內(nèi)容:本書介紹了統(tǒng)計自然語言處理的基本概念、理論方法和最新研究進展,內(nèi)容包括形式語言與自動機及其在自然語言處理中的應(yīng)用、語言模型、隱馬爾可夫模型、語料庫技術(shù)、漢語自動分詞與詞性標(biāo)注、句法分析、詞義消歧、篇章分析、統(tǒng)計機器翻譯、語音翻譯、文本分類、信息檢索與問答系統(tǒng)、自動文摘和信息抽取、口語信息處理與人機對話系統(tǒng)等。
  推薦理由:本書既有對基礎(chǔ)知識和理論模型的介紹,也有對相關(guān)問題的研究背景、實現(xiàn)方法和技術(shù)現(xiàn)狀的詳細闡述?勺鳛楦叩仍盒S嬎銠C、信息技術(shù)等相關(guān)專業(yè)的高年級本科生或研究生的教材或參考書,也可供從事自然語言處理、數(shù)據(jù)挖掘和人工智能等研究的相關(guān)人員參考。
  二、進階篇
  主要目標(biāo):近年來,深度學(xué)習(xí)的算法和模型在自然語言處理的主要任務(wù)(例如機器翻譯、自動問答、機器閱讀、文本摘要、文本生成等)上取得了很好的效果。雖然現(xiàn)在對深度學(xué)習(xí)的模型和傳統(tǒng)模型的優(yōu)劣尚不能定論(根據(jù)不同的任務(wù)、應(yīng)用場景和需求以及數(shù)據(jù)規(guī)?赡苡胁煌慕Y(jié)論,實際系統(tǒng)中更多時候也是共存互補),但這個方向目前成為學(xué)術(shù)界和工業(yè)界關(guān)注和投入的重點方向,實際的自然語言應(yīng)用系統(tǒng)中也都或多或少、或直接或間接用到深度學(xué)習(xí)的技術(shù),值得大家關(guān)注。
  1、Neural Network Methods in Natural Language Processing (Synthesis Lectures on Human Language Technologies)
  NLP秘笈,從入門到進階
  作者:Yoav Goldberg
  適合人群:初級到中級學(xué)者
  推薦指數(shù):★★★★★
  主要內(nèi)容:本書著重介紹神經(jīng)網(wǎng)絡(luò)模型在自然語言數(shù)據(jù)中的應(yīng)用。本書的前半部分介紹了有監(jiān)督的機器學(xué)習(xí)和前饋神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識,基于語言數(shù)據(jù)的機器學(xué)習(xí)的基礎(chǔ)知識。它還涵蓋了可以定義和訓(xùn)練任意神經(jīng)網(wǎng)絡(luò)的計算圖形抽象方面的知識,是當(dāng)代神經(jīng)網(wǎng)絡(luò)軟件庫設(shè)計的基礎(chǔ)。本書的第二部分介紹了更多專門的神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),包括一維卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、條件生成模型和基于注意力的模型。這些體系結(jié)構(gòu)和技術(shù)是機器翻譯、句法分析和許多其他應(yīng)用程序的最先進算法的推動力量。最后,本書還討論了樹形網(wǎng)絡(luò),結(jié)構(gòu)化預(yù)測和多任務(wù)學(xué)習(xí)的前景。
  推薦理由:大家都知道最近幾年由于深度學(xué)習(xí)的興起,使得圖像識別、語音識別等多個方面都發(fā)生了很大的變革。深度學(xué)習(xí)在自然語言處理方面也是非常普遍了,一些經(jīng)典的自然語言模式也都是基于神經(jīng)網(wǎng)絡(luò)的,這本書是目前市面上唯一一本介紹神經(jīng)網(wǎng)絡(luò)在自然語言處理的應(yīng)用,是最新、最前沿的東西,而且書中的大量參考文獻非常有價值。本書的作者在這個領(lǐng)域非常知名,并且對待學(xué)術(shù)態(tài)度極其嚴(yán)謹(jǐn)。深入淺出,值得對深度學(xué)習(xí)在自然語言處理中應(yīng)用感興趣的同學(xué)系統(tǒng)地讀一讀。
  2、CS224d: Deep Learning for Natural Language Processing
  課程導(dǎo)師:Richard Socher
  適合人群:初級到中級學(xué)者
  課程鏈接:
  http://cs224d.stanford.edu/syllabus.html
  推薦指數(shù):★★★★★
  主要內(nèi)容:斯坦福大學(xué)自然語言小組的基于深度學(xué)習(xí)的自然語言處理的課程。介紹了自然語言處理領(lǐng)域廣泛應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)(例如循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)以及遞歸神經(jīng)網(wǎng)絡(luò)等)及其在自然語言處理的經(jīng)典任務(wù),例如分類任務(wù)(情感分類),序列標(biāo)注任務(wù)(實體識別),序列到序列的生成任務(wù)(機器翻譯)的實際應(yīng)用。
  推薦理由:自然語言處理是信息時代最重要的技術(shù)之一。理解復(fù)雜的語言也是人工智能的重要組成部分。自然語言處理的應(yīng)用無處不在,因為人們用語言溝通了大部分內(nèi)容:網(wǎng)絡(luò)搜索、廣告、電子郵件、客戶服務(wù)、語言翻譯、放射學(xué)報告等等。本課程比較適合對這個領(lǐng)域感興趣的初學(xué)者。
  3、Oxford Deep Learning for NLP class
  課程導(dǎo)師:Phil Blunsom. (2017) Class by Deep Mind NLP Group.
  適合人群:中級到高級學(xué)者
  課程鏈接:https://machinelearningmastery.com/oxford-course-deep-learning-natural-language-processing/
  推薦指數(shù):★★★★★
  主要內(nèi)容:DeepMind團隊成員在牛津大學(xué)教授基于深度學(xué)習(xí)的自然語言處理的課程。內(nèi)容涉及到詞嵌入,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語言模型,基于循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的文本分類,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的條件語言模型(廣泛應(yīng)用于機器翻譯、文本摘要等)及其中的注意力機制,以及基于深度學(xué)習(xí)模型的自動問答等主要自然語言處理的任務(wù)。
  推薦理由:深度學(xué)習(xí)方法在一套自然語言處理問題上達到了最先進的效果,這是英國牛津大學(xué)教授的一門關(guān)于自然語言處理深度學(xué)習(xí)的課程,本課程的大部分材料都可以在線免費獲取。比較適合對這個領(lǐng)域有一定的基礎(chǔ),希望了解最新進展和進一步學(xué)習(xí)和研究的同學(xué)。
  好,讀到這里的同學(xué),我可以很負責(zé)任地告訴你,你已經(jīng)是個NLP界的老司機了!
  希望推薦書小編推薦的書單能夠?qū)ο脒M入自然語言處理領(lǐng)域卻有些迷茫、無從入手的小伙伴們有所幫助,也希望這些小可愛們將來能在這個領(lǐng)域發(fā)光發(fā)熱!
  也歡迎大家在下方留言區(qū)留言,分享你的NLP書單。





上一本:這七本書,告訴你成功需要哪些關(guān)鍵要素 下一本:怎樣教育孩子?你會照這4本書里那樣摧殘自己的孩子嗎

作家文集

下載說明
NLP秘笈,從入門到進階的作者是著名作家,全書語言優(yōu)美,行文流暢,內(nèi)容豐富生動引人入勝。為表示對作者的支持,建議在閱讀電子書的同時,購買紙質(zhì)書。

更多好書