作品介紹

統(tǒng)計機器翻譯


作者:科恩,宗成慶,張霄軍     整理日期:2014-09-05 09:16:57

    PhilippKoehn所著的《統(tǒng)計機器翻譯》是介紹統(tǒng)計機器翻譯理論和方法的教材。全書分三部分(共11章),分別討論基礎(chǔ)知識、核心方法和前沿研究。全書首先簡要介紹語言學和概率論基礎(chǔ)知識,然后全面討論各種經(jīng)典統(tǒng)計機器翻譯模型和系統(tǒng)實現(xiàn)方法,最后深入探討統(tǒng)計翻譯領(lǐng)域的最新進展和研究熱點。對核心方法的論述按照統(tǒng)計機器翻譯模型發(fā)展的過程逐步展開:基于詞的模型、基于短語的模型和基于句法樹的模型。從技術(shù)實現(xiàn)的角度,本書還介紹了統(tǒng)計翻譯模型的參數(shù)訓練方法、語言模型和參數(shù)平滑方法、解碼算法和譯文自動評測方法及系統(tǒng)整合方法等!督y(tǒng)計機器翻譯》是統(tǒng)計機器翻譯和自然語言處理課程的理想教材,適合研究生和本科生教學使用,也是所有對機器翻譯技術(shù)和系統(tǒng)有興趣的研究者、開發(fā)者和使用者的指南性讀物。同時,本書還可作為人工智能、語言學等相關(guān)專業(yè)的輔助讀物。
  目錄:
  第1章  緒論  1.1  概述    1.1.1  第1章:緒論    1.1.2  第2章:詞、句子和語料    1.1.3  第3章:概率論    1.1.4  第4章:基于詞的翻譯模型    1.1.5  第5第1章緒論1.1概述1.1.1第1章:緒論1.1.2第2章:詞、句子和語料1.1.3第3章:概率論1.1.4第4章:基于詞的翻譯模型1.1.5第5章:基于短語的翻譯模型1.1.6第6章:解碼1.1.7第7章:語言模型1.1.8第8章:評測1.1.9第9章:判別式訓練1.1.10第10章:整合語言學信息1.1.11第11章:基于樹的翻譯模型1.2機器翻譯簡史1.2.1肇始1.2.2ALPAC報告及其后果1.2.3首批商用系統(tǒng)1.2.4基于中間語系統(tǒng)的研究1.2.5數(shù)據(jù)驅(qū)動方法1.2.6目前的開發(fā)商1.2.7技術(shù)現(xiàn)狀1.3應(yīng)用1.3.1全自動高質(zhì)量機器翻譯1.3.2要旨翻譯1.3.3集成語音技術(shù)1.3.4手持設(shè)備中的翻譯1.3.5后編輯1.3.6譯者的工具1.4可用資源1.4.1工具1.4.2語料1.4.3評測競賽1.5小結(jié)1.5.1核心概念1.5.2延伸閱讀1.6習題第2章詞、句子和語料2.1詞2.1.1詞例化2.1.2詞的分布2.1.3詞性2.1.4形態(tài)學2.1.5詞匯語義學2.2句子2.2.1句子結(jié)構(gòu)2.2.2語法理論2.2.3句子結(jié)構(gòu)的翻譯2.2.4語篇2.3語料2.3.1文本的類型2.3.2獲取平行語料2.3.3句子對齊2.4小結(jié)2.4.1核心概念2.4.2延伸閱讀2.4.3習題第3章概率論3.1概率分布估計3.1.1估計分析3.1.2常見概率分布3.1.3基于統(tǒng)計的概率估計3.2概率分布計算3.2.1形式定義3.2.2聯(lián)合概率分布3.2.3條件概率分布3.2.4貝葉斯法則3.2.5插值3.3概率分布的特性3.3.1均值和方差3.3.2期望和方差3.3.3熵3.3.4互信息3.4小結(jié)3.4.1核心概念3.4.2延伸閱讀3.4.3習題第二部分核心方法第4章基于詞的翻譯模型4.1基于詞的機器翻譯4.1.1詞匯翻譯4.1.2數(shù)據(jù)統(tǒng)計4.1.3估計概率分布4.1.4對齊4.1.5IBM模型14.2學習詞匯翻譯模型4.2.1語料不完備問題4.2.2期望最大化算法4.2.3IBM模型1中的期望最大化算法4.2.4困惑度4.3確保流暢的輸出4.3.1流利譯文的經(jīng)驗證據(jù)4.3.2語言模型4.3.3噪聲信道模型4.4更高級的IBM模型4.4.1IBM模型24.4.2IBM模型34.4.3訓練模型3:采樣對齊空間4.4.4IBM模型44.4.5IBM模型54.5詞對齊4.5.1詞對齊任務(wù)4.5.2詞對齊質(zhì)量評估4.5.3基于IBM模型的詞對齊4.6小結(jié)4.6.1核心概念4.6.2延伸閱讀4.6.3習題第5章基于短語的翻譯模型5.1標準模型5.1.1基于短語的翻譯模型提出的動因5.1.2數(shù)學定義5.2學習短語翻譯表5.2.1從詞對齊中抽取短語5.2.2一致性定義5.2.3短語抽取算法5.2.4應(yīng)用實例5.2.5短語翻譯概率估計5.3翻譯模型的擴展5.3.1對數(shù)線性模型5.3.2雙向翻譯概率5.3.3詞匯化加權(quán)5.3.4詞語懲罰5.3.5短語懲罰5.3.6作為分類問題的短語翻譯5.4調(diào)序模型的擴展5.4.1調(diào)序限制5.4.2詞匯化調(diào)序5.5基于短語模型的期望最大化訓練5.5.1短語對齊的聯(lián)合模型5.5.2對齊空間的復(fù)雜度5.5.3模型訓練5.6小結(jié)5.6.1核心概念5.6.2延伸閱讀5.6.3習題第6章解碼6.1翻譯過程6.1.1翻譯一個句子6.1.2計算句子的翻譯概率6.2柱搜索6.2.1翻譯選項6.2.2通過假設(shè)擴展的解碼過程6.2.3計算復(fù)雜度6.2.4翻譯假設(shè)重組6.2.5棧解碼6.2.6直方圖剪枝和閾值剪枝6.2.7調(diào)序限制6.3未來代價估計6.3.1不同的翻譯困難6.3.2翻譯選項的未來代價估計6.3.3任意輸入跨度的未來代價估計6.3.4在搜索中使用未來代價6.4其他解碼算法6.4.1基于覆蓋棧的柱搜索算法6.4.2A*搜索算法6.4.3貪婪爬山解碼6.4.4有限狀態(tài)轉(zhuǎn)換機解碼6.5小結(jié)6.5.1核心概念6.5.2延伸閱讀6.5.3習題第7章語言模型7.1n元文法語言模型7.1.1馬爾可夫鏈7.1.2估計7.1.3困惑度7.2計數(shù)平滑7.2.1加1平滑法7.2.2刪除估計平滑法7.2.3古德圖靈平滑法7.2.4評估7.3插值和后備7.3.1插值7.3.2遞歸插值7.3.3后備7.3.4預(yù)測詞的差異性7.3.5歷史的差異性7.3.6修正的Kneser-Ney平滑算法7.3.7評估7.4控制語言模型的大小7.4.1不同的n元文法的數(shù)目7.4.2在磁盤上進行估計7.4.3高效的數(shù)據(jù)結(jié)構(gòu)7.4.4減小詞匯表規(guī)模7.4.5抽取相關(guān)的n元文法7.4.6根據(jù)需要加載n元文法7.5小結(jié)7.5.1核心概念7.5.2延伸閱讀7.5.3習題第8章評測8.1人工評測8.1.1流利度和忠實度8.1.2評測目的8.1.3其他評測標準8.2自動評測8.2.1準確率和召回率8.2.2詞錯誤率8.2.3BLEU:一個雙語評測的替代指標8.2.4METEOR8.2.5關(guān)于評測的爭論8.2.6評測指標的評測8.2.7自動評測不足的證據(jù)8.3假設(shè)檢驗8.3.1計算置信區(qū)間8.3.2成對比較8.3.3自舉重采樣8.4面向任務(wù)的評測8.4.1后編輯的代價8.4.2內(nèi)容理解測試8.5小結(jié)8.5.1核心概念8.5.2延伸閱讀8.5.3習題第三部分前沿研究第9章判別式訓練9.1尋找候選譯文9.1.1搜索圖9.1.2詞格9.1.3n-best列表9.2判別式方法的原理9.2.1譯文的特征表示9.2.2標注譯文的正確性9.2.3監(jiān)督學習9.2.4最大熵9.3參數(shù)調(diào)節(jié)9.3.1實驗設(shè)置9.3.2Powell搜索方法9.3.3單純型算法9.4大規(guī)模判別式訓練9.4.1訓練問題9.4.2目標函數(shù)9.4.3梯度下降9.4.4感知機9.4.5正則化9.5后驗方法與系統(tǒng)融合9.5.1最小貝葉斯風險9.5.2置信度估計9.5.3系統(tǒng)融合9.6小結(jié)9.6.1核心概念9.6.2延伸閱讀9.6.3習題第10章整合語言學信息10.1直譯10.1.1數(shù)字和名字10.1.2名字翻譯10.1.3直譯的有限狀態(tài)方法10.1.4資源10.1.5反向直譯與翻譯10.2形態(tài)學10.2.1詞素10.2.2簡化豐富的形態(tài)變化10.2.3翻譯形態(tài)豐富的語言10.2.4單詞拆分10.3句法重構(gòu)10.3.1基于輸入語言句法的調(diào)序10.3.2學習調(diào)序規(guī)則10.3.3基于詞性標記的調(diào)序10.3.4基于句法樹的調(diào)序10.3.5預(yù)留選擇10.4句法特征10.4.1方法論10.4.2數(shù)的一致性10.4.3一致性10.4.4句法分析概率10.5因子化翻譯模型10.5.1因子化翻譯的分解10.5.2因子化模型訓練10.5.3模塊的融合10.5.4高效解碼10.6小結(jié)10.6.1核心概念10.6.2延伸閱讀10.6.3習題第11章基于樹的翻譯模型11.1同步文法11.1.1短語結(jié)構(gòu)語法11.1.2同步短語結(jié)構(gòu)語法11.1.3同步樹替換文法11.2同步文法的學習11.2.1層次短語模型的學習11.2.2句法翻譯規(guī)則的學習11.2.3規(guī)則的簡化11.2.4文法規(guī)則的打分11.3基于句法分析算法的解碼11.3.1線圖分析11.3.2核心算法11.3.3線圖的組織11.3.4假設(shè)重組11.3.5棧剪枝11.3.6文法規(guī)則的使用11.3.7立方剪枝11.3.8文法二叉化11.3.9外向代價估計11.4小結(jié)11.4.1核心概念11.4.2延伸閱讀11.4.3習題參考文獻索引





上一本:古文字學簡論 下一本:現(xiàn)代漢語基礎(chǔ)

作家文集

下載說明
統(tǒng)計機器翻譯的作者是科恩,宗成慶,張霄軍,全書語言優(yōu)美,行文流暢,內(nèi)容豐富生動引人入勝。為表示對作者的支持,建議在閱讀電子書的同時,購買紙質(zhì)書。

更多好書