本書是作者多年來(lái)在自然語(yǔ)言處理領(lǐng)域開(kāi)展對(duì)統(tǒng)計(jì)語(yǔ)言建模以及中文文本校對(duì)技術(shù)研究的總結(jié)。主要內(nèi)容包括統(tǒng)計(jì)語(yǔ)言建模和中文文本自動(dòng)校對(duì)技術(shù)兩部分內(nèi)容,共12章。前面部分介紹統(tǒng)計(jì)語(yǔ)言模型構(gòu)建的基本原理與方法,并對(duì)模型訓(xùn)練及評(píng)價(jià)方法進(jìn)行研究,提出統(tǒng)計(jì)語(yǔ)言模型建模時(shí)訓(xùn)練語(yǔ)料規(guī)模的定量化度量方法。后面部分概述中文文本中常見(jiàn)的各種錯(cuò)誤,并針對(duì)這些錯(cuò)誤類型提出字詞級(jí)、句法級(jí)和語(yǔ)義級(jí)錯(cuò)誤的自動(dòng)偵測(cè)方法與模型,開(kāi)創(chuàng)了漢語(yǔ)文本語(yǔ)義錯(cuò)誤自動(dòng)偵測(cè)的新思路,提出了中文文本錯(cuò)誤的糾錯(cuò)建議生成與排序模型。*后基于所提出的模型與算法開(kāi)發(fā)了一個(gè)"正文通"中文文本校對(duì)系統(tǒng)。本書可作為在自然語(yǔ)言處理領(lǐng)域開(kāi)展中文文本自動(dòng)校對(duì)技術(shù)與方法研究的相關(guān)人員的參考用書。
|