本書基于大規(guī)模動態(tài)流通語料庫,抽取395萬條左右的海量中文組織機(jī)構(gòu)名稱數(shù)據(jù)及其相關(guān)信息。以大數(shù)據(jù)為基礎(chǔ),從分詞標(biāo)注技術(shù)、語言資源開發(fā)與應(yīng)用、語言規(guī)范化、語言本體等多個角度,針對組織機(jī)構(gòu)名稱這一特殊詞語類別進(jìn)行深入研究,從中心詞角度提出中文組織名稱形式化分類體系,提出中文組織名稱“領(lǐng)域表征值”概念,并應(yīng)用這一概念研究文本分類和通用詞語,提出組織機(jī)構(gòu)名稱的兩種結(jié)構(gòu)模式、四類結(jié)構(gòu)成分及其形式、性質(zhì)、規(guī)則條件,以及組織機(jī)構(gòu)名縮略的九個規(guī)則。確定了中文組織名稱的三類上下文搭配形式、組織機(jī)構(gòu)名稱的分布特征,及中文組織機(jī)構(gòu)名稱識別方案。本書的主要內(nèi)容包括組織機(jī)構(gòu)名稱識別、組織機(jī)構(gòu)名稱的界定與資源建設(shè)、組織機(jī)構(gòu)名稱規(guī)則、組織機(jī)構(gòu)名稱動態(tài)監(jiān)測、組織機(jī)構(gòu)名稱的規(guī)范化等。
|