本書基于大規(guī)模動態(tài)流通語料庫,抽取395萬條左右的海量中文組織機構名稱數(shù)據(jù)及其相關信息。以大數(shù)據(jù)為基礎,從分詞標注技術、語言資源開發(fā)與應用、語言規(guī)范化、語言本體等多個角度,針對組織機構名稱這一特殊詞語類別進行深入研究,從中心詞角度提出中文組織名稱形式化分類體系,提出中文組織名稱“領域表征值”概念,并應用這一概念研究文本分類和通用詞語,提出組織機構名稱的兩種結構模式、四類結構成分及其形式、性質、規(guī)則條件,以及組織機構名縮略的九個規(guī)則。確定了中文組織名稱的三類上下文搭配形式、組織機構名稱的分布特征,及中文組織機構名稱識別方案。本書的主要內容包括組織機構名稱識別、組織機構名稱的界定與資源建設、組織機構名稱規(guī)則、組織機構名稱動態(tài)監(jiān)測、組織機構名稱的規(guī)范化等。
|