本書介紹了信息檢索(IR)中的關(guān)鍵問題,以及這些問題如何影響搜索引擎的設(shè)計(jì)與實(shí)現(xiàn),并且用數(shù)學(xué)模型強(qiáng)化了重要的概念。對(duì)于網(wǎng)絡(luò)搜素引擎這一重要的話題,書中主要涵蓋了在網(wǎng)絡(luò)上廣泛使用的搜索技術(shù)。 本書適用于高等院校計(jì)算機(jī)科學(xué)或計(jì)算機(jī)工程專業(yè)的本科生、研究生,對(duì)于專業(yè)人士而言,本書也不失為一本理想的入門教材。 目錄: 出版者的話 譯者序 前言 第1章搜索引擎和信息檢索 1.1什么是信息檢索 1.2重要問題 1.3搜索引擎 1.4搜索工程師 參考文獻(xiàn)和深入閱讀 練習(xí) 第2章搜索引擎的架構(gòu) 2.1什么是軟件架構(gòu) 2.2基本的構(gòu)件 2.3組件及其功能 2.3.1文本采集出版者的話 譯者序 前言 第1章搜索引擎和信息檢索 1.1什么是信息檢索 1.2重要問題 1.3搜索引擎 1.4搜索工程師 參考文獻(xiàn)和深入閱讀 練習(xí) 第2章搜索引擎的架構(gòu) 2.1什么是軟件架構(gòu) 2.2基本的構(gòu)件 2.3組件及其功能 2.3.1文本采集 2.3.2文本轉(zhuǎn)換 2.3.3索引的創(chuàng)建 2.3.4用戶交互 2.3.5排序 2.3.6評(píng)價(jià) 2.4搜索引擎是如何工作的 參考文獻(xiàn)和深入閱讀 練習(xí) 第3章信息采集和信息源 3.1確定搜索的內(nèi)容 3.2網(wǎng)絡(luò)信息爬取 3.2.1抓取網(wǎng)頁 3.2.2網(wǎng)絡(luò)爬蟲 3.2.3時(shí)新性 3.2.4面向主題的信息采集 3.2.5深層網(wǎng)絡(luò) 3.2.6網(wǎng)站地圖 3.2.7分布式信息采集 3.3文檔和電子郵件的信息采集 3.4文檔信息源 3.5轉(zhuǎn)換問題 3.6存儲(chǔ)文檔 3.6.1使用數(shù)據(jù)庫系統(tǒng) 3.6.2隨機(jī)存取 3.6.3壓縮和大規(guī)模文件 3.6.4更新 3.6.5BigTable 3.7重復(fù)檢測 3.8去除噪聲 參考文獻(xiàn)和深入閱讀 練習(xí) 第4章文本處理 4.1從詞到詞項(xiàng) 4.2文本統(tǒng)計(jì) 4.2.1詞表增長 4.2.2估計(jì)數(shù)據(jù)集和結(jié)果集大小 4.3文檔解析 4.3.1概述 4.3.2詞素切分 4.3.3停用詞去除 4.3.4詞干提取 4.3.5短語和n元串 4.4文檔結(jié)構(gòu)和標(biāo)記 4.5鏈接分析 4.5.1錨文本 4.5.2PageRank 4.5.3鏈接質(zhì)量 4.6信息抽取 4.7國際化 參考文獻(xiàn)和深入閱讀 練習(xí) 第5章基于索引的相關(guān)排序 5.1概述 5.2抽象的相關(guān)排序模型 5.3倒排索引 5.3.1文檔 5.3.2計(jì)數(shù) 5.3.3位置 5.3.4域與范圍 5.3.5分?jǐn)?shù) 5.3.6排列 5.4壓縮 5.4.1熵與歧義 5.4.2Delta編碼 5.4.3位對(duì)齊碼 5.4.4字節(jié)對(duì)齊碼 5.4.5實(shí)際應(yīng)用中的壓縮 5.4.6展望 5.4.7跳轉(zhuǎn)和跳轉(zhuǎn)指針 5.5輔助結(jié)構(gòu) 5.6索引構(gòu)建 5.6.1簡單構(gòu)建 5.6.2融合 5.6.3并行與分布式 5.6.4更新 5.7查詢處理 5.7.1document-at-a-time評(píng)價(jià) 5.7.2term-at-a-time評(píng)價(jià) 5.7.3優(yōu)化技術(shù) 5.7.4結(jié)構(gòu)化查詢 5.7.5分布式的評(píng)價(jià) 5.7.6緩存 參考文獻(xiàn)和深入閱讀 練習(xí) 第6章查詢與界面 6.1信息需求與查詢 6.2查詢轉(zhuǎn)換與提煉 6.2.1停用詞去除和詞干提取 6.2.2拼寫檢查和建議 6.2.3查詢擴(kuò)展 6.2.4相關(guān)反饋 6.2.5上下文和個(gè)性化 6.3搜索結(jié)果顯示 6.3.1搜索結(jié)果頁面與頁面摘要 6.3.2廣告與搜索 6.3.3結(jié)果聚類 6.4跨語言搜索 參考文獻(xiàn)和深入閱讀 練習(xí) 第7章檢索模型 7.1檢索模型概述 7.1.1布爾檢索 7.1.2向量空間模型 7.2概率模型 7.2.1將信息檢索作為分類問題 7.2.2BM25排序算法 7.3基于排序的語言模型 7.3.1查詢項(xiàng)似然排序 7.3.2相關(guān)性模型和偽相關(guān)反饋 7.4復(fù)雜查詢和證據(jù)整合 7.4.1推理網(wǎng)絡(luò)模型 7.4.2Galago查詢語言 7.5網(wǎng)絡(luò)搜索 7.6機(jī)器學(xué)習(xí)和信息檢索 7.6.1排序?qū)W習(xí) 7.6.2主題模型和詞匯不匹配 7.7基于應(yīng)用的模型 參考文獻(xiàn)和深入閱讀 練習(xí) 第8章搜索引擎評(píng)價(jià) 8.1搜索引擎評(píng)價(jià)的意義 8.2評(píng)價(jià)語料 8.3日志 8.4效果評(píng)價(jià) 8.4.1召回率和準(zhǔn)確率 8.4.2平均化和插值 8.4.3關(guān)注排序靠前的文檔 8.4.4使用用戶偏好 8.5效率評(píng)價(jià) 8.6訓(xùn)練、測試和統(tǒng)計(jì) 8.6.1顯著性檢驗(yàn) 8.6.2設(shè)置參數(shù)值 8.6.3在線測試 8.7基本要點(diǎn) 參考文獻(xiàn)和深入閱讀 練習(xí) 第9章分類和聚類 9.1分類 9.1.1樸素貝葉斯 9.1.2支持向量機(jī) 9.1.3評(píng)價(jià) 9.1.4分類器和特征選擇 9.1.5垃圾、情感及在線廣告 9.2聚類 9.2.1層次聚類和K均值聚類 9.2.2K近鄰聚類 9.2.3評(píng)價(jià) 9.2.4如何選擇K 9.2.5聚類和搜索 參考文獻(xiàn)和深入閱讀 練習(xí) 第10章社會(huì)化搜索 10.1什么是社會(huì)化搜索 10.2用戶標(biāo)簽和人工索引 10.2.1搜索標(biāo)簽 10.2.2推測缺失的標(biāo)簽 10.2.3瀏覽和標(biāo)簽云 10.3社區(qū)內(nèi)搜索 10.3.1什么是社區(qū) 10.3.2社區(qū)發(fā)現(xiàn) 10.3.3基于社區(qū)的問答 10.3.4協(xié)同搜索 10.4過濾和推薦 10.4.1文檔過濾 10.4.2協(xié)同過濾 10.5P2P搜索和元搜索 10.5.1分布式搜索 10.5.2P2P網(wǎng)絡(luò) 參考文獻(xiàn)和深入閱讀 練習(xí) 第11章超越詞袋 11.1概述 11.2基于特征的檢索模型 11.3詞項(xiàng)依賴模型 11.4再談結(jié)構(gòu)化 11.4.1XML檢索 11.4.2實(shí)體搜索 11.5問題越長,答案越好 11.6詞語、圖片和音樂 11.7搜索能否適用于所有情況 參考文獻(xiàn)和深入閱讀 練習(xí) 參考文獻(xiàn)
|