更新时间:2018-12-28 22:52:39
封面
版权信息
前言
第1章 遍历搜索引擎技术
1.1 30分钟实现的搜索引擎
1.2 Google神话
1.3 体验搜索引擎
1.4 搜索语法
1.5 你也可以做搜索引擎
1.6 搜索引擎基本技术
1.7 商业搜索引擎技术介绍
1.8 本章小结
第2章 获得海量数据
2.1 自己的网络蜘蛛
2.2 抓取数据库中的内容
2.3 抓取本地硬盘上的文件
2.4 本章小结
第3章 提取文档中的文本内容
3.1 从HTML文件中提取文本
3.2 从非HTML文件中提取文本
3.3 流媒体内容提取
3.4 抓取限制应对方法
3.5 本章小结
第4章 中文分词
4.1 Lucene中的中文分词
4.2 Lietu中文分词的使用
4.3 中文分词的原理
4.4 查找词典算法
4.5 最大概率分词方法
4.6 新词发现
4.7 词性标注
4.8 本章小结
第5章 自然语言处理
5.1 语法解析树
5.2 文档排重
5.3 中文关键词提取
5.4 相关搜索
5.5 拼写检查
5.6 自动摘要
5.7 自动分类
5.8 自动聚类
5.9 拼音转换
5.10 语义搜索
5.11 跨语言搜索
5.12 本章小结
第6章 创建索引库
6.1 设计索引库结构
6.2 创建和维护索引库
6.3 读写并发控制
6.4 优化使用Lucene
6.5 查询大容量索引
6.6 本章小结
第7章 用户界面设计与实现
7.1 Lucene搜索接口(search代码)
7.2 搜索页面设计
7.3 实现搜索接口
7.4 实现关键词高亮显示
7.5 实现分类统计视图
7.6 实现相似文档搜索
7.7 实现AJAX自动完成
7.8 jQuery实现的自动完成
7.9 集成其他功能
7.10 搜索日志分析
7.11 本章小结
第8章 其他高级主题
8.1 使用Solr实现分布式搜索
8.2 图像的OCR识别
8.3 竞价排名
8.4 Web图分析
8.5 使用并行程序分析数据
8.6 RSS搜索
8.7 本章小结
参考资料