中国索引(第七辑)
上QQ阅读APP看书,第一时间看更新

基于Python设计的索引智能标引与检索研究——以《张琪玉索引学文集》和《中国索引(第一辑)》为例

王兰成

(国防大学政治学院军事信息与网络舆论系 上海 200433)

摘 要 索引工作迎来了互联网+、大数据与人工智能的新时代,利用Python技术研发可以更准确、规范和快捷地实现对海量索引信息的整序、分类、检索和挖掘。基于Python设计的索引词标引和检索是新一代索引编制系统的重要功能,运用知识图谱工具选取《张琪玉索引学文集》和《中国索引(第一辑)》为特定文本,智能分析其中热词及主题演变规律,并通过高频词检索智能挖掘索引位置等信息。结论是:文本分析有助于鉴别出热门词语和潜在主题的变化,图谱分析有助于得出索引研究在某个时期的发展路径,利用Python能够实现深入而快捷的索引智能标引与检索,其研究成果为今后“地方志索引”和“研究生学位论文索引”等智能化编制系统的设计奠定了基础。

关键词 索引系统 Python 标引 检索

一、引 言

目前,索引工作也迎来了互联网+、大数据与人工智能的新时代。新时代索引数据处理的一个重要特征就是网络环境,网络空间中存在着海量的信息源和索引编制知识。利用Python可以实现对大部分索引数据的处理,将Python脚本应用于传统的索引编制系统程序中,可以对超大量的索引数据进行高效的分析和挖掘,从而可以对新一代索引编制系统的各项功能提供有力支持。研究发现,基于Python设计的索引词标引及检索是新一代索引编制系统的核心功能之一。文本分析有助于鉴别出某段时期内或某学术作者群文章中最热门的词语,通过这种热门词语的变化可以捕捉到潜在的主题变化。本文运用 Python设计知识图谱分析①及应用软件,选取《张琪玉索引学文集》(国家图书馆出版社,2009年)和《中国索引(第一辑)》(复旦大学出版社,2016年)为特定文本,分析其中热词及主题演变规律,得出索引研究在一个时期内的发展路径图谱。本文的创新之处是将Python引入索引编制系统研究,获取了一系列可参考的结论,提升了索引词标引和检索的质效,为下一步“地方志索引”和“研究生学位论文索引”等智能化编制系统的实现奠定基础。

二、Python语言优势与索引编制系统设计

1.Python语言及优势

Python本身具备的大量优势,相较于计算机领域内的其他语言有自己独特的功能,而索引界当前还缺少对该技术的研究和应用。与Java和C++相比,Python极易操作;与Visual Basic相比,Python的跨平台性能稳定;与Ruby相比,Python更加成熟;与PHP相比,Python简单易懂,应用范围较广;与Perl相比,Python语法简单。而且,Python的计算生态非常庞大,拥有大量的第三方库。Python语言是一种广泛使用的通用编程语言,凭借大量优质的第三方模块,能够实现各种复杂的数据分析功能。② Python语言已成为科学计算领域最重要的编程语言之一,尤其是相对于 Matlab系统,Python语言具有以下的优势:①Python是一个开源、免费的系统,其应用不受到任何法律、政策的限制;②作为一款轻量级的开发语言,Python语言可以部署到大多数平台上,包括配置较低的嵌入式设备;③Python语言的生态完全开放,这使得它成为新算法、新工具的主要开发平台之一,现在主流的人工智能工具都将 Python作为首要支持的语言之一。使用Python可以使得新一代的索引编制系统能方便地利用最新的算法和工具。因此,人们在实际的应用过程中更加偏向于Python,开发者利用其进行软件开发和运行能极大地降低时间成本。为此,本文尝试基于Python设计索引词的标引及检索系统,研究使用Python实现上述特定文本的索引分析服务的设计方法和实现途径。

2.索引编制系统的设计

索引编制系统包括索引收集子系统、索引分析子系统和索引服务子系统,研究设计旨在构建集索引收集、分析和服务于一体的索引编制系统,以实现数据关联、知识标引和检索编制等功能。

(1)索引系统的收集和分析功能设计

索引收集子系统的设计是索引编制系统的基础,它作为索引系统获取信息的主要媒介,首先选择所捕获的数据,剔除与目标信息无关的的数据,对其他子系统而言具有重要作用。网络爬虫程序可以实现数据库的连接和读写,对网页信息的读取和分析以及生成HTML程序文档,其设计是基于用户的角度进行考虑的,因此在确定要实现的目标之后将相关的要求分成各种单元进行实施。① 在每一个子功能实现之后,要据此对程序的整体结构进行把握,使实现的子功能可以安放在合适的位置,从而使程序在整体上实现最优化。索引分析子系统将对基于索引收集子系统获取的数据信息进行标引分析等。数据库中表的设计是数据库操作设计的重要依据,在数据库设计中至少需要以下的几个基本表,第一个表用来存储需要提取的网站和抓取页数,第二个表用来存储相应网站的正则表达式和其他信息,第三个表用来存储有关索引的数据信息。

(2)索引系统关键技术和服务功能设计

索引服务子系统对基于索引分析子系统生成的数据信息进行检索处理等。正则表达式的使用可以实现提取特定字段的功能,设计过程中的关键是要保障正则表达式的正确性。如果一个文本页中包含的索引信息较多,就要利用正则表达式对索引信息进行匹配,从而将匹配的字段和关联信息存入列表中;如果要对文献标题的特征进行提取标引,就需要一个专门对题名进行索引词知识匹配的正则表达式;如果数据库频繁地读取和写入,则程序的运行效率就会大大降低。索引系统数据库设计要利用Python中的异常处理机制对数据库进行尝试性操作,如果其中出现错误,则需要对错误进行相应的处理。另外,多线程的使用可以极大地提高程序的运行效率,Python支持多线程编程。总之,Python语言是一种广泛使用的通用编程语言,凭借大量优质的第三方模块,能够实现各种复杂的索引分析功能,同样也可以实现各种应用的索引服务功能。① 利用Python技术可以更准确、规范和快捷地实现对海量索引信息的整序、分类、检索和挖掘。

三、特定文本案例的索引标引与检索方法研究

1.《中国索引(第一辑)》索引图谱分析及检索

《中国索引(第一辑)》的文章示意如下:

(1)《中国索引(第一辑)》高频词汇的图谱统计

这里,对2016年复旦大学出版社出版的《中国索引(第一辑)》②索引编制进行处理,使用python语言作程序开发,经过整理获得了以下高频词汇,其中列出了前13个高频词及其出现的次数。该集刊词的高频词汇的图谱分析见图1所示。

图1 《中国索引(第一辑)》高频词汇的图谱分析

(2)《中国索引(第一辑)》高频词“索引”的位置检索

基于《中国索引(第一辑)》WORD文本,以上面排列第1位的高频词“索引”(频次1379)为例编制索引,得到的查询结果560个(示例如下)。同时,还标引出了“索引”在该集刊中的各个位置,即段落编号。

《中国索引》集刊第一辑.docx

〈p〉检索词:索引 检索时间:2019.08.11〈/p〉

查询结果有:560个

第1个

段落编号:609

内容:关键词索引的功能-中国索引学会……

第2个

段落编号:2442

内容:不同类型的文献对索引有不同的要求,各国索引协会年会也不乏各类型文献索引的专题辅导,如教科书索引……

第3个

段落编号:532

内容:关键词索引书后著作索引……

第4个

段落编号:2424

内容:三、突出索引工具和索引软件

第5个

段落编号:1 124

内容:二是缺乏有效的索引工具。文献相关关系的挖掘需要原始元数据的关联。索引是进行数据关联的重要工具……

第6个

段落编号:1 129

内容:机构索引、人名索引、图片索引、音视频索引等。由于索引工作长期以来在我国发展较慢,近几年在中国索引学会的强力推动下获得较大的进展,但是索引工作需要众多行业的推动,相对文献元数据的关联需求来说,还有许多的工作要做。

第7个

段落编号:2447

内容:各国索引协会年会为索引员提供交流、交友、沟通的平台……第8个

段落编号:419

内容:书目式数据库索引最早是对卡片式书目索引的电子化,即将原有手工查询索引方式改进为直接在计算机中制作成索引数据库……

第9个

段落编号:418

内容:1.从书目式索引到语义式索引

第10个

段落编号:508

内容:索引技术智能化是指由字顺索引到语义索引的发展趋势。语义索引不像字顺索引只拘泥于检索字段字面本身,而是透过现象看本质,正确捕捉检索用户的实质需求,能够有效解决字顺索引中同义词和异义词的问题。语义索引的发展与语义网、本体技术密切相关,并在网络数据库和搜索引擎领域取得良好的检索效果。对语义索引的理论、技术研究也是当前索引研究领域的一个热点。

…………

2.《张琪玉索引学文集》索引图谱分析及检索

《张琪玉索引学文集》的介绍示意如下:

(1)《张琪玉索引学文集》高频词汇的图谱统计

这里,对2009年国家图书馆出版社出版的《张琪玉索引学文集》①索引编制进行处理,使用python语言作程序开发,经过整理获得了以下高频词汇,其中列出了前16个高频词及其出现的次数。该文集的高频词汇的图谱分析见图2所示。

图2 《张琪玉索引学文集》高频词汇的图谱分析

(2)《张琪玉索引学文集》高频词“索引”的位置检索

基于《张琪玉索引学文集》WORD文本,以上面排列第1位的高频词“索引”(频次4 156)为例编制索引,得到的查询结果1 638个(示例如下)。① 同时,还标引出了“索引”在该文集中的各个位置,即段落编号。

《张琪玉索引学文集》.docx

〈p〉检索词:索引 检索时间:2019.08.11〈/p〉

查询结果有:1 638个

第1个

段落编号:1156

内容:普通题录式索引、分类索引、著者索引、个人著者索引、团体著者索引、题名索引、文献来源索引、文献内容索引、书后索引、普通主题索引、综合索引、人名索引、机构索引、地名索引、会议索引…

第2个

段落编号:1 157

内容:媒介索引(间接索引)对照索引式索引……

第3个

段落编号:757

内容:索引项来自索引源

第4个

段落编号:2596

内容:笔记索引和日记索引

第5个

段落编号:925

内容:按索引外形,分为书后索引、单行索引、活页式索引;按索引所收录资料形态,分为书籍索引、期刊索引、报纸索引、非书资料索引、摘要的索引或索引的索引……

第6个

段落编号:595

内容:多编索引,多用索引,多研究索引

第7个

段落编号:927

内容:按索引的使用功能,分为数字及代码索引、作者索引、人名索引、团体名称索引、地名索引、题名索引、逐字索引、引文索引、主题索引

第8个

段落编号:750

内容:索引项是索引功能的基础

第9个

段落编号:1842

内容:专著索引的索引项

第10个

段落编号:1 162

内容:7.1索引资源收藏中心 7.2索引通报 7.3索引交流7.4索引出版 7.5索引联机服务

……

四、索引智能标引与检索的Python实现技术

经过算法优化和软件开发,对关键词共词网络的运算,笔者对上述的特定文本的数据从多个维度进行分析,以探研索引标引和索引检索的智能实现技术。

1.基于Python设计的索引标引基本技术

2.基于Python设计的索引检索基本技术

最后,修订程序中代码设置:①filename=“中国索引第一辑.docx”; searchstr=“索引”; ②filename=“张琪玉索引学文集.docx”; searchstr=“索引”。分别调用执行:

create index(filename)

search(searchstr)

获得前一节所述结果。

五、讨论与启示

比较上述的结果,可以发现《中国索引(第一辑)》和《张琪玉索引学文集》具有以下的特点:①用Python实现标引词频统计,两者标引出的排列第1位的最高词频词均为“索引”,完全符合集刊和文集的中心主题;②用Python实现高频词“索引”的单项检索,集刊的查询结果为560个,其频次是1 379,占比40.6%,而文集的查询结果为1 638个,其频次是4 156,占比39.4%,结果非常接近,研究主题非常明确;③用Python获得的高频词汇,集刊和文集的前8个热词中就有5个是相同的,它们是“索引”、“中国”、“检索”、“文献”和“数据库”,比较清晰地说明了索引界当前所研究的热点和路向;④《中国索引(第一辑)》的研究相对比较广泛,覆盖率高,基本反映了全国广大索引工作者的研究重点,除了“索引”和“中国”外,“检索”、“标引”也作为高频词涵盖其中,恰好是本文所研究的两项关键工作;⑤《张琪玉索引学文集》的研究相对比较集中,“索引”的频次明显高出第2位,重中之重非常突出,而且“检索”也是文集的研究重点,这与张琪玉教授长期的研究成果是吻合的。

综上分析,可以得出以下的启示:①文本分析有助于鉴别出某段时期内或某学术作者群文章中最热门的词语和研究主题,通过这种热门词语的变化可以捕捉到潜在的主题变化;②图谱分析有助于得出索引研究在一个时期内的发展路径图谱,将其引入索引编制系统研究可获取一系列重要的结论;③利用Python可以实现对索引数据的智能标引和智能检索,从而可以对新一代索引编制系统的各项功能提供有力支持,是新时代智能索引的研究指南;④基于Python设计的索引系统智能标引及检索的研究成果,可以作为今后研发“地方志索引”、“研究生学位论文索引”等智能化编制或应用系统的关键技术和实现基础。总之,索引研究进入了互联网+、大数据与人工智能的新时代,利用Python等先进技术研发索引编制系统,可以更准确、规范和快捷地实现对海量索引信息的整序、分类、检索和挖掘。

致谢:感谢我的研究生团队娄国哲、张思龙、高宾、陈菊、丁晓阳等同志在各个研究阶段为相关课题开发和本论文撰写所完成的工作。

王兰成 男,博士,国防大学政治学院军事信息与网络舆论系教授、博士生导师,博士后合作导师。研究方向:智能索引,舆情分析,信息技术,数字图书馆。

Research on Intelligent Indexing and Retrieval of Index by Python: A Case Study of Zhang Qiyu's Collection ofIndex Literature and Journal ofChina Society ofIndexers(Volume 1)

Wang Lancheng

Abstract: Under the environment of Internet+, big data and artificial intelligence, Python technology can be used to achieve more accurate, standardized and fast implementation of ordering, sorting, retrieving and mining of index information.Indexing and retrieval of index words based on Python are important functions of the new generation index compilation system. Knowledge map tools were used to intelligently analyze the evolution law of hot words and topics, and intelligently mine index bits with high-frequency word retrieval, take Zhang Qiyu's Collection of Index Literature and Journal of CS I(Volume 1)as examples.The conclusions are as follow text analysis is helpful to identify the changes of hot words and potential topics, knowledge map analysis is helpful to draw the development path of index research in a certain period, and Python can be used to achieve in-depth and fast index intelligent indexing and retrieval.These results are the foundation of the intelligent compilation system of“local chronicle index”and“postgraduate dissertation”design in the future.

Keywords: Index system; Python; Indexing; Retrieval