(1)网络蜘蛛
网络蜘蛛是工作在搜索引擎后台的程序,它的主要任务有二:一是不断从互联网上搜索新的资源并在数据库中建立其映像;二是定期更新数据库中已经存在的映像,以保证链接的有效性和文档的时效性。
基础教育搜索引擎使用了分布式网络蜘蛛[3],由一个管理中心来控制和协调分布在不同机器上的每个蜘蛛的资源搜集策略。
(2)文档预处理
蜘蛛程序从互联网上获取的资源有多种格式(文件格式),文档预处理程序从各种不同的资源格式中去除无关的干扰信息,提取出其本质内容,以便进一步对这些资源进行分类和建立索引。比如,对互联网上大量存在的HTML文档来说,文档预处理程序必须去除其中的HTML标签和一些脚本代码,以提取出其中包含的文本。
(3)中文分词
词是组成文本的基本语义单位。对于文本资源,无论是对其表达、分类还是建立索引,都依赖于准确地提取出其中的词。对于英文文本来说,词与词之间是通过空格分隔的,计算机容易从文本中提取出所有的词。但对于中文来说,词与词之间没有分隔符,如何准确地从文本中提取出所有的词一直是中文信息处理领域的一个研究热点。基础教育搜索引擎中,我们使用了传统的逆向最大匹配分词技术[4],并结合使用了基于高频特征词的交集歧义字段切分技术,实现了高精度的中文分词。
(4)文档特征提取
所谓文档特征指的是用于描述一篇文档的一组属性及其相应的取值。文档特征提取的目的是从文档中提取出最能够表达文档内容和特性的关键信息,从而在准确描述文档的同时,尽可能减少计算机的计算工作量。在文档属性集合中,从文档中提取出来的词集是其最重要的组成。于是,文档中区分度不大的高频词和一些连词、副词、介词等停用词,一般需要从文档的特征词集中剔除;文档中经常出现的同义词,如“计算机”和“电脑”,一般需要在文档的特征词集中合并。
对于被保留在文档特征词集中的词,仍然有必要根据其对文档的“贡献程度”来赋予一定的权重。通常的做法是使用TFoIDF方法[4, 5],计算出一个词在一组文档(比如一个训练文档集合)中的权重,然后以此值作为它在一般文档中的权重。
(5)文档自动分类
文档自动分类指的是让计算机对数字化的文档资源进行自动分类,能够完成该任务的程序被称作分类器。在分类器能够对一篇文档资源进行自动分类之前,它必须知道具有什么样特征的文档应当归到哪一类,这个目标必须通过对分类器进行训练来实现。我们首先根据基础教育领域用户的具体需求,设计出基础教育资源的分类体系,然后人工地从网上收集一些资源,每个类别的资源数从200至500不等。然后利用这些收集到的训练资源,对分类器进行训练,提取出每个类别的特征集。分类器在受到训练后,就能够对需要分类的资源进行自动分类了。
(6)文档实时自动摘要
文档自动摘要能对一篇网络文档自动提取其内容摘要,摘要文本的长度可以根据需要调节。摘要结果可以用于在罗列检索结果时,让用户迅速地浏览到该资源的内容提要。
基础教育搜索引擎中的文档自动摘要建立在基础教育特征词库基础之上,该特征词库系根据我们收集到的训练文档产生。摘要算法综合考虑了文本中每个句子中所包含的基础教育特征词的数量、特征词的权值、特征词在文档中出现的位置、句子在文档中出现的位置、句子的长度等因素,通过计算文档中每个句子的权值,来对每个句子进行排序。
文档的实时自动摘要则是根据用户的检索词或类别词,实时进行的文档摘要。此时,摘要算法将用户的检索词或类别词赋予较高的权重。
(7)分布式信息检索
搜索引擎服务于广大的互联网用户,将会面临着很大的并发用户访问;另一方面,搜索引擎由于要对互联网上众多的资源进行收集和索引,数据量相当的大。这些均给用户信息检索的效率带来了难题。
基础教育搜索引擎中使用了分布式信息检索的技术,这里的“分布式”包括索引数据的多节点分布和查询任务执行的多节点分布两个方面。分布式检索系统由一个中心服务器负责接受用户的检索请求、分发检索请求到具体的查询任务执行子节点、接收合并的查询结果并返回给用户。
为了增加系统的可靠性,分布式信息检索系统还为所有的分布式节点建立了冗余。这样,当中心服务器检测到某个子节点不能够再提供服务时,就将相应的查询任务分发到冗余子节点。检索数据和检索任务的分布以及适当的节点冗余,极大地增加了系统的可伸缩性和可靠性。
结语
我们开发的基础教育搜索引擎取名“博石”(Berse, basic education resource search engin), 目前原型系统已经开发完成并通过鉴定,服务网址为www.berse.cn。通过博石,我们发现检索出的资源与基础教育的相关度相当高,基本排除了通用搜索引擎搜索结果中的各种与基础教育无关的“噪音”。比如,我们在博石中输入关键词“万有引力”进行检索,得到的检索结果如图4所示(2006年6月10日搜索结果)。可以看出,博石为广大基础教育领域的用户提供了比通用搜索引擎更加与教育相关的Web资源检索结果。
基础教育资源搜索引擎、基础教育网站黄页、基础教育资源索引、基础教育资源的定制与个性化推送等系统的建立,必将为基础教育领域的用户提供准确、便捷的Web资源垂直服务平台。
[参考文献]
[1] 王昉,张小林. 面向教育资源的元数据[J]. 情报杂志,2002,(7)
[2] 中华人民共和国教育部. 2003年全国教育事业发展统计公报[EB]. http://www.edu.cn/20040527/3106677.shtml
[3] 姜杰,杨晓江. 专业搜索引擎Robot的设计研究[J]. 中国电化教育,2005,(6)
[4] 王晓龙,关毅等. 计算机自然语言处理[M]. 北京:清华大学出版社,2005.
[5] Ricardo Baeza-Yates,Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999.
作者简介:杨晓江,教授;李丽娟,硕士研究生;田俊华,讲师;
李艺,教授。南京师范大学教育技术系(210097)。

特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。