当前位置:100EC>信息图>浅析网络教育搜索引擎的智能化排序研究
浅析网络教育搜索引擎的智能化排序研究
发布时间:2011年09月07日 10:30:24

(电子商务研究中心讯)  摘要:排序算法是现代搜索引擎的重要技术之一。本文根据网络教育资源的特色以及网络教育中学生的学习行为的特点提出了一种排序方法,即利用智能代理技术通过对学生学习行为的个人兴趣模型的构建,以使搜索更为智能化和个性化。

  搜索引擎的排序算法就是当用户输入查询关键词后,迅速在索引库中检索出文档,并将文档按照一定的规则进行合理排序,以使用户需要的文档尽可能排在前面几页,以便用户能快速查询到自己需要的信息。

  对于基于关键词检索的搜索引擎,通过Robot收集并索引的信息资源量非常庞大,比如Google可以搜索的网页高达33亿页。当用户进行搜索时,系统往往回返回数量巨大的检索结果,增加用户的负担,也降低了搜索引擎的效率,因此排序算法研究在搜索引擎中占有一种核心的地位。

  一、现代搜索引擎的排序技术

  1.1传统搜索引擎的排序技术

  传统搜索引擎的排序算法是对提取的每个关键词赋予一个权值,表示该网页与关键词之间的相关程度,不同的搜索引擎在计算权值时使用了不同的方法,但它们都以关键词在网页中出现的位置和频率为基本依据:

  1、关键词出现在标题中的网页可能比只出现在其它地方的网页更符合要求;

  2、关键词出现在网页的前面可能比只出现在网页的后面更符合要求;

  3、同一个关键词的出现多次的网页又可能比只出现一两次的网页更符合要求;

  把这些因素综合起来考虑便可得出一个计算关键词权值的公式。

  然而这种排序算法却有其局限性,由于网络资源的数量巨大,权值相同的两个网页质量却可能相差很远,而且很多网页设计者为了使网页能排在检索结果的前面,在其页面上堆砌关键词,或在重要的位置放置和网页内容无关却很流行的词汇,以达到增加浏览量的结果。

  1.2现代搜索引擎的排序技术

  现代搜索引擎为了达到较好的检索结果都使用新的基于超链分析的排序技术。其中以L.Page等提出的PageRank最为经典。PageRank算法由于在Google中得到成功的应用而被美国《时代》杂志评为“1999年度十大网络技术”之一。

  1、PageRank算法

  PageRank使利用网络自身的超链接结构给所有的网页确定一个重要性的等级数[1],当从网页A链接到网页B时,就认为“网页A投了网页B一票”,从而增加了网页B的重要性,最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化。同时PageRank还要分析为其投票的网页的重要性,重要的网页所投之票有助于增强其他网页的“重要性”,也就是说网页的重要性决定着同时也依赖于其他网页的重要性,而这个重要性的量化指标就叫PageRank值。

  2、算法的实现

  当搜索引擎接受到用户的关键词提问后,对提问式进行分析并从索引库中找到和搜索关键词匹配的所有网页信息,然后通过排序系统对网页进行相关性排序。

  3、PageRank算法的发展

  现在搜索引擎一般采用基于网页内容分析和基于超链分析相结合的方法进行相关度分析,也就是排序系统将网页的PageRank值与文档分词后的信息以及链接文件中的网页描述信息相结合起来确定检索结果排序的权值,这样就能客观地对网页进行排序,从而极大限度地保障搜索出来的结果与用户的查询相一致。

  二、网络教育资源的特色对搜索引擎的要求

  网络教育是建立在互联网上的,但却又不同于互联网,主要表现在教育资源的特点和学生的行为方式上。

  2.1网络教育资源的特点[2]

  同互联网上的信息一样,网络教育资源在数量上也是巨大的。但是,不同的网络教育资源分布虽广,但其内容之间的关联度和稳定性却是很强的,而且具有良好的可分类性。

  2.2学生学习行为的特点:

  网络教育中的学生获取知识的主要来源是从网络中查询自己需要的教育资源,但是学生不同于一般的网络用户,具有自己的特色:

  1、学生处于学习状态,对专业知识了解少;

  2、学生对网络的驾驭能力差,具有一定的盲目性;

  3、对于海量的信息资源,学生往往缺少耐性,不容易找到自己所需要的知识。

  2.3对搜索引擎的查询排序要求

  1、搜索引擎要能从学生的查询语言中提炼出学生的查询要求,并能更加知识结构对查询要求进行扩展联想,对所需资源进行准确定位。

  2、搜索引擎要能根据每个学生的学习特点对其提供资源,要能建立学生的兴趣“档案”,确定学生的兴趣范围,以便更准确的将学生所需知识排在前面。

  三、一种基于兴趣模型的排序方法研究

  3.1学科知识结构的构建

  在网络教育环境中,学科领域知识的分类是相对稳定而且准确的,因此首先以此为基础构建一个学科知识分类结构[3],这个结构是用分类树的方法建立各种学科知识概念之间的上下层关系,上层概念是其所有下层概念共同属性的概括,下层概念则是对上层概念的细化。整个概念树形成一个整体,每个概念节点都可以以学科分类代码为基础进行概念编码标识,并且每个概念都带有一个集合,是该概念同义但不同描述元素组成的集合。集合可以根据需要进行添加、删除、修改等操作。每个概念可与其它概念建立相应的关系,这种关系是不同于分类中上下层关系的横向关系。

  3.2兴趣模型的建立

  对于学生来说,其学习行为基本上是在本学科范围之内的,因此其兴趣范围较一般用户稳定,同时每个学生根据自身的学习特点不同,对知识概念以及概念之间的理解也不相同,这就构成了每个学生的个人兴趣所在。因此可以通过智能代理系统根据学生所表现出的兴趣趋向去构建学生的兴趣模型。

  1、智能代理系统的研究

  1)智能代理的特点[4]

  智能代理技术是人工智能研究的新成果,是信息世界种的软件机器人。它是代表用户或其他程序,以主动方式完成一组操作的机动计算实体。智能代理的特点是具有不断学习增长智能、适应信息和用户兴趣动态变化的能力,从而提供个性化的服务。

  2)网络教育中的智能兴趣代理

  智能兴趣代理[5]是通过对学生学习行为的分析和研究,了解和掌握学生学习的情况、需求、能力、进度、兴趣等,从而呈现符合个性的学习资源,使得每个学生身边仿佛有了解针对自身特点进行教学的“老师”而获得个性化的教学服务。其智能化的表现在于不断学习,适应学生兴趣动态变化的能力,从而实现查询的个性化。

  智能兴趣代理的基本思想是在概念树的基础上,通过学生对检索结果的反馈信息,逐渐建立各概念节点的横向联系,采用对学生的学科概念子树上的各节点及节点之间关系的等级计算,得到学生兴趣点的概念和关联等级排序。不仅可以得到学生感兴趣的关键词,还能得到学生所感兴趣的一组相互有关联的兴趣词,以此来确定学生的兴趣趋向。

  2、兴趣模型的建立

  当学生在第一次使用该搜索引擎系统时先进行基本信息的注册,包括个人信息、学科信息等。系统根据学生的基本信息,将概念网中相应的学科类别记录在学生的个人信息库中。当学生提出查询请求时,检索模块对学生的查询请求进行概念扩展,并将检索到的网页按照与各关键词的相关度进行排序,并将结果返回后,智能兴趣代理开始对学生的反馈行为进行分析,这里可采用学生打分及分析学生行为模式的方式:

  1)由于学生浏览网页时具有一定的盲目性和偶然性,需要学生对其浏览的网页进行评分。兴趣代理只关注评分及格以及学生进行下载或复制部分内容的网页。对于这些网页,兴趣代理提取出词频大于一定值的领域词,在学生的个人学科子树上将这些领域词之间加上关联等级值。

  2)在学生对一次检索结果进行遍历后,将每个关联边的所有等级值相加,存入信息库中。对学生的每一次检索都重复上述过程,对关联边进行等级值的叠加。这样经过叠加后,关联边的等级值越高,概念之间的关联性越强,如果多个概念之间的关联性都很强,则可认为反映了学生的兴趣趋向,构建了学生的兴趣模型。

  四、结束语

  随着人工智能的发展,搜索引擎的智能化将会越来越符合人们的实际需求。尤其是在网络教育快速发展的时期,应用智能代理来更深入的挖掘和分析学生的学习行为,监控学生的日常学习活动对现代教育的发展都能起到强大的支持作用。(文/朱素媛  编选:网经社)

  参考文献

  [1]曹军, Google的PageRank技术剖析,情报杂志,2002.10,15-18

  [2]程智,《网络教育基础》人民邮电出版社2002.11

  [3]逢焕利等,基于概念检索的中文搜索引擎,计算机工程,Vol.23,No1,Mar2002,8-10

  [4]李伟超,牛改芳,智能代理技术分析及应用,情报杂志,2003.6,29-33

  [5]马秀芳,张小真等,一种基于agent技术的网上协作学习环境研究,CBE2001论文集-转贴

浙江网经社信息科技公司拥有17年历史,作为中国领先的数字经济新媒体、服务商,提供“媒体+智库”、“会员+孵化”服务;(1)面向电商平台、头部服务商等PR条线提供媒体传播服务;(2)面向各类企事业单位、政府部门、培训机构、电商平台等提供智库服务;(3)面向各类电商渠道方、品牌方、商家、供应链公司等提供“千电万商”生态圈服务;(4)面向各类初创公司提供创业孵化器服务。

网经社“电数宝”电商大数据库(DATA.100EC.CN,免费注册体验全库)基于电商行业17年沉淀,包含100+上市公司、新三板公司数据,150+独角兽、200+千里马公司数据,4000+起投融资数据以及10万+互联网APP数据,全面覆盖“头部+腰部+长尾”电商,旨在通过数据可视化形式帮助了解电商行业,挖掘行业市场潜力,助力企业决策,做电商人研究、决策的“好参谋”。

【投诉曝光】 更多>

【版权声明】秉承互联网开放、包容的精神,网经社欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源网经社;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至NEWS@netsun.com,我们将第一时间核实、处理。

        平台名称
        平台回复率
        回复时效性
        用户满意度
        微信公众号
        微信二维码 打开微信“扫一扫”
        微信小程序
        小程序二维码 打开微信“扫一扫”