当前位置:100EC>信息图>浅析搜索引擎的工作原理及检索技巧
浅析搜索引擎的工作原理及检索技巧
发布时间:2011年09月06日 10:28:28

(电子商务研究中心讯)  [摘要]随着网络信息时代的到来,信息检索处于一个个互联的网络系统之中,用户、信息检索技术、信息资源构成了信息检索3个基本要素。本文主要通过Internet搜索引擎来介绍搜索引擎的工作原理及信息检索技术。

    一、前言

  随着Internet的迅速发展,网上信息正以爆炸性的速度增长,其资源内容几乎涉及所有领域,已经成为知识、信息的集合体,是人们获取信息的基本工具。在Internet网上进行浏览和检索,就好比进入了世界上最大的图书馆,而这个图书馆里的书刊、杂志、广告、新闻及各种形式的文献信息全都没有规律地排放着,没有一个中心目录将这些信息组织起来。正是因为Internet资源既丰富又分散且处于无序状态,使得人们在网上查找自己所需的信息并非易事。这时为满足人众信息检索的需求,搜索引擎便应运而生。搜索引擎是指使用某些自动索引软件来发现、收集网络上的信息,然后对收集的网页进行标引,建立一个可供查询的大型数据库。

  二、搜索引擎的工作原理

  搜索引擎为了以最快的速度得到搜索结果,它搜索的通常是预先整理好的网页索引数据库。搜索引擎,不能真正理解网页上的内容,它只能机械的匹配网页上的文字。真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

  搜索引擎的工作原理可以看作三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。

  1.从互联网上抓取网页

  利用能够从互联网上自动收集网页的爬虫系统程序(或者称为机器人程序),自动访问互联网,沿着任何网页中的所有URL爬到其它网页,重复这一过程,并把爬过的所有网页收集回来。

  2.建立索引数据库

  由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL,编码类型,页面内容包含的所有关键词,关键词位置,生成时间,大小,与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

  3.在索引数据库中搜索排序

  当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对于该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页而内容摘要等内容组织起来返回给用户。

  由于Web信息会频繁更新,例如,新闻网页通常每天就要更新,有的网页更新周期可能是一周或几个月,这种频繁更新,会导致数据库内信息的过时。因此,需要更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。

  三、检索技巧

  1.科学选择关键词。由于搜索引擎智能化程度的影响,它只能在现存的数据库中查找匹配的关键词,因此,这种匹配相对比较盲目,我们在选择关键词时,要注意两方面的问题,才有可能得到较好的搜索效果。

  2.使用双引号进行精确查询。如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,这样得到的结果最少、最精确。

  3.使用加号(+)、减号(-)限定查找。很多搜索引擎都支持在搜索词前冠以加号(+)限定搜索结果中必须包含的词汇,用减号(-)限定搜索结果不能包含的词汇。

  4.灵活运用使用通配符。很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符。

  5.使用逻辑词辅助查找。比较大的搜索引擎都支持使用逻辑词进行更复杂的搜索界定,常用的有:AND (和)、OR (或)、NOT(否)及NEAR(两个单词的靠近程度),恰当应用它们可以使搜索结果非常精确。另外,也可以使用括号将搜索词分别组合,如(新闻OR足球)AND(米卢)NoT(“新闻”OR足球)

  6.有针对性地选择搜索引擎。用不同的搜索引擎进行查询得到的结果常常有很大的差异,这是因为它们的设计目的和发展走向存在着许多的不同,比如:Download.com是针对软件类的搜索引擎,可搜寻大量的自由软件和共享软件。驱动之家主要是提供查找驱动程序及硬件厂商信息。

  7.使用元词检索。大多数搜索引擎都支持“元词”(metawords)功能,用户把元词放在关键词的前面,就可以告诉搜索引擎你想要检索的内容具有哪些明确的特征。例如,你在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。其他元词还包括:image,用于检索图片;link,用于检索链接到某个选定网站的页面;URL,用于检索地址中带有某个关键词的网页。

  8.细化查询。许多搜索引擎都提供了对搜索结果进行细化与再查询的功能,如有的搜索引擎在结果中有”查询类似网页”的按钮,还有一些则可以对得到的结果进行新一轮的查询。

  9.尽可能将搜索范围限制在特定的领域里。比如在yahoo中文网站中,你要查找的是与电脑相关的知识,那么你没有必要让搜索引擎在休闲与运动、健康与医药、艺术与人文等其他分类中查找。你可以进入“电脑与因特网”这一类,选中“检索此目录下的网站”。然后再开始搜索。

  四、结束语

  要完成一个有效的搜索,首先要确定要检索的主题,选择合适的检索工具、抽取适当的关键词。为避免可能出现搜索结果的冗余性,要尽可能限制查询范围,正确构造检索式。同时要使用逻辑条件限制及模糊或精确查询的功能保证能真正检索到我们所需的网络信息资源。(来源:《商情》杂志 编选:网经社)

  参考文献:

  [1]符绍宏,雷菊霞.因特网信息资源检索与利用[M].北京:清华大学出版社,2000.

  [2]王启云.如何利用搜索引擎检索网络信息.2001(4),214-218.

  [3]刘毓华.网络信息资源检索初探.现代情.2003 .

浙江网经社信息科技公司拥有17年历史,作为中国领先的数字经济新媒体、服务商,提供“媒体+智库”、“会员+孵化”服务;(1)面向电商平台、头部服务商等PR条线提供媒体传播服务;(2)面向各类企事业单位、政府部门、培训机构、电商平台等提供智库服务;(3)面向各类电商渠道方、品牌方、商家、供应链公司等提供“千电万商”生态圈服务;(4)面向各类初创公司提供创业孵化器服务。

网经社“电数宝”电商大数据库(DATA.100EC.CN,免费注册体验全库)基于电商行业17年沉淀,包含100+上市公司、新三板公司数据,150+独角兽、200+千里马公司数据,4000+起投融资数据以及10万+互联网APP数据,全面覆盖“头部+腰部+长尾”电商,旨在通过数据可视化形式帮助了解电商行业,挖掘行业市场潜力,助力企业决策,做电商人研究、决策的“好参谋”。

【投诉曝光】 更多>

【版权声明】秉承互联网开放、包容的精神,网经社欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源网经社;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至NEWS@netsun.com,我们将第一时间核实、处理。

        平台名称
        平台回复率
        回复时效性
        用户满意度
        微信公众号
        微信二维码 打开微信“扫一扫”
        微信小程序
        小程序二维码 打开微信“扫一扫”