网络“蜘蛛”在经过一段较长时间的爬行后,就可以爬完网络上的所有网站,但这些网站资源极其庞大,而且其中还夹杂着大量的无用网站,再加上搜索引擎的资源有限,通常网络“蜘蛛”只会抓取其中的部分网页放到数据库中。
网络“蜘蛛”到达一个网页后,会先对其内容进行检测,判断其中的信息是否为无用信息,如是否有大量的重复内容、乱码或是否与已收录的内容高度重复等。检测通过后,网络“蜘蛛”会对有价值的网页进行收录,并将网页信息存储到数据库中。
(3)网页处理。
网络“蜘蛛”抓取到的网页数据量过于庞大,是不能直接为用户进行索引服务的,这时要做大量的网页处理工作,如结构化网页、分词、降噪去重、建立索引数据库、链接分析和数据整合等。
(4)检索服务。
搜索引擎建好检索数据库后,就可以为用户提供检索服务了。用户输入一个关键词后,搜索引擎首先会处理该关键词,将其进行过滤和拆分,然后将索引库中与之匹配的页面提取出来,再对页面不同维度的得分进行综合排序,再通过收集用户搜索数据对结果进行优化,最后得到最终的搜索结果。
(5)结果展现。
一个页面在经历了层层筛选之后,最终展现在用户面前。目前,搜索引擎结果展现的形式是多种多样的,如摘要式、图片式、视频式、软件下载式、步骤式和新闻资讯式等。
①摘要式是最原始的展现形式,只显示一个标题、两行摘要、一个链接。一般企业网站、资讯类网站均为此展现方式。
②图片式表现为在摘要式的基础上显示一张图片。
③视频式用于显示包含视频的网页,在摘要式的基础上显示一张视频缩略图以及视频的时长等信息。
④软件下载式用于显示提供软件下载的页面,除了标题的链接外,还会显示软件的图标、版本、大小、更新时间、运行环境等信息以及“立即下教”按钮,单击该按钮可以直接开始下教软件。
⑤步骤式主要用于显示各种操作步骤的页面,会显示多张缩略图及简略的步骤文本。
⑥新闻资讯式会显示多条新闻的标题、发布网站及其发布时间,并显示第一条新闻的摘要。