---- Alta Vista是一个速度很快的搜索引擎,由于它强大的硬件配置,使它能够做及其复杂的查询。它主要是基于关键字进行查询,它漫游的领域有Web和Usenet。支持布尔查询的"AND","OR"和"NOT",同时还加上最相近定位"NEAR",允许通配符和"向后"搜索(比如:你可以查找链接到某一页的所有Web站点)。你可以决定是否对搜索的短语加上权值,在文档的什么部位去查找它们。能够进行短语查询而不是简单的单词查询的优点是很明显的,比如,我们想要查找一个短语"to be or not to be",如果只是把它们分解成单词的话,这些单词都是属于Stop Word,这样这个查询就不会有任何结果,但是把它当作一个整体来查询,就很容易返回一些结果,比如关于哈姆雷特或者是莎士比亚等等的信息。系统对查询结果所得到的网页的打分是根据在网页中所包含的你的搜索短语的多少,它们在文档的什么位置以及搜索短语在文档内部之间的距离来决定的。同时可以把得到的搜索结果翻译成其他的语言。
url_id 对每一个URL的唯一的ID号 word 该URL中的经过stem的单词 intag 该单词在该网页中的出现的次数
---- 2.存储每一个URL信息的表
---- 该表(URLTbl)中主要的关键字段有:
rec_id 每一条记录的唯一的ID号 status 得到该URL内容的状态,比如HTTP_STATUS_TIMEOUT表示 下载网页的最大允许超时 url URL的字符串名称 content_type 内容的类型 last_modified 最新的更改时间 title 该URL的标题 docsize 该URL的文件的尺寸 last_index_time 最近一次索引的时间 next_index_time 下一次索引的时间 tag 对于网页,用来表示它的类型,比如:是text,或者是html, 或者是图片等等 hops 得到文件时候的曾经失败的次数 keywords 对于网页,和该网页相关的关键字 description 对于网页,指网页的内容的描述 lang 文档所使用的语言
---- 3.因为网页中有很多单词是一些介词和语气助词或者是非常常用的常用词,它们本身没有多少意义。比如:英语中的about,in,at,we,this等等。中文中的如"和","一起","关于"等等。我们统一的把它们称为停止词(stop word)。所以我们要建立一个表,来包括所有这些停止词。该表(StopWordTbl)主要有两个字段。 word char(32) 表示那些停止词 lang char(2) 表示所使用的语言