我的一亩三分地 我就喜欢!
13fen  设为主页
 收藏本站
 
当前位置: > 一亩三分地:首页 > 建站推广 > 推广经验 > 搜索引擎推广 > 搜索引擎深度剖析
热门文章排行
热门文章排行 如何宣传你的网站?(10-05)
网站炒作的六种方式(10-17)
如何推广网站(10-09)
如何提高网站流量的简例(10-05)
搜索引擎关键字调整和提高流量两个策(10-05)
精采文章排行
精采文章排行 最新整理的免费搜索引擎登陆入口(强(11-17)
哪些行为会被百度搜索引擎认为是作弊(10-24)
Google秘技酷招大拼盘(10-24)
Google成功之谜(10-24)
网站炒作的六种方式(10-17)
技术专题推荐
网管论坛交流
 

搜索引擎深度剖析 

作者:佚名   来源:一亩三分地   点击:   日期:2007-04-13

   2004年,作为互联网上第二大应用的搜索发生了哪些变化?年初,Google推出了区域搜索;年中,中搜和Google的桌面搜索越炒越火,搜狗则宣布启动第三代搜索引擎;年底,微软亚洲研究院正式把“互联网搜索和挖掘”纳入其主要研究方向……   一场场造势运动给人以箭在弦上、蓄势待发的感觉,而其瞄准的靶心无疑是2005,第三代搜索引擎全面启动之年。   超链分析,历史的过客   曾有国外的第三方机构对搜索引擎网站进行了一次隐式测评,即拿掉各家网站的LOGO,让用户在没有先入概念的情况下为其搜索结果打分。没出预料的是,Google依然是这次评测的第一名;但出乎预料的是,Google只领先第二名一个百分点。这一个百分点对用户来说,几乎是察觉不到的。难道发明Pagerank技术的Google,如今的领先优势就剩这么一点了吗?   以Pagerank为代表的超链分析技术,是根据网页之间的超链关系来决定网页内容的重要程度,它在现有技术对网页内容缺乏足够认识时发挥了作用,但其理论基础并不坚实,因为这体现的是“谁的声音大,谁就代表真理”的思想,也就是谁的链接多、流量大,谁的排名就靠前。比如有关SARS的文章,新浪网上的文章会排在中华医学会网站的前面。这些事例都表明超链分析只是一种参照性技术,而无法揭露内容本身。   如果无法理解内容,也就无法做到个性化。几年来,搜索网站都在利用相似的超链分析技术对搜索结果进行排序,各家也会不时打开竞争对手的网站,查看一下别人的排序情况,思量一番再微调自己的参数。这样调来调去,各家网站的搜索结果变得越发相似。中搜总裁陈沛认为:“结果和别人不同,可能做得好;如果结果和别人相同,肯定没法做得好。第二代搜索使用的超链分析技术已经不可能实质性改善搜索质量了。”   第二代搜索行将退出历史舞台,而各种新思想和新技术则开始崭露头角。虽然它们的叫法各不相同,但其带来的第三代搜索很可能在即将到来的2005年成为主流趋势,陈沛甚至预言:“如果搜索公司在2005年下半年还没有第三代搜索技术,就有可能被淘汰掉。”   第三代搜索,回归的革命   从上世纪90年代初搜索引擎诞生至今,有数不清的公司投身其中,发明了五花八门的技术用以实现搜索,但具有划时代意义的技术只有两种,一是以人工目录分类为基础的网站搜索,它开始了互联网搜索的时代,是一次开创性的革命。二是以超链分析技术为基础的大规模网页搜索,其搜索结果的准确度从网站上升至网页,让网络用户的搜索体验充满惊喜,成为了一场开拓性的革命。   第三代搜索日益临近,关于它的概念却还没有统一的定论。但可以肯定的是,搜索引擎正在诸多方面发生着深刻的变化:搜索技术将更加智能化,搜索资源将更加广泛,搜索方式将更加便捷,专项搜索将更加丰富,接受终端也将向移动设备发展。因而即将到来的绝不是一次改良运动,而是一场改朝换代的革命,一次“回归的革命”,让搜索回归内容本身,去贴近生活和普通用户,从而也为搜索产业开拓更大的市场。   现在,微软、中搜和搜狗都在将人工智能技术融入到搜索排序当中,从而实现搜索结果的个性化。如果用户关心电影,搜索“绿茶”就会将有关电影的结果排在前面,而不是有关饮料的网页。智能化也可以实现区域搜索,虽然互联网是跨区域的,但是内容和服务却是本地化的。如果搜索“川菜馆”,搜索引擎把全世界的川菜馆都给用户,那么大部分结果都将是垃圾。   未来的互联网也将打通所有网络资源的环节。陈沛认为:“人们需要用最短的时间找到自己最需要的信息,这才是搜索的本质。”所以将来的搜索将很难区分搜索内容的来源,用户可以用桌面搜索查找互联网的、本地的和局域网的内容,也可以查找任何一台和你的电脑相连的电脑的内容。这样利用P2P的搜索,就可以查找一群朋友机器上的共享内容,无论他们是在天津还是在上海。  来得早不如来得巧   明确喊出“第三代搜索”且声音响亮的微软、中搜和搜狗,在过去的四年里并不是搜索界的王牌军,但这并不影响他们的斗志,他们相信,搜索是一个由技术推动并迅速更新的产业,对财力和脑力都有极高的消耗。所以当有记者问及微软亚洲研究院院长沈向洋博士,是如何看待Google获得高额IPO时,沈博士风趣地答道:“这说明,计算机专业的博士还是有点用的,搞技术的人还是可以赚一些钱的。”作为微软亚洲研究院的第五大研究方向,互联网搜索和挖掘在沈向洋博士升任院长后高调推出。同时,美国和英国的微软研究院也在此领域有大规模的研究。事实上,微软公司CEO鲍尔默已经宣称微软将在五年内超越Google的搜索技术。   “在新一轮技术竞争中,有些人落伍了,有些人成功了。这就是为什么这么多人在搜索引擎产业中前赴后继的原因。”虽然中搜是搜索领域的后来者,但陈沛坚信,作为一家年轻的公司,中搜会有更强的创造力。搜狐旗下的搜狗同样非常年轻,它被寄望于增强搜狐的整体技术实力和品牌优势。回顾这十几年,搜索公司以很快的速度新陈代谢着:Google并不是第一家进入搜索领域的公司,却可以打败Altavista和Inktomi,成为了第二代搜索的王者。而搜索公司LookSmart在去年10月被微软MSN网站抛弃后,市值在当天就下跌了52%。   搜索引擎不是一个靠炒概念就可以混日子的产品,它可以被诸多硬性指标加以衡量,比如网页覆盖率、相关性排序的准确率、更新速度和功能丰富度等。这些指标都可以用来判断一家搜索公司的技术是不是足够过硬,而且最要紧的是,用户对好的搜索技术和差的是完全有感知能力的。   在2005年,会有哪家搜索公司一夜崛起,又会有谁轰然倒下?互联网曾经并将继续真实记录搜索引擎的发展历史,那么就让我们在来年的互联网上见识一下,究竟谁会成为第三代搜索的“新人王”。   微软如何胜出   微软将在明年年初推出MSN的新版搜索,现在Beta测试版已经上线,提供了包括区域搜索和提问式搜索等富有创意的功能。但理想和现实之间总有差距,MSN区域搜索的结果跟Google和雅虎相比还有一定的差距。不过在理论上,微软已经做足了准备。今年,微软亚洲研究院有多篇有关搜索的论文被著名的学术会议录用,其中包括被信息检索方面最权威的学术会议之一的ACM SIGIR收录的7篇,超过此次会议论文收录总数的10%。在微软严谨而系统的搜索研究中,我们看到了它对原有搜索技术所做的六个方面的改进。   网页块,更小的搜索单位   现在,一张网页承担着多种功能,除了呈现主体内容以外,它还要显示频道链接和广告等次要信息。虽然对用户来说,这些信息的重要程度是不同的,但对以往的搜索引擎而言却是完全相同的。如果搜索引擎可以区分出网页上哪块是正文,哪块是广告和导航,那么搜索结果应该会更为准确。微软亚洲研究院已经做了这样的研究,它将网页分割成几块,以网页块(block)作为搜索的最小单位。从搜索网页到搜索网页块,微软发现搜索性能可以提升15%~25%。   分割网页块的工作完全是自动进行的,因为计算机已经学会如何识别网页块及其体现的重要性。机器学习的过程大致如此:找到一批布局各不相同的网页,人工标注其网页块及其重要性,然后将这些训练数据提供给计算机;计算机通过识别每个网页块的属性,包括位置、长宽、字数、是否有图片等,逐渐学习到划分网页块的规律。   发现99倍的新信息   以往搜索的数据都是位于网络表层的静态信息,无法挖掘到位于数据库里的深层数据,而据估算,这部分数据可能占互联网上所有信息的99%。   现在之所以只能搜索互联网上1%的内容,是因为目前的爬行搜索技术无法爬进数据库,它面临着三个难题:一是如何从数据库得到请求响应,爬到数据;二是如何将爬到的数据进行组织;三是如何整合这些信息并呈现出来。   举例来说,当搜索一个购物网站时,首先要找到获得商品信息的方法,然后识别出这些信息,哪个是价格,哪个是型号,最后要将信息整理好,用友好的界面返回给用户。“这就像在一个黑箱里寻找宝藏,要把数据一点点的试出来。”微软亚洲研究院互联网搜索与数据挖掘组责任人马维英博士这样比喻,“或者像挖雷游戏,如果方法得当,地图一下子就可以被揭开。”   给每个人贴上标签   当我们通过搜索引擎了解某个人时,很可能需要阅读许多条链接的内容才能形成大致的概念。而利用聚类技术,与某个人相关的高频词汇就会被识别出来,而数目众多的搜索结果也可以因此归入相关的类别之下。   搜索小组的研究员最常搜索的人物就是“马维英”,可以看到他的主业是“互联网搜索和数据挖掘”。而当搜索“姚明”时,看到的则是篮球明星、休斯顿火箭队、姚明赞歌等词汇,归类的结果十分有趣。   从文档到知识的转变   文档与知识有什么区别?可以这样理解:大考临近,你借来了学习委员的教科书,发现上面划着直线、波浪线和荧光线。这些被标记的地方都是老师强调的“知识点”。由于经常上课睡觉,你的书页上白白净净,只是所谓的“文档”。当你翻开自己的教科书,拿出笔来拷贝学习委员的标记时,就相当于完成了一次从文档提炼知识的过程。   以后,这个过程将由搜索引擎来完成,当用户搜索一个人或物时,很可能在结果中直接得到一段有关他或它的介绍。这对经常码字的博士生和记者来说,无疑是一个天大的喜讯。   谁是最有影响力的人   微软搜索将从相关性搜索领域跨越到智能化搜索领域,并借此实现人际网络搜索等服务。比如提供某人发表论文的情况,这样在某一领域发表过最多篇论文并排在前列的人,无疑是其中最具影响力的人。马维英打趣说,可以根据这个搜索结果决定是否给某人授予终身教授的职位。   人手一台搜索引擎   微软利用Windows让更多的人开始使用计算机,而它也想通过进入移动终端,让更多的人开始使用搜索引擎。手机用户的数量远高于计算机用户,而使用频度也更高,市场也更为巨大。因此微软将移动搜索定为其关注的下一个重要领域。移动搜索的界面将是特别改制过的,适合手机屏幕的宽度,以便用户不必左右滚动屏幕,只要上下翻页就可以了。  中搜:后来的“先行者”   中搜是搜索领

文章评论】 【收藏本文】 【推荐好友】 【打印本文】 【论坛讨论

   相关文章:
·在搜索引擎上排名前位——“桥”页之道! ·第三代网络营销:搜索引擎营销
·网址站发展及盈利 ·利用ASP打造站内搜索引擎
·如何撰写软文广告? ·Yahoo与google排名算法各有侧重

   文章评论:(条)
  
 请留名: 匿名评论   点击查看所有评论 网管论坛
 

  责任编辑:一分  声明:刊登此文章是为了传递更多信息,文章内容仅供参考,转载请注明出处。