Friends, Technology, Web2.0 - What I am reading

    [Home] [Recent] [Site Map]

   

从SearchAll看搜索引擎DNA

作者:agentzh

分子遗传学家们喜欢把不同物种的DNA序列放到一起,比较它们的相似性,从而作为物种亲缘关系远近的判断依据之一。伴随着"SearchAll,我搜去!"插件0.4.12版的发布,我们现在也可以把各家搜索引擎的"DNA"放到一起,绘出它们之间相同的地方,从而考察它们幕后索引算法的相似度。

那么该如何定义搜索引擎的DNA呢?为简单起见,不妨将它们在某个查询下返回的结果页列表作为DNA,而每一个结果项所对应的网址则是DNA中的基本单元(或者说,核糖核苷)。举例来说,在yahoo.cn中搜索"刘德华",会得到下面的结果列表(第一页):
http://ent.sina.com.cn/s/h/f/ldh.html (刘德华_影音娱乐_新浪网)
http://www.andylau.com/ (andylau.com)
http://datalib.ent.qq.com/star/1333/index.shtml (刘德华_腾讯娱乐)
http://www.andylaufans.com/ (刘德华非官方网站,是FANS...)
http://www.mtvtop.net/html3/29.htm (刘德华_腾讯娱乐)
http://www.awc618.com/ (awc618.com)
http://www.123andylau.com/bbs/ (刘德华论坛-123木头人...)
http://ent.tom.com/Archive/1129/1573/2003/6/16-6616.html (刘德华:他的面孔已不是一种符号_TOM娱乐)
http://music.ent.tom.com/star/liudehua.html (一个绅士刘德华名副其实的偶像)
http://ent.163.com/ent_2003/editor/030515/030515_165443.html (刘德华:光芒万丈的不老情人_网易娱乐频道)

每一个结果项的网址(URL)都是全球唯一的标识,而且经常会同时出现在多家搜索引擎的结果页当中,只不过其排序会发生变化。而作为搜索引擎而言,一般会把它认为比较"好"的结果项放在前面,把"差"一些的结果项放在后面。当然,每一家搜索引擎对"好"的定义不尽相同,所以它们在幕后所使用的结果排序算法也不尽相同。我们通过比较各家搜索引擎的结果项的排列顺序,可以或多或少地窥探到它们在排序算法上的相似度,甚至它们之间某种内在的"亲缘关系"。

在SearchAll0.4.12当中提供了一个全新的视图来帮助我们进行这种比较,该视图叫做"映射视图"。例如,对于"刘德华"这个查询,我们如果使用Google.cn,Yahoo.cn,和Baidu.com作为当前的三家引擎,会得到下面的视图:

080130从SearchAll看01.JPG

图中三串小球自左向右分别对应Google.cn,Yahoo.cn,和Baidu.com所返回的结果列表。每一个结果网址分别对应一只小球;对于完全相同的网址,其小球之间有直线相连,且小球本身也显示为嫩黄色。

从图中不难看出,对于"刘德华"这个查询,Google和Yahoo的排序算法与Yahoo和Baidu之间相比,要更接近一些。当然,仅从单次查询的结果,就对引擎的亲缘性作出结论,是相当武断的。通过多次不同的查询,我们才能作出比较接近实际的判断。你不妨亲自动手试一下:)

对于天然具有亲缘关系的搜索站点,比如易搜和雅虎全能搜索,则在SearchAll的"映射视图"中显示出近乎一一对应的关系:

080130从SearchAll看02.JPG

图中左边的那串小球是易搜的结果,而右边的则是yahoo.cn全能搜索的。事实上,两个站点在后台使用的是同一套引擎,只不过前台的展现逻辑很不一样而已。类似地,Google中国和Google美国这两个站点在中文查询下,也几乎是一一对应关系:

080130从SearchAll看03.JPG

通过进一步的尝试,我们还会发现,对于图片搜索引擎,即使是热门查询,其关联度也极低。比如在Yahoo.cn和Baidu.com的图片搜索中搜"刘德华",我们也没有看到一条连线。

值得一提的是,这些连线图形都是在用户的客户端直接生成的(感谢Firefox对canvas标签的支持),所以SearchAll插件仍然是0服务器端的应用;)

"映射视图"这个功能的创意其实源自下面这个网站(感谢SDS的青焱的推荐):

http://www.langreiter.com/exec/google-vs-google.html?q=Perl

和SearchAll不同的是,该站点是在自己的服务器上抓取搜索引擎的结果,并生成好Flash图形,最后再传回客户端的。

未来我们可能还会在"映射视图"中顺带着计算"编辑距离"等相关的数值。(感谢复旦大学的laye的提议!)如果你想到了更有趣更另类的比对搜索引擎的方式,请告诉我们。我们EEEE hacking小组会尽最大努力把好的想法在SearchAll的未来版本中变为现实。


>>Source Link
>>Blog: 雅虎搜索日志
>>Publish Date: 1/31/2008 7:02:28 AM
>>Keywords: http

Related Posts
>>The Top 100 Alternative Search Engines - SPECIAL UPDATE #
    I have just returned from my jaunt to Italy, and I"d like to share the amazing new search engines that were introduced in the comments section of the Top 100 Alternative Search Engines for April; they
>>TieURL:国内的网址缩短服务 #
    TieURL是来自于国内的一家网址缩短服务,官方称之为网址瘦身服务。与普通的网址缩短不同的是,TieURL具备了很多特色功能: 1、点击统计功能:通过在生成的TieURL短网址后面加stat就可以查看该条网址的访问统计数量,比如http://tieurl.com/r3的统计就是http://tieurl.com/r3/stat。 2、可以使用"tieurl.com/xxx?张三"这种形式添加上你期
>>Poll: *Really* Alt Search Engines #
    Charles Knight, Read/WriteWeb"s search engine authority, has provided another list of weird search engines. We"re interested in getting your opinion on this, as a bit of weekend geeky fun. So which o
>>Round up of the top SEO related articles of SEOmoz and friends - Part 1 #
    Posted by GuillaumeI just spent the last 5 hours going through 30-35% of the entire SEOmoz"s posts because we"re training new interns here, and I wanted them to get a good idea of the whole concept of
>>blogcn最近的问题 #
    各位虾米,大家好,报告一个问题。 有虾友反映,这几天发现Blogcn的blog更新停顿了,经我们的大工程师检查发现,blogcn更改了rss服务的地址,原来的地址停止更新了(仍然可用)。但没有给出新的地址,也没有给出重定向信息。 例如这个blog : http://hanjie33.blogcn.com/index.shtml 原来的地址为: http://www.blogcn.com/rss2
>>Visual Studio 2008 和 .NET Framework 3.5发布了 #
    参阅Somasegar的博客http://blogs.msdn.com/somasegar/archive/2007/11/19/visual-studio-2008-and-net-framework-3-5-shipped.aspx MSDN订阅者可以去MSDN下载,下面是产品下载主页的地址:http://msdn2.microsoft.com/en-us/vstudio/produc
>>欢迎叶开、顾迅先生加入“营销2.0”一书的写作 #
    欢迎叶开、顾迅先生加入“营销2.0”一书的写作 非常高兴,能和叶开先生、顾迅先生合作,来一起写作“营销2.0”这本书,他们弥补了我在两个关键方面知识和力量的不足。 叶开先生将负责顾客关系部分的写作,他是长期战斗在第一线的顾客关系管理专家,为众多大企业提供CRM服务,最近正在尝试,将针对企业的CRM与web2.0结合起来。叶开先生是北京汉拓咨询公司的创办人兼合伙人。 顾迅先生将负责品牌及传统企业如
>>AbstractRecord 预告. (关键字 ORM,ActiveRecord,DomainModel) #
    最近我在做一个开发框架以及在上面建立的应用程序. 开发框架中包含了一个叫 AbstractRecord 的技术. 这个技术用于访问数据库,但是我不愿意把它称为ORM. 这个东西将能够大大地提高基于数据库的程序的开发速度. 由于篇幅太长,我放到文章区去了. http://blog.joycode.com/lostinet/articles/107276.aspx http://www.cnblo
>>豆瓣在全世界的长尾用户群 #
    这个帖子也作为blog的声明贴: doubanclaim8ef70eff0bc852fc 59.151.41.70 - - "GET /blog/index.xml HTTP/1.0" 200 26855 "-" "Doubanbot/1.0 (bot@douban.com http://www.douban.com)"...
>>WPF/E MSDN content is ready #
    新鲜出炉的WPF/E内容,尽在: http://msdn2.microsoft.com/en-us/library/bb188266.aspx

Other Posts:
>>雅虎搜索让我“评”上了教授
>>新版雅虎火车票搜索上线
>>全能搜索2007年度热搜排行榜
>>雅虎搜索日志征文大赛获奖名单
>>圣诞惊喜!雅虎全能搜索首页改版啦!
>>雅虎乐译,做快乐翻译的使者
>>雅虎全能搜用户俱乐部 搜索答题赢iPhone
>>回顾:2007年度中国雅虎校园招聘
>>SearchAll,我搜去!
>>用最好的攻略到最美的地方去
>>雅虎搜索日志征文大赛
>>你问我爱你有多深,“建议”代表我的心!


Month Archives:

Top Tags:
Company & Product Profiles Google Internet Technology Search feature Business and Technology Web2.0 column analysis 服务介绍 application letter comment 业界信息 news Startups deal Search Headlines China2.0 產業策進 Social Network 未來趨勢 創投 widget news_in SEW Experts 业界动态 創業案例 Web 2.0 News & Ideas


@2007 All rights Reserved