Google搜索技术2005年最高机密:Web2.0 大家一起搞

原文链接:http://blog.donews.com/aigaogao/archive/2006/03/14/767873.aspx
建议读原文,这个JJ的文章图啊、表情啊太多了... ...


前言
这篇文章本来应该写于5个月前,没写的原因主要是拖拉,到了后来就是一个众所周知不可抗力的原因:忘记了。

话说半年前,爱搞搞曾经为了吸引眼球,成立了个“爱搞搞”互联网学习小组,还自命副组长,布置大家做作业,其中一题就是这个:


3.用任何方法,但不用任何挨踢技术,把自己的名...

原文链接:http://blog.donews.com/aigaogao/archive/2006/03/14/767873.aspx
建议读原文,这个JJ的文章图啊、表情啊太多了… …

前言
这篇文章本来应该写于5个月前,没写的原因主要是拖拉,到了后来就是一个众所周知不可抗力的原因:忘记了。

话说半年前,爱搞搞曾经为了吸引眼球,成立了个“爱搞搞”互联网学习小组,还自命副组长,布置大家做作业,其中一题就是这个:

3.用任何方法,但不用任何挨踢技术,把自己的名字搞上Google和百度的第一位,并借此比较2者搜索技术的差别。(选做题)

IT专业同学就不用做了,这是我昨天刚刚做完的,第一次能够把我的窝在“爱搞搞”关键词查询时提上Google第一位,花了大概20天左右,每天5分钟。

很好玩的动脑筋游戏,连爱搞搞这样一个挨踢傻女人都能玩的高难度SEO游戏,除了Google需要一些耐心和细心外,这作业不IT,只需要脖子以上鼻尖为水平线的上半球就够用了。呵呵

另提示:百度的难度系数基本为0,不用花太多时间;把Google想象成一只有血有肉的大爬虫就行了。

今天就把这个方法写出来吧,不过希望大家留意我的思路,而不是结果,因为掌握了思考问题的方法,你就能在互联网的天地自己搞搞。

正文
自从2005年9月3日开窝以来,爱搞搞经常屁颠屁颠地跑去Google,盼望自己的小窝哪天能被那只大爬虫收到肚子里面。但每次在那个搜索框输入“爱搞搞”这个关键字,出来的都是别人的网页,而俺的窝却找来找去都没个影儿。

一、只有独特的关键字才能成功吗?

这里顺便澄清一个误区,有些同学以为只有独特的“关键字”才“容易”把自己的做到第一位,如果常用的就不行。

确实,独一无二的容易些,好运的话只要等待就行了,但“爱搞搞”不是独特的,因为北方人可能不了解,广东话有个“搞搞震”的俗语,意思小调皮捣蛋的意思(详见“爱搞搞”官方名字解释),所以互联网上一早就有很多“XX爱搞搞震”、“XX爱搞搞破坏”等等被Google和Baidu收录。

说明这个是为了给大家一个信心,任何一个属于你自己的关键字,只要有恒心,都是可以据为己有的。

二、为什么有的同学自己名字关键字查询结果不在Google第一位?

去年曾经看过一篇Blog,上面说很多名人的窝都没有能出现在Google搜索结果的第一位,这篇文章忘了谁写的,已经找不到。

去年由于Google对BSP程序及RSS技术适应得还不好,所以确实很多人的窝都“答非所问”,我查了几个牛人,例如Keso和木子美,当时他们都不能成为自己名字关键字查询结果的第一位。

但有位同学成功了,就是木木,我开窝前很喜欢去看她的东西,当发现她的窝竟能在自己有关的几个关键字搜索结果都排在第一位时候,我想她一定有独特的成功之道。

三、开始自称爱搞搞

比较一番后,发现木木有个特点,就是写东西的时候喜欢在文中称呼自己“木木”,而别人都只会用“我”,我猜这就区别所在,Google那爬虫看到这里那么多“木木”,就知道这是人家“木木”同学的窝了,于是我就开始在文章中尽量用“爱搞搞”代替“我”。

查了一下记录,第一篇改变的应该是9月15日的《帮小窝模板加上自定义CSS(一)》。

四、怎样把Google爬虫引入搞窝?

Donews不知道是因为.text程序还是主页结构问题,导致站内内容很难被Google收录,前一阶段刘韧和老白玩“毛主席语录”关键字Google排名竞赛,相信深有体会。

因为网站结构对爬虫不友好,不做任何干预的情况下,盼望Google爬虫自己来把有关的帖子收录是很难的。

何况那时候俺在donews上一个人也不认识,想让别人帮忙加上爱搞搞超链接都不行。

我想了一个方法:出去留言。

选择哪个窝呢?首页上天天更新得最勤的都是一个叫Keso的家伙,于是我想,Google爬虫肯定来Donews首页,在首页通过文章链接去Keso那里,我在他那留言,把爬虫引过来搞窝。

据查,我第一次留言是在9月18日《三言二拍:惊喜地发现》,其中也问人家有什么支持中文的离线写blog工具。

从此以后,Keso那里出现了个天天坐沙发的爱搞搞(由于时差关系,我总能第一个留言),没有人知道原来这个傻乎乎的家伙真正目的是为了引诱Google爬虫。

五、Google Catch的重要

天天去Google查,发现有一天那爬虫终于收录了我窝里的文章,但查“爱搞搞”,仍然不在靠前的位置,连第一页都上不了,害得我要用“site:http://blog.donews.com/aigaogao/ 爱搞搞”(就是查在那个路径底下的“爱搞搞”)才能看到自己的记录。

能帮忙的工具还有Catch,这是我一向养成的查阅习惯,因为你的关键字部分突出来了,能够快速决定这个网页是不是你想要的。

顺便说个题外话,很感激Google的妥协,当我年前回中国,发现不能用Google Catch,简直和不能上网差不多,因为当你要查阅一些东西的时候,要通过大量的快速翻阅、关键字不断的转换,才能得到最终的满意答案。

有些人说小乖乖利害,没有编过程序,完全自学把aigaogao做出来,很了不起。其实这里面和我在美国能看到Google Catch,快速全世界乱翻,帮他查找大量参考资料是分不开的,改天我再写写这种“互联网”学堂的学习方式。

在Catch里,很容易就看到“爱搞搞”这个关键字被Google收录的版面,当时我的窝头部还有一句“爱搞搞就是女人,女人就是爱搞搞”,是一个网友说的,我很喜欢就放在头部了,发现Google爬虫也抓到了。还有页面底部的“copyright”旁边的(如下图),原来爬虫看这些。

于是我就在左边栏目加了一堆的“爱搞搞”,还有那个“copyright”,“blogger”……。这就叫做“页面优化吧”。

(点击放大)

六、911的启示

可是Google爬虫仍然不知道俺应该是最“爱搞搞”的,我的条目还是不能排在搜索结果的第一位。

但我发现每天去查的时候,多多少少都有些变化,“搞窝”里的东西越来越多被收录,听说爬虫很久才来一次,怎么会天天或隔天都来呢?

有一天我忽然想起了Google News的成名,据说是因为911,当天很多人都跑去Google查相关的新闻,Google News里面因为能找到最全面的而名声大噪。

这个突发事件需要短时间内的快速自修正,为什么别的搜索引擎做不到Google那么快而准呢?

在Google最基础的广为人知“超链接”指向理论,在这种情况下毫无用处,所以上次老白和刘韧玩“毛主席语录”关键字游戏,号召别人帮自己加链接指向,结果帮他们的朋友反而很多在Google搜索结果反而排在他们前面,说明“超链接”指针已经不是Google搜索技术最主要的核心竞争力。

当然那时候他们还没有玩那游戏,我也没有想得那么清楚。

但我想,我每天去Google查询,还有911时候一下子很多人都查“纽约世贸大厦”之类的关键字,这2件事情有一种关联,Google一定是有机制通过使用人的反应让程序自动调整某个关键字的搜索结果排列顺序。

我们来想象一
下911那天:

第一个查询人A来到Google,面对众多的“纽约世贸大厦”查询结果,但第一页里并没有关于那个突发事件,于是A一直往下找,发现排在第n页里面第X条是这个的,于是他(她)点击进去,离开Google;

第一个查询人B来到Google,也是同样操作,查询人C也是,后面的如此类推……

在短时间内,同一个关键字被大流量查询,而最终大家都选择了排在后面的某一条记录,我想那爬虫一定想,哦,这是热门话题,而答案是那个第X条,它应该排在第一位,于是把这第X条升级。

具体的情形,有兴趣研究SEO(搜索引擎优化)的同学可以展开更丰富的联想,但这已经够俺用了。

七、Google搜索技术已经上升到Web2.0的境界

根据上述联想,我使用这几个方法:

我每天去Google输入“爱搞搞”,那个爬虫最开始不知道“爱搞搞”是什么东西,它肯定着急了,多没面子呀,于是它就想:“我明天出去一定多留意什么是‘爱搞搞’”,越多人问,它越重视,所以它凡碰到有这个关键字就多刨根问底,导致它来搞窝造访也来得特别勤快。
我每天不但自己去Google查,还让小乖乖帮忙,因为我们2个一个在美国,一个在广州,IP不同,让那个爬虫以为“很多人”都对‘爱搞搞’有兴趣,把自己捧成名人。。

最关键的是怎么才能把自己“升”上第一位呢?根据911事件原则,我就每天千辛万苦在后面页面找到自己那条记录,然后点进去,离开Google。也让小乖乖同样操作。不过注意别过分,俺们那时候每天一人查一次而已。

怕那爬虫不懂路,我刚开始查询时候还用“site:http://blog.donews.com/aigaogao/ 爱搞搞”,让它有个参考。

八、一场风波导致被Google惩罚

正当我开开心心看着自己的记录不断上升,已经快要到第一位时候,俺得意忘形犯了个低级错误。

因为我天天上keso那里留言引爬虫,而keso是名人,分值高,所以爬虫误以为他那里是搞窝了,于是第一位是keso的,我的排在Keso下面二级分支,记得那天结果是类似下图:

可一个不留神,俺因为在keso9月24日那篇后面留言开玩笑挑衅人家,结果被一直看俺不顺眼的同学们骂了个狗血喷头,这件事本来不算什么,可由于那页面上出现大量的“爱搞搞”,导致爬虫认定那里才是真的,而我的窝是假的,于是第2天一查,我的窝所有记录几乎都被删除了,只有一条在很后面的页面。

嗨,前功尽弃呀,只能眼泪往肚子里咽,然后继续咱的作弊方法。但那以后我不敢再去keso那里留言了,怕那爬虫又误会了。

九、傻瓜女人的求证艰辛之路

用了一个星期左右,在9月30日前的某天俺终于把“爱搞搞”第一位给抢下来了,前后大概用了十几天时间。

我为自己成果雀跃万分,但却不等于别人就相信你(嗨,做女人难,做一个聪明的不挨踢女人更难),小乖乖虽然帮我一起web2.0喂Google爬虫,但他认为那是陪我玩,我那方法根本是毫无“科学根据”的。上北京,见到很多程序员,他们也说没有听说过Google会那样。

俺不服气,因为天天看着搜索结果的变化,我认定那爬虫就是俺自己辛劳“喂养”大的,它一定像宠物般能懂人话。

于是在一次激烈争论后,我和小乖乖因为各不相让,决定实践出真知,用科学的方法“华山论剑”。

当我们上网时候,每一步向外发送的操作都是由无数的“数据包”沟通完成的,有些软件是专门抓这些“数据包”内容的。

小乖乖当场用软件一抓,果然发现了当点击查询结果时候,有一个数据包是向Google发送的,证明了我的“瞎猜”是正确的,Google确实利用大伙web2.0帮它“投票”作查询结果的自修正。

有兴趣搞搞的同学可以玩一下,小乖乖推荐这2个软件:netmon(是windows 2000 server带的,也可以在XP下用)和Iris(挺好用的一个)。

十、不争气的百度

喂爬虫的方法只能用在Google,百度没有这个机关,很不明白它怎么不跟上web2.0的步伐呢?永远都比Google慢很多,而且仍然停留在“超链接”指向这种初级阶段。

俺刚开始还Google&百度两个爬虫同时喂的,结果发现百度那只笨死了,教了半天都不懂,我在天涯曾经开了一个窝,没有登几篇东西,但当发现百度终于有进步的时候,却是把天涯那窝排在Donews这个前面了,很明显,它认为天涯比Donews有名,那里的“爱搞搞”一定比Donews这个更爱搞。

十一、作业

上进的同学通过这个事例,请记住一个道理:互联网上没有什么专家,你只要好好学习,敢想敢干,有一天你也会是专家。

俺喜欢布置作业,虽然现在工作忙,不能成立学习小组了,趁今天也布置一下作业,如果有同学能自己动手用数据包拦截软件把Google web2.0的论证过程记录下来,请在这个帖子后面留言处写上你的帖子超链接,俺帮你的窝卖广告。

另外,喜欢乱搞搞的同学,这里为你准备了一些有关SEO的清单:

《研究一下Google和Baidu是怎么样研究我们的》

《将Google玩死》

《HAO123的迷思—-谈谈SEO》

《大家知道李兴平把hao123卖了在干什么了吗?》

《一年来ALEXA中文网站排名的数据分析》

Update:

今天看了一下回复,没想到大家那么热烈,看来同学们对做坏事的兴趣还是比较大,这里要补充几个东西:

第一、你每天去Google查询和“点”之前先要把本地cookies清空

这个昨天忘写了。如果不清,Google那爬虫就知道只有一个家伙整天问“爱搞搞”,它一定不是名人,来造访的频率就不高。

爬虫造访频率高的好处是:假如每次来发现你窝(网站)内容又更新了,它就认为:哦,这是个好地方,值得多收录。类似规律很多,这里不一一阐述,有兴趣的同学去google多用“SEO”等关键字查询,学习一下英语资料就行(千万别看中文的,很多都是骗人的,还有人把网上英文资料翻译后卖1000多块钱一本书呢,强烈建议大家练好英语然后自己翻译成书,咱们卖50一本,把这市场搞乱)。

第二、有些同学说我成功是因为别人链接,还误以为俺用了5个月,这里把时间顺序整理一下

日期 乱搞搞
9月13日左右 开始去Google查”爱搞搞”
9月15日 在《帮小窝模板加上自定义CSS(一)》自称”爱搞搞”
9月18日 去keso《三言二拍:惊喜地发现》后面留言引爬虫
9月18日~24日 发现爬虫开始造访搞窝,于是进行页面优化
9月24日 已经成为第一名(keso)下的子级,但在《东拉西扯:从哪儿获取新闻》后面留言乱搞被人骂
9月25日 被Google惩罚,把我的窝所有记录几乎都删除了,只有一条在很后面的页面
9月25日~28日 继续点击,但不敢再去keso那里留言了,怕那爬虫又误会了。
9月29日 成功了,在”爱搞搞”一词查询里面成为第一位
9月30日 布置大家开动脑筋做作业,见《第二次作业》

全部时间其实只用了十几天,如果不是9月24日那场风波,估计25日就能到位了。

#