HAO123的迷思—-谈谈SEO


都时兴WEB2.0了,我还打算谈SEO,确实有一点落伍。事情是这样的,我最近要写一个无聊的方案书,提纲已经拟了一个月了,就是懒得写正文。所以我决定把内容拆开了写,独立成章,这样可以发挥我离题万里的特性。如果万幸,我能写完这一系列文章,那每篇删去50%,就可以组合成那个预想中的方案书。这个方式如果多人合作来做的话,似乎就有那么点WEB2.0的意思了。好象说远了。

HAO123的性质我以为应该是非常的明显,但后来发现即使是很多IT人士,甚至是高手都得出了错误的结论。当然这更大的可能是说明...

都时兴WEB2.0了,我还打算谈SEO,确实有一点落伍。事情是这样的,我最近要写一个无聊的方案书,提纲已经拟了一个月了,就是懒得写正文。所以我决定把内容拆开了写,独立成章,这样可以发挥我离题万里的特性。如果万幸,我能写完这一系列文章,那每篇删去50%,就可以组合成那个预想中的方案书。这个方式如果多人合作来做的话,似乎就有那么点WEB2.0的意思了。好象说远了。

HAO123的性质我以为应该是非常的明显,但后来发现即使是很多IT人士,甚至是高手都得出了错误的结论。当然这更大的可能是说明我错了,但我是那种死不认错的人,你们拿我没办法。

最开始看的一篇文章,是说HAO123充分照顾了初学者的需求,用简单的页面罗列最常去的站点LINK,对网友十分友好、方便,所以很多人都把它当主页。我当时简直要喷饭,稍微有点常识也不会如此吧?我很刻薄,在评论里说作者即使只去个人站长圈子的论坛里看两天,也不会发出如此无知的言论。

但最近我发现几位大腕级别的IT人士,竟然对HAO123也有类似的看法。一人是说中国网民水平低,但他相信如果有更好的站点出现,大家是会接受的,不会只用HAO123。另一人更直接,说他的网站目标就是HAO123,是让那些连后退键都不会使用的网民也能上的网站。

HAO123到底是什么?是低水平网民爱用的,但IT高手看起来傻的站点么?虽然我没见过,但我不排除有人会喜欢HAO123,并主动把它作为起始页。不过,我觉得把它定位为低水平者爱用的站点,主要是满足大家了大家当高手的心理:我还是比很多低水平的人强啊。有多少人(比例)会主动使用HAO123?每一个人都说低水平的人喜欢,可低水平的人在哪里呢?

HAO123是随着搜索引擎成长起来的站点。搜索引擎已经铸造了一代人的上网习惯。想一想我们自己,突然想起什么事,或是遇到一个不懂的词,都会立刻用GOOGLE或者百度来搜索一下。在搜索过程中,我们经常“误入”类似HAO123的站点:你要去下载软件,搜到的是一个有一堆该软件LINK的页面。当然这也对我们有用,但搜索引擎直接搜索到最终页面,不是更好么?为什么需要这么一个中间的页面呢?用术语来说这叫“桥页”。

桥页是SEO常用的手段。所谓SEO是Search Engine Optimization的缩写,搜索引擎优化的意思。就是说用的手段可以使用户搜索东西的时候,让你的网站排列在靠前的位置。搜索引擎既然成为了大家的上网习惯,那排列在搜索结果前面的站点自然会得到更多的流量。HAO123类的站点不仅仅是让自己站点在一两个关键词搜索中排在前面,它首先要让基本所有热门搜索词的结果中都会出现它的结果,而即使这个条目列到很靠后的位置,因为搜索引擎的使用者惊人,还是会带来些许的PV。而当你被收录的和热门搜索词符合的页面非常多的时候,你的站点流量就会很快上去了。

要是一个一般网站要做到这个,需要非常大的人力。比如你是软件下载站点,那要跟踪很多流行软件的更新,发现最新开发的软件,并且要有安装、使用等一系列常识。而且没有人可以在各个方面都做到优秀。一个做软件下载好的站点,不见得做得好MP3,即使也能做MP3,总不能铃声图片也能做?游戏网址 ,宽带电影,软件下载,爱情交友……

HAO123能做到。因为他们根本不关心最终结果,即使有错误也不影响。它要做的就是预先分析最可能的搜索词,然后搜集做这些的网站网址,来一个大汇总。这样搜索什么关键词,它都有一个页面等着你,这虽然也要花精力,但比维护一个“正常”站点要省力多了。而这些页面即使不正确,对用户没帮助,对HAO123也是没损失的。

这样的页面为什么会在搜索结果中排列的还比较靠前呢?首先要说搜索引擎的收录机制。你的网页做的再好,搜索引擎不知道也是白搭。搜索引擎会派出它的“爬虫”,一个自动收集网页的程序,在网上顺着连接,把遇到的每一个页面带回去放到搜索引擎的数据库中。当它遇到HAO123时,它会发现找到了一个“富矿”。

搜索引擎的爬虫不象人那样聪明,它只能按照固定的规则来收取页面。这样它就会比较偏好简单的、好分析的页面。如果一个连接是动态的,后面有太多的参数,比如http://www.tianyaclub.com/New/PublicForum/Content.asp?flag=0&idWriter=0&… 爬虫处理起来就会很累,有的爬虫索性不收录这样的页面,因为这样的动态页面可能都是从数据库中读取的,理论上可以随着你的参数不同,变出无数的页面。也许会构成一个爬虫永远走不出的迷宫。现在搜索引擎都能对付一些动态页面,但它们都更喜欢简洁的固定页面,比如 http://www.hao123.com/music.htm

爬虫喜欢更有效率的工作,收集完一个页面会沿着页面上的LINK再收集下级的页面。这样我们就能判断出它偏好的页面样子:简单,没什么多余的看不懂的结构、程序,最好上面有很多的LINK,可以让自己继续收集。如果这LINK通往的下级页面也是这样,我们可以想象爬虫会高兴的说:可找到你了。我太拟人化了。其实这些是编写爬虫程序的工程师们的想法,他们把这写进了爬虫的工作规则。HAO123类的桥页就符合这样规则。

爬虫有多厉害呢,我曾经做过的网站,有一个类似这样的桥页系统。平常的访问很低,40000左右,但有时会突然暴涨到8万。不用说,我知道,昨天百度的爬虫来访问过了。如果你做的对它的胃口,它会老来,每天吃掉你给它提供的页面。这对搜索引擎来说是可以理解的,它也希望收集更多的页面来提供给用户。(当然我做的不是垃圾站点,这后面还要说)

解决了收录这一步,剩下的要由搜索引擎分析,什么样的站点会排到前面。首先同样它喜欢简单的页面,因为它自己智力有限。其次它喜欢符合规则的页面,有规则它才能判断。桥页因为简单,这两点都会做的很好。然后因为搜索引擎没法用自己使用这些页面凭感觉来判断好坏,所以它重要的参考就是如果别处有更多的这个站点连接,那么说明这个站点更重要。这道理成立,但是桥页很容易做到了这点,因为它是专门做连接的。它添加了一个站点,要求对方也做它的友情连接是很正常的互换。不过它是专门做这个的,它可以得到的友情连接要比“正常”网页要多的多。而且这是相互影响的,当它在搜索引擎地位提高了,它要求别的站点做友情连接时就更可能得到回应,于是形成正循环。

这还是比较“台面”上的技巧。具体到HAO123来说,它还有一系列同类型的站点。它们之间互相做连接,搜索引擎也会因此提高所有这些站点的等级,互相促进。据说ALEXA前列的站点中,HAO123的所有者还有至少10几个同类型的站点。

若这些还算只欺骗搜索引擎的话,剩下的行为就更让那些要学习HAO123的IT大腕考验自己的良心了。HAO123早期是靠病毒修改用户主页的。不仅仅它这么做,它的一系列站点也都这么做,据说它还用过QQ病毒传播。这些现在已经找不到痕迹,它已经成功洗白了自己。但有一点还存在,就是网页总会跳出来提示,让你把HAO123设为主页。即使现在HAO123本身不这么做了,它的子站点依然还有这么做的痕迹。你可能访问一个

#

2 Comments

高翔 03/15/2006

给我很多好的启发,很有思想,你可以出去自己办一个IT评论网刊了。

856 04/19/2006

是啊!!