原文链接:http://www.donews.com/Content/200610/72d5d7f03e70403e925db9787dc37365.shtm
对百度,CTO刘建国的采访过程就是一个挤牙膏的过程,他永远不会借题发挥,对采访者的问题,回复得简练而专注。
这位与李彦宏一起创立百度的“技术新官僚”,对搜索引擎技术运用的思考,在一定程度上体现了这个新上市公司的商业方向及这个团队的技术想象力。
采访中,刘建国不断接到要求解封的“作弊网站”的电话,大多是熟人才会直接将电话打到他这里,或是打给李彦宏。采访由此而展开。
反作弊是我们的技术
《21世纪》:李彦宏选择搜索引擎作为百度的主业,当时是怎么确定的?
刘建国:2000年之前,中国有许多搜索引擎公司,Goyoyo是香港一个公司做的;科学院有一个网站,还有北大天网。当时创立公司时搜索引擎已经很多了。我们机会在哪里?在当时我和李彦宏的通信中,他说要做就做最好的。当时已有的搜索引擎速度慢,索引小,用户体验很差。我们都认为做一个中文搜索引擎有很大前景,所以我就从北大出来,跟李彦宏一起创业了。
《21世纪》:现在来看,当时搜索的核心技术是什么?
刘建国:分成好几块,一块是网页抓取,由蜘蛛程序选择、抓取互联网中的网页,还要持续不断地更新网页,将过期的网页剔除掉;二是超链分析和内容分析;三是针对用户的搜索服务:如何处理海量数据和大规模的用户访问?如何提供稳定的服务?有很多技术问题需要解决。
《21世纪》:你们是一帮人在做?
刘建国:好多个组,重点是相关性的评价。哪些网页是用户想要的?后面就有好多技术;比如超链分析;这里有李彦宏的专利。超链在Infoseek之前就有成熟的技术,李彦宏在那儿工作时就研究得很细,但我们没有仅用这套方法,而是根据当时搜索引擎全球的发展做了改进。
《21世纪》:百度在相关性方面有什么特色?
刘建国:有两个基本方面:超链分析和内容分析。我们这帮技术人员,包括李彦宏,根据搜索引擎当时的技术发展,做出了一套百度自己的超链分析系统。另外还得分析网页内容,比如中文处理就很重要,要理解中文的语法和特定文字意义,因为中文与英文还是不一样的,只有判断文字是什么意思,才能给用户提供搜索结果。
《21世纪》:“欺骗搜索”是什么意思?你们有什么独特的技术来对付它?
刘建国:就是所谓的网络优化,比如SEO之类,链接一些域名,好象链接很多,但实际上是人为做出来的。还有一些链接,就是专门帮别人做链接,这也是超链分析。你不是链接分析吗?专门针对你。还有一些网站,专门给别人做,相关度也高,我们必须发现哪些是LINKFORM,然后分析出来。
《21世纪》:这如何看得出来?有简单工具吗?
刘建国:我们已经可以通过技术手段及时发现这种欺骗或者叫作弊。是否作弊,有一个很简单的标准:用户看到的内容和搜索引擎看到的内容是否一致?前一段搜索“芙蓉姐姐”,进去之后很多是买手机的,买其他信息,这就是作弊。我们就分析,他们是通过什么方法来“欺骗搜索”。比如LINKFARM,我们靠技术发现出来,它已经“堆砌关键词”了,我们看出它是作弊的,我就不要它。这就是为何后来反弹这么大,有了“反百度联盟”的原因。有“反百度联盟”成员说,你为什么屏蔽我?前一段搜狐网的一个峰会,一个医药网的说我们很好啊,你为什么把我给封了?它的“堆砌”是作弊的,如果我们把它放开,对用户是一种欺骗。
《21世纪》:比如在百度搜“芙蓉姐姐”,你们把有些“芙蓉姐姐”链接给屏蔽了,那就不能给用户提供更多的结果了?
刘建国:是更准确,比如用户到这里来搜,得到的是真正的“芙蓉姐姐”而不是手机铃声。这样做的目的是给用户很好的用户体验。
《21世纪》:在反作弊技术里,有什么可以明确识别作弊?
刘建国:比如,来回互相链接、堆砌关键词等。还有前景色和背景色完全一致,在HTML里面,用户看不见,可以骗搜索引擎,就这样骗用户。
《21世纪》:仅仅背景色也可以用来作弊?
刘建国:背景是黑色的,搜索看见的仅仅是内容,是看不到背景的。前景与后景一样,机器看不着,人能看出来,景色也是识别的因素。其中的文字就是有些网站想欺骗的东西。有很多方法作弊,层出不穷的。搜索与作弊网站是永远不会结束的战争。
《21世纪》:有没有可以“招安”的作弊网站?
刘建国:不会的。他们的利益很大,骗一点是一点,不会到这里来做。
《21世纪》:有多少这样的网站?
刘建国:每天碰到成千这样的网站。
《21世纪》:他们到哪里拉客户?
刘建国:不一定拉客户,他们可以自己做铃声、短信,SEO会拉企业,给钱,我给你排位。
另一个“敌人”是Google吗?
《21世纪》:与Google的反作弊比,你们有什么优势?
刘建国:说Google的技术比我们好,我不认同,他们主要是不够集中。比如反作弊的,Google中文就做不过我们,这有技术问题,还有人力,要知道作弊惯用的手法,而Google不知道。这个模式我们比Google发展得更快,我们更接近用户。我们中文的理解做得比他们好,比如像分词、切词,中文是一个一个字,放一块儿,那些字和词是不一样的。我做得比Google好。他们没有专门研究中文。
《21世纪》:你们是用自己的技术?
刘建国:是的。我们中文分词,这个技术里面没有英文,中文本身的处理我们已经到位,还有语法的应用,我们做得很好。语法是主谓宾,如何用,老外不理解。
《21世纪》:你们用以前的文字识别技术吗?
刘建国:对中文我们有一套独特的做法,现在成熟的技术都不太适合我们。
《21世纪》:有没有用哪个平台?比如大的软件?
刘建国:这个软件是我们自己做的。
《21世纪》:是应用软件?
刘建国:不是一套。我们直接用自己的东西。比如说词典、分词、词汇。这不是释义的词典,可能有很多资源。比如我们用人民日报的语料库,我们购买这样的资料。更多的平台是我们自己的搜索引擎。我们有日志,总结新的词汇。我们对10亿计的网页也能分析。这是Google中文做不到的。至少没有聚焦。另外从中文用户体验来说,我们也做得比他们好,比如用户体验是什么、习惯是什么。比如相关搜索,在中文里面,用户心里想的一个事情,比如“软件”这个词,用户心里想的是软件下载,但搜索的是“软件”这个词,他输入“软件”,与搜索不符。百度会提示得更加精细化,到底是软件下载还是加密,全自动服务,这样用户会觉得很好。类似的工作我们下了很多功夫。其他像拼音检索,错别字纠正,我们也能正确提示。现在有些搜索正在抄我们。我认为不能崇洋。
从竞