阿拉丁计划:百度要整合你的结构化数据

李彦宏从2008年开始推销的阿拉丁计划终于有了一个结果,百度昨天发布了搜索开放平台。阿拉丁计划的初衷,就是搜索到此前搜索引擎无法触及的”暗网”,也就是不以网页形式存在的互联网内容。而搜索开放平台是阿拉丁计划的一部分。
顾名思义,搜索开放平台就是百度让你来为百度的搜索结果提供内容,而之前,是百度通过其蜘蛛爬虫在网络上主动抓取内容。单方面的信息获取变成了双渠道的模式。
从这角度讲,搜索开放平台确实更加”开放”,之前,用户要推销自己的内容只有通过SEO优化,而现在,有了另一个更开放的规则。百度对搜索开放平台起了一个很有想象力的口号:将您的服务整合入百度搜索,提供直达通道,与用户面对面。
用户提交内容给开放平台大体有三个步骤:第一,把内容转化成xml形式,百度爬虫会定时检查这些内容。第二,挑选一些搜索关键词来与这些内容匹配。第三,挑选一个百度提供的模板,以决定这些内容如何在搜索结果列表里显示。当然,能否最终显示取决于百度是否审查通过。
什么样的数据会成为这种模式的主流呢?现在浮出水面的,应该是诸如股价变动图标,电影放映信息,体育比赛积分等等结构化的,标准化的,不断变化的数据。当然,一定会有我们之前没有想到的内容形式冒出来,所以值得继续关注。
其它搜索引擎当然也在做这方面的尝试,比如就在前天,Google把其Profile整合入了搜索结果,也就是说,用户可以通过编辑自己的Profile页面,而在Google搜索结果的首页推销自己。这种思路的本质,跟百度阿拉丁计划是神似的。Profile里的信息就是必须符合Google定义的结构化信息。