sub newsletter

360违反robots协议或将引发行业大乱

[提要]  对于被指责违反 robots 协议,由于事实俱在,周鸿祎已然无法否认,但他同时反驳表示百度在 robots 协议中禁止360爬虫,是不正当竞争。“做搜索就要遵守搜索行业公认的游戏规则,无视规则,肆意违反规则才是真正的不正当竞争。

对于近日奇虎360综合搜索被爆出无视国际通行的 robots 协议,抓取百度、Google等搜索引擎内容,导致众多网站出于安全和隐私考虑不允许搜索引擎抓取的内网信息被泄露一事,资深互联网观察家洪波指出,做搜索就要遵守搜索行业公认的游戏规则,无视规则,肆意违反规则才是真正的不正当竞争,这种行为不能从法律和政府监管上及时制止,将引发行业大乱。

搜索引擎的原理是通过一种爬虫 spider 程序,自动搜集互联网上的网页并获取相关信息。而鉴于网络安全与隐私的考虑,每个网站都会设置自己的 robots 协议,来明示搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许。而搜索引擎则会按照 robots 协议给与自己的权限来进行抓取。 robots 协议已经成为所有搜索引擎必须遵守的国际惯例。这就好比一个正常的人去到别人家里,需要先敲门,得到许可以后才能进入客厅。除非有主人的进一步许可和邀请,否则你不能擅自进入内室,或者在别人家里四处遛达。

因此,当两周前新上线的360综合搜索无视 robots 协议,直接抓取未经授权的信息数据时,其做法遭到了业内人士的普遍质疑。

据了解,百度网站的 robots 协议中并未授权360搜索爬虫抓取,但是360搜索无视这种设置,擅自实施抓取行为。考虑到很多内容源网站禁止搜索引擎抓取的网页中大多涉及存放在服务器上的后台数据库、用户稳私、密码等信息。这意味着,360无视内容源网站 robots.txt 协议中的设定,将导致存放在服务器上的不该被搜索到的隐私信息被搜索到,甚至直接在搜索结果中展示出来。

对于被指责违反 robots 协议,由于事实俱在,周鸿祎已然无法否认,但他同时反驳表示百度在 robots 协议中禁止360爬虫,是不正当竞争。对此洪波表示,robots 协议赋予网站禁止任何搜索爬虫的权利,这跟不正当竞争毫无关系。360无视行业默认规则,才是真正的不正当竞争。

“做搜索就要遵守搜索行业公认的游戏规则,无视规则,肆意违反规则才是真正的不正当竞争。”在洪波看来,百度并没有禁止所有爬虫抓取问答、知道和贴吧的内容,百度只是禁止了不规矩的、存在潜在安全风险的爬虫,这恰是保护市场秩序,保护用户隐私的合理举措。他指出,2008年淘宝也曾禁止百度爬虫,而百度则严格遵守 robots 协议,停止抓取淘宝网内容,并没有以淘宝不正当竞争为借口违反 robots 协议。

360一直自诩这是用创新的方式做搜索,洪波的一句话表示了他的观点:“一个连基本游戏规则都不遵守的搜索引擎,怎么好意思给自己贴上‘创新’的标签。也许在周鸿祎的字典里,无视规则等于创新。”洪波表示,这样的行为不及时从法律和政府监管上制止,那360今天违规抓取的是百度内容,明天就可以随便抓取含有大量隐私的人人网的社区信息,其他网站和搜索引擎都可以效仿,被京东屏蔽的一淘还可以抓取竞争对手的的商品信息。以此类推,整个互联网行业将大乱。

来源:上海商报 洪波

原创文章,作者:王琪,如若转载,请注明出处:https://www.prnasia.com/blog/archives/3062

China-PRNewsire-300-300