我爱水煮鱼 » 互联网 » 百度真的遵守 Robots.txt 协议吗?

百度真的遵守 Robots.txt 协议吗?

什么是 Robots.txt?

根据维基百科对 Robots.txt 的定义:

robots.txt(统一小写)是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。因为一些系统中的 URL 是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt 应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的 robots.txt,或者使用robots元数据。

Robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。

淘宝网的 Robots.txt

User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /

很显然淘宝不允许百度的机器人访问其网站下其所有的目录。

百度严格遵循搜索引擎 Robots 协议?

百度的网页搜索帮助-站长FAQ文档的第二点:

# 如何让我的网页不被百度收录?

* 百度严格遵循搜索引擎 Robots 协议(详细内容,参见http://www.robotstxt.org/)。

新浪的新闻:百度C2C回应屏蔽风波:将为淘宝卖家开绿色通道

新浪科技讯 9月9日下午消息,针对淘宝全面禁止百度爬虫抓取页面一事,百度电子商务事业部总经理李明远今日在接受新浪科技专访时表示,对淘宝不顾其交易平台卖家切身利益而屏蔽百度蜘蛛爬虫的举动感到遗憾,并将为淘宝卖家开绿色通道。

不用总结,就是简单把这些事情都罗列出来,结果都非常明显。如果你还不明白,请看 Jason 的文章:从百度针对淘宝用户开“绿色收录通道”质疑百度的行为操守

另外根据最近一段时间对我爱水煮鱼在百度搜索结果的观察,百度已经不再收录很多博客新的文章,即使收录了一两篇也是权重很低,我原本以为是自己个人的问题,后来发现好几个博客也有同样的问题,比如潘大财经专题站。你的站点是否有同样的问题,欢迎你的留言。 :-)

标签:

分享到:

请选择你看完该文章的感受:

不错 超赞 无聊 扯谈 不解 路过
  1. 另外根据最近一段时间对我爱水煮鱼在百度搜索结果的观察,百度已经不再收录很多博客新的文章,即使收录了一两篇也是权重很低,我原本以为是自己个人的问题,后来发现好几个博客也有同样的问题,比如潘大财经专题站。

    ================================

    原来真有这回事,前几天分别用百度和谷歌搜索名字和ID。百度居然在首页的尾部才收录我的博客,而谷歌却是首页第一项就指向我的博客主页了。

    这是不是百度搞竞价排名搞出来的后遗症呐。想知道百度的盈利,竞价排名的比重有多大。

  2. 百度的话,网店肯定是免费的。C2C的主要盈利模式是收取竞价排名费用,帮助卖家在主索引中取得好的排名。

    taobao封百度的robots.txt,主要也是这个原因。

  3. 百度给我带来的流量远不如google。且收录量变化很大,有次竟然显示收录达到7K多,而且还不是水分,很明显是百度的问题了。

  4. 百度说到底,商业网站而已。而我等对之寄予希望过高,因而有落差。
    百度很多行为都令网友不齿,如百度账户,要封就封,没得半点理由,好像它就是法律。套用一句话“网民的眼睛是雪亮的”

  5. 留言:百度是流氓,Google亦然,yahoo还是。我的blog在2个月前封杀了所有的爬虫。除了google 的收录逐渐减少外,yahoo不降反从10几个页面爬到了100多。百度始终就没有停止抓取。然后前几天我突然发现Google的收录也宇宙大爆炸一般从100多跑到了300多。当然全部不能访问,包括缓存……我晕了,我真的晕了。看来我老了。。。。

  6. 绝对不遵循!
    我的站PV60万,因为是论坛,长时间观察发现百度带来的流量意义不大,早就屏蔽了百度和YAHOO只保留了GOOGLE SPIDER,我在日志每天能看到大约6万左右baidu spider访问,不过的确没有收录.不知道啥意思.于是1个月后禁止了百度IP段.

  7. 百度不让我们自由链接,说什么质量有问题的屁话。他与爸爸生气,结果不让我们跟妈妈做事。我做1年的网站,百度竟是连主页都没收录,就因为我与妈妈好。

    百度已经沦落为互联网的赖皮了!