常识

关于robots.txt的基本常识

agents黑名单

中国网站案例

  • 小红书: 很冗余,既然已经默认不允许访问,为何还要再单独列出呢?
  • 新浪微博: 允许所有爬虫访问的路径是ads.txt
  • 豆瓣: 和豌豆荚有仇,特地全面屏蔽。
  • bilibili: 不冗余,看来B站负责这个文件的人是懂的。有意思的是B站是允许Apple,Google的爬虫的。特别针对FB和Twitter允许了/tbhx/hero
  • 抖音: Bingbot和Baiduspider特殊待遇。对比tiktok
  • 淘宝: 屏蔽一切爬虫。
  • 中国政府网: 看上去很久没有更新过了;不允许访问某几个特定页面,很微妙。
  • 知乎: 很冗余;特意允许搜狗访问/tardis/sogou/
  • 百度贴吧: 看上去也是很久没更新了,居然还有MSNBot
  • 搜狐: 画风特别。各种wildcard。

TODO: 寻找特意屏蔽AI爬虫的中国网站。

  • 财新: 屏蔽了GPTBot和CCBot。
  • 起点: 屏蔽了ClaudeBot,ChatGPT-User,GPTbot。
  • 晋江: 并没有屏蔽AI爬虫的样子。