常识
关于robots.txt的基本常识
agents黑名单
中国网站案例
- 小红书: 很冗余,既然已经默认不允许访问,为何还要再单独列出呢?
- 新浪微博: 允许所有爬虫访问的路径是ads.txt
- 豆瓣: 和豌豆荚有仇,特地全面屏蔽。
- bilibili: 不冗余,看来B站负责这个文件的人是懂的。有意思的是B站是允许Apple,Google的爬虫的。特别针对FB和Twitter允许了
/tbhx/hero
。 - 抖音: Bingbot和Baiduspider特殊待遇。对比tiktok。
- 淘宝: 屏蔽一切爬虫。
- 中国政府网: 看上去很久没有更新过了;不允许访问某几个特定页面,很微妙。
- 知乎: 很冗余;特意允许搜狗访问
/tardis/sogou/
。 - 百度贴吧: 看上去也是很久没更新了,居然还有MSNBot。
- 搜狐: 画风特别。各种wildcard。
TODO: 寻找特意屏蔽AI爬虫的中国网站。