相信大家还记得 360 搜索引擎刚出来时,因为不遵循 robots 协议而被百度抓到吊打的事件吧,谁对谁错我们不作评判,今天我们要讨论的是怎么禁止这些不遵循 robots 协议的搜索引擎抓取我们不想让他们抓取的内容。
前不久,WordPress 官方插件目录中新增了一款叫 Blackhole for Bad Bots 的插件,这个插件就是用来收拾这些不守规矩的搜索引擎蜘蛛的。该插件的原理很有意思,在robots.txt
文件中增加一个虚拟的链接,一旦有蜘蛛试图访问,插件就禁止这个蜘蛛访问网站中的其他页面了。守规矩的蜘蛛自然不会去访问这个链接,可以畅通无阻的抓取网站允许搜索引擎收录的页面。
这相当于设了一个巧妙的陷阱,你守规矩,我自然欢迎你,你不守规矩的踏进我布下的陷阱了,呵呵,真不好意思,这里不欢迎你。更棒的是,正常用户看不到这个隐藏链接,遵循 robots 协议的搜索引擎也不受影响。
功能特色
- 设置简便
- 代码干净
- 基于 WordPress API 开发
- 功能简单专一,不啰嗦
- 轻量级、高性能、高灵活性
- 可以很方便地重置屏蔽的蜘蛛列表
- 可以删除单个被屏蔽的蜘蛛
- 插件通过设置页面设置,不给后台增加
- 安静的在后台工作,不会影响正常用户的访问
- Optionally receive an email c-alert with WHOIS lookup for blocked bots
- 所有主流搜索引擎已被加入白名单,不会被屏蔽
- 自定义显示给被屏蔽的搜索引擎的消息
- 一键重置插件设置
如果你的网站不是基于 WordPress 建设的,没关系,只要你使用的变成语言是 PHP,就可以通过 Blackhole 的独立PHP版实现同样的功能!
白名单
默认情况下,插件不封锁以下任何一个主流的搜索引擎,下面的搜索引擎默认被添加到了插件的白名单中,插件也允许我们在设置中手动添加其他搜索引擎到白名单。
- AOL.com
- Baidu
- Bingbot/MSN
- DuckDuckGo
- Googlebot
- Teoma
- Yahoo!
- Yandex
如果你的网站不是基于 WordPress 构建的,也可以使用该插件的 PHP 版本。