如何在防止采集爬虫的同时,不影响搜索引擎爬虫?
1. 让采集爬虫采不了——主动防御
A. 通过iptables设置,屏蔽异常IP。
B. 在编写采集规则的时候,要获取采集对象,都会要寻找采集对象在HTML中开始和结束的唯一标记。通过模板优化,让采集者找不到这个唯一的标记,也就无法采集。
2. 让采集爬虫采了也用不了——被动防御
A. 正文中加入混淆字符串,无法清理。即便被采集后再发布,正文无法正常阅读。
3. 不怕采集爬虫采——反向劫持
A. 活用“欲知详情,请看下回分解”的思想,一个观点分几个文章来描述,做好网站内链。即便被采集后再发布,也存在死链,或者贡献流量。
B. 正文中的链接全部进行自有短网址服务处理。即便被采集后再发布,也只是向自有短网址服务贡献流量——不怕你不采,越采越开心。
参考案例:
http://www.nulledphp.com 中 使用 http://www.mije.net 对外链进行短网址处理。
文章网址:http://www.nulledphp.com/65651-inout-search-engine-v80-non-nulled
下载网址:http://rghost.net/8pXg55B6l
短址处理:http://www.mije.net/1/aHR0cDovL3JnaG9zdC5uZXQvOHBYZzU1QjZs
http://www.mije.net使用的源码是基于Nadeem Syed开发的URL Shortener[adf.ly_clone],“/1/”透露出使用者是这套程序的第一个注册用户,“aHR0cDovL3JnaG9zdC5uZXQvOHBYZzU1QjZs”是通过Base64加密函数处理后的原始下载网址,这样解决了原版是明文显示原始下载网址的问题(完全可以在采集中获取,也就失去了防采集的意义)。
如何确认http://www.mije.net是使用Base64加密函数呢?
将“aHR0cDovL3JnaG9zdC5uZXQvOHBYZzU1QjZs”填入http://tools.namedog.com/code-converter/ 的Base64这一栏,可见在文本格式这一栏解码出“http://rghost.net/8pXg55B6l”。
http://www.mije.net是在哪里使用Base64加密函数呢?
发现是在 http://www.mije.net/js/fp.js.php
是通过JS编写的Base64加密函数对外链进行筛选,并处理输出。
怎样克隆这一功能呢?思路如下:
scr.me原程序会把正文中的外链(比如http://www.google.com/)都置换为http://scr.me/1/http://www.google.com/
而mije.net 改造这个程序后,把外链都进行base64加密,实现 http://scr.me/1/aHR0cDovL3d3dy5taWplLm5ldC8= ;并且最后一步让 http://scr.me/1/aHR0cDovL3d3dy5taWplLm5ldC8= 在浏览器中打开时 进行base64解密,打开 http://scr.me/1/http://www.google.com/
1. fp.js.php中关于网址处理的JS代码重新写过。
2. 全站处理的JS代码也完全不同。
如果简单地使用mije.net的相关JS语句代入scr.me,发现虽然页面外链已按预期实现了Base64加密,但是无法实现解密原网址,直接跳转到首页。其实在scr.me默认模式,如果网址格式错误,也是跳转到首页。那么,问题是,在新模式下,并未完成解密即输出。
这是什么问题呢?难道在其他PHP文件中有所修改?可能是处理短网址的那个PHP程序?
研究scr.me的.htaccess:
DirectoryIndex index.php FileETag none ServerSignature Off Options All -Indexes <IfModule mod_rewrite.c> RewriteEngine On RewriteRule ^([0-9a-zA-Z]{1,6})$ links/?to=$1 [L] RewriteRule ^([0-9]{1,9})/banner/(.*)$ links/?uid=$1&adt=2&url=$2 [L] RewriteRule ^([0-9]{1,9})/(.*)$ links/?uid=$1&adt=1&url=$2 [L] </IfModule>
比较mije.net的.htaccess:
DirectoryIndex index.php FileETag none ServerSignature Off Options All -Indexes <IfModule mod_rewrite.c> RewriteEngine On # To redirect all users to access the site WITH the 'www.' prefix, # (http://example.com/... will be redirected to http://www.example.com/...) # uncomment the following: RewriteCond %{HTTP_HOST} !^www\. [NC] RewriteRule ^ http://www.%{HTTP_HOST}%{REQUEST_URI} [L,R=301] #RewriteRule ^([0-9a-zA-Z]{1,6})$ fly/?to=$1 [L] #RewriteRule ^([0-9]{1,9})/banner/(.*)$ fly/?uid=$1&adt=2&url=$2 [L] RewriteRule ^r/(.*)$ fly/?uid=0&adt=3&url=$1 [L] RewriteRule ^([0-9]{1,9})/(.*)$ fly/?uid=$1&adt=1&url=$2 [L] </IfModule>
于是可以确定是/links/index.php这个文件中控制。而生成短网址对原网址进行拆解的函数在/inc/utilities.class.php。应该在/links/index.php文件中引入Base64解密函数,然后输出应该会正常。
当然,这种方案因为Base64加密函数是可逆的,采集方只需要对所有短网址链接进行一次Base64解密处理,即可还原原始外链。
但是,毕竟这是个防盗链的方法。并非所有采集者有技术去实现全局解密或者临时解密。
http://www.mije.net可能通过以下函数实现了对外链网址变量值的加密解密的功能。
加密代码如下:
/* *功能:对字符串进行加密处理 *参数一:需要加密的内容 *参数二:密钥 */ function passport_encrypt($str,$key){ //加密函数 srand((double)microtime() * 1000000); $encrypt_key=md5(rand(0, 32000)); $ctr=0; $tmp=''; for($i=0;$i<strlen($str);$i++){ $ctr=$ctr==strlen($encrypt_key)?0:$ctr; $tmp.=$encrypt_key[$ctr].($str[$i] ^ $encrypt_key[$ctr++]); } return base64_encode(passport_key($tmp,$key)); }
解密代码如下:
/* *功能:对字符串进行解密处理 *参数一:需要解密的密文 *参数二:密钥 */ function passport_decrypt($str,$key){ //解密函数 $str=passport_key(base64_decode($str),$key); $tmp=''; for($i=0;$i<strlen($str);$i++){ $md5=$str[$i]; $tmp.=$str[++$i] ^ $md5; } return $tmp; }
辅助函数:
/* *辅助函数 */ function passport_key($str,$encrypt_key){ $encrypt_key=md5($encrypt_key); $ctr=0; $tmp=''; for($i=0;$i<strlen($str);$i++){ $ctr=$ctr==strlen($encrypt_key)?0:$ctr; $tmp.=$str[$i] ^ $encrypt_key[$ctr++]; } return $tmp; }
使用如下所示:
$str='http://www.domain.com'; $key='123456'; $encrypt=passport_encrypt($str,$key); $decrypt=passport_decrypt($encrypt,$key); echo '原文:',$str."<br><hr>"; echo '密文:',$encrypt."<br><hr>"; echo '译文:',$decrypt."<br><hr>";
参考资料: