怎样通过短网址处理防采集

2015年2月25日 | 分类: 【源码】

如何在防止采集爬虫的同时,不影响搜索引擎爬虫?

1. 让采集爬虫采不了——主动防御

A. 通过iptables设置,屏蔽异常IP。

B. 在编写采集规则的时候,要获取采集对象,都会要寻找采集对象在HTML中开始和结束的唯一标记。通过模板优化,让采集者找不到这个唯一的标记,也就无法采集。

2. 让采集爬虫采了也用不了——被动防御

A. 正文中加入混淆字符串,无法清理。即便被采集后再发布,正文无法正常阅读。

3. 不怕采集爬虫采——反向劫持

A. 活用“欲知详情,请看下回分解”的思想,一个观点分几个文章来描述,做好网站内链。即便被采集后再发布,也存在死链,或者贡献流量。

B. 正文中的链接全部进行自有短网址服务处理。即便被采集后再发布,也只是向自有短网址服务贡献流量——不怕你不采,越采越开心。

参考案例:

http://www.nulledphp.com 中 使用 http://www.mije.net 对外链进行短网址处理。

文章网址:http://www.nulledphp.com/65651-inout-search-engine-v80-non-nulled
下载网址:http://rghost.net/8pXg55B6l
短址处理:http://www.mije.net/1/aHR0cDovL3JnaG9zdC5uZXQvOHBYZzU1QjZs

http://www.mije.net使用的源码是基于Nadeem Syed开发的URL Shortener[adf.ly_clone],“/1/”透露出使用者是这套程序的第一个注册用户,“aHR0cDovL3JnaG9zdC5uZXQvOHBYZzU1QjZs”是通过Base64加密函数处理后的原始下载网址,这样解决了原版是明文显示原始下载网址的问题(完全可以在采集中获取,也就失去了防采集的意义)。

如何确认http://www.mije.net是使用Base64加密函数呢?

将“aHR0cDovL3JnaG9zdC5uZXQvOHBYZzU1QjZs”填入http://tools.namedog.com/code-converter/ 的Base64这一栏,可见在文本格式这一栏解码出“http://rghost.net/8pXg55B6l”。

http://www.mije.net是在哪里使用Base64加密函数呢?

发现是在 http://www.mije.net/js/fp.js.php

是通过JS编写的Base64加密函数对外链进行筛选,并处理输出。

怎样克隆这一功能呢?思路如下:

scr.me原程序会把正文中的外链(比如http://www.google.com/)都置换为http://scr.me/1/http://www.google.com/

而mije.net 改造这个程序后,把外链都进行base64加密,实现 http://scr.me/1/aHR0cDovL3d3dy5taWplLm5ldC8= ;并且最后一步让 http://scr.me/1/aHR0cDovL3d3dy5taWplLm5ldC8= 在浏览器中打开时 进行base64解密,打开 http://scr.me/1/http://www.google.com/

1. fp.js.php中关于网址处理的JS代码重新写过。

2. 全站处理的JS代码也完全不同。

如果简单地使用mije.net的相关JS语句代入scr.me,发现虽然页面外链已按预期实现了Base64加密,但是无法实现解密原网址,直接跳转到首页。其实在scr.me默认模式,如果网址格式错误,也是跳转到首页。那么,问题是,在新模式下,并未完成解密即输出。

这是什么问题呢?难道在其他PHP文件中有所修改?可能是处理短网址的那个PHP程序?

研究scr.me的.htaccess:

DirectoryIndex index.php

FileETag none
ServerSignature Off

Options All -Indexes

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteRule ^([0-9a-zA-Z]{1,6})$ links/?to=$1 [L]
RewriteRule ^([0-9]{1,9})/banner/(.*)$ links/?uid=$1&adt=2&url=$2 [L]
RewriteRule ^([0-9]{1,9})/(.*)$ links/?uid=$1&adt=1&url=$2 [L]
</IfModule>

比较mije.net的.htaccess:

DirectoryIndex index.php

FileETag none
ServerSignature Off

Options All -Indexes

<IfModule mod_rewrite.c>
RewriteEngine On

  # To redirect all users to access the site WITH the 'www.' prefix,
  # (http://example.com/... will be redirected to http://www.example.com/...)
  # uncomment the following:
   RewriteCond %{HTTP_HOST} !^www\. [NC]
   RewriteRule ^ http://www.%{HTTP_HOST}%{REQUEST_URI} [L,R=301] 
   
#RewriteRule ^([0-9a-zA-Z]{1,6})$ fly/?to=$1 [L]
#RewriteRule ^([0-9]{1,9})/banner/(.*)$ fly/?uid=$1&adt=2&url=$2 [L]
RewriteRule ^r/(.*)$ fly/?uid=0&adt=3&url=$1 [L]
RewriteRule ^([0-9]{1,9})/(.*)$ fly/?uid=$1&adt=1&url=$2 [L]
</IfModule>

于是可以确定是/links/index.php这个文件中控制。而生成短网址对原网址进行拆解的函数在/inc/utilities.class.php。应该在/links/index.php文件中引入Base64解密函数,然后输出应该会正常。

当然,这种方案因为Base64加密函数是可逆的,采集方只需要对所有短网址链接进行一次Base64解密处理,即可还原原始外链。

但是,毕竟这是个防盗链的方法。并非所有采集者有技术去实现全局解密或者临时解密。

http://www.mije.net可能通过以下函数实现了对外链网址变量值的加密解密的功能。

加密代码如下:

/*
*功能:对字符串进行加密处理
*参数一:需要加密的内容
*参数二:密钥
*/
function passport_encrypt($str,$key){ //加密函数
	srand((double)microtime() * 1000000);
	$encrypt_key=md5(rand(0, 32000));
	$ctr=0;
	$tmp='';
	for($i=0;$i<strlen($str);$i++){
		$ctr=$ctr==strlen($encrypt_key)?0:$ctr;
		$tmp.=$encrypt_key[$ctr].($str[$i] ^ $encrypt_key[$ctr++]);
	}
	return base64_encode(passport_key($tmp,$key));
}

解密代码如下:

/*
*功能:对字符串进行解密处理
*参数一:需要解密的密文
*参数二:密钥
*/
function passport_decrypt($str,$key){ //解密函数
	$str=passport_key(base64_decode($str),$key);
	$tmp='';
	for($i=0;$i<strlen($str);$i++){
		$md5=$str[$i];
		$tmp.=$str[++$i] ^ $md5;
	}
	return $tmp;
}

辅助函数:

/*
*辅助函数
*/
function passport_key($str,$encrypt_key){
	$encrypt_key=md5($encrypt_key);
	$ctr=0;
	$tmp='';
	for($i=0;$i<strlen($str);$i++){
		$ctr=$ctr==strlen($encrypt_key)?0:$ctr;
		$tmp.=$str[$i] ^ $encrypt_key[$ctr++];
	}
	return $tmp;
}

使用如下所示:

$str='http://www.domain.com';
$key='123456';
$encrypt=passport_encrypt($str,$key);
$decrypt=passport_decrypt($encrypt,$key);

echo '原文:',$str."<br><hr>";
echo '密文:',$encrypt."<br><hr>";
echo '译文:',$decrypt."<br><hr>";

参考资料: