源码:克隆DMOZ

2016年3月3日 | 分类: 【源码】

1. 网址目录网站在搜索引擎大行其道之前曾经是一种流行的网站模式;
2. 搜索引擎会慎重考虑DMOZ收录;
3. DMOZ的数据是可下载的;

那么,如何通过DMOZ数据迅速构建一个网址目录网站呢?

1. 下载DMOZ数据

DMOZ(http://www.dmoz.org/)由AOL.com维护,目前数据:3,977,442 sites – 90,998 editors – over 1,027,454 categories。

DMOZ数据下载地址:http://www.dmoz.org/docs/en/rdf

DMOZ数据是RDF格式(Resource Description Framework)。

2. 处理DMOZ数据为MySQL格式

我们可以使用dmoz2mysql将DMOZ数据从RDF格式转化为MySQL格式。

Name: PHP DMOZ parser (dmoz2mysql)
Current version: 3.0 (24. Maj 2004)
License type: The GPL
Script website: http://amix.dk/codecrib/
Author: Amir Salihefendic (amix@amix.dk)
Copyright: JFL Webcom (http://www.webcom.dk
SourceForge project page: https://sourceforge.net/projects/dmoz2mysql/

难点:

A. 非常耗用服务器内存。常常处理10%就数据库崩了,可以考虑使用可动态调整的云服务器,短期租用最大内存进行数据处理。

B. 存在XML解析错误情况,导致脏数据,需要程序清理,手工清理不现实。

3. 处理DMOZ数据为PhpLD数据

PhpLD(PHP Link Directory)是一个网址目录程序。

官网:http://www.phplinkdirectory.com/
环境:PHP+MySQL
版本:PHP Link Directory 5.2.2