1. 网址目录网站在搜索引擎大行其道之前曾经是一种流行的网站模式;
2. 搜索引擎会慎重考虑DMOZ收录;
3. DMOZ的数据是可下载的;
那么,如何通过DMOZ数据迅速构建一个网址目录网站呢?
1. 下载DMOZ数据
DMOZ(http://www.dmoz.org/)由AOL.com维护,目前数据:3,977,442 sites – 90,998 editors – over 1,027,454 categories。
DMOZ数据下载地址:http://www.dmoz.org/docs/en/rdf
DMOZ数据是RDF格式(Resource Description Framework)。
2. 处理DMOZ数据为MySQL格式
我们可以使用dmoz2mysql将DMOZ数据从RDF格式转化为MySQL格式。
Name: PHP DMOZ parser (dmoz2mysql)
Current version: 3.0 (24. Maj 2004)
License type: The GPL
Script website: http://amix.dk/codecrib/
Author: Amir Salihefendic ([email protected])
Copyright: JFL Webcom (http://www.webcom.dk
SourceForge project page: https://sourceforge.net/projects/dmoz2mysql/
难点:
A. 非常耗用服务器内存。常常处理10%就数据库崩了,可以考虑使用可动态调整的云服务器,短期租用最大内存进行数据处理。
B. 存在XML解析错误情况,导致脏数据,需要程序清理,手工清理不现实。
3. 处理DMOZ数据为PhpLD数据
PhpLD(PHP Link Directory)是一个网址目录程序。
官网:http://www.phplinkdirectory.com/
环境:PHP+MySQL
版本:PHP Link Directory 5.2.2