ySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。
因由:我当初就是因为无法增量抓取所以放弃 scrapy 的。因为我们的场景,定时更新,增量抓取是非常重要的,这要求很强 url 去重,调度策略逻辑。而 scrapy 的内存去重实在是太简陋了。于是,pyspider 就这么诞生了。。
参考:https://www.zhihu.com/question/19793879#
官网:http://pyspider.org/
文档:http://docs.pyspider.org/en/latest/
问答:https://segmentfault.com/t/pyspider
问答:http://docs.pyspider.org/en/latest/Frequently-Asked-Questions/
演示:http://demo.pyspider.org/
安装:
参考:http://docs.pyspider.org/en/latest/Quickstart/
pip install pyspider pyspider
浏览器中打开:http://localhost:5000/
打不开?!是不是防火墙的问题?
参考:http://wiki.ubuntu.com.cn/UFW%E9%98%B2%E7%81%AB%E5%A2%99%E7%AE%80%E5%8D%95%E8%AE%BE%E7%BD%AE