【介绍】
官网:https://scylla.wildcat.io/
官网:https://scylla.wildcat.io/en/stable/
文档:https://scylla.wildcat.io/zh/latest/
文档:https://cn.v2ex.com/t/459353
文档:https://www.v2ex.com/t/458054
参考:https://www.v2ex.com/t/461694#reply39
参考:https://www.v2ex.com/t/459353?p=1
特性有:
自动化的代理 IP 爬取与验证
易用的 JSON API
简单但美观的 web 用户界面,基于 TypeScript 和 React (例如,代理的地理分布)
最少仅用 一条命令 即可启动
无头浏览器( headless browser crawling )爬虫
【安装】
下载:https://github.com/imWildCat/scylla
要求:Python 3.6.0 或以上
pip 直接安装:
pip install scylla scylla --help scylla # 运行爬虫和 Web 服务器
源码编译安装:
git clone https://github.com/imWildCat/scylla.git && cd scylla pip install -r requirements.txt npm install # 或 yarn install make build-assets python -m scylla
【安装】
以服务运行在本地(localhost)为例,使用口号 8899。 注意:首次运行本项目时,您可能需要等待 1~2 分钟以爬取一定量的代理 IP。
代理 IP 列表