怎样安装Scrapy

2016年9月26日 | 分类: 【技术】

【相关】

Xpath
参考:http://www.w3school.com.cn/xpath/

https://blog.csdn.net/weixin_44919384/article/details/107721780
https://blog.csdn.net/weixin_44919384/article/details/107721145

【介绍】

参考:http://scrapy-chs.readthedocs.io/zh_CN/0.24/index.html

参考:http://findingsea.github.io/2015/10/03/scrapy-step-1/
参考:https://blog.csdn.net/tpc1990519/article/details/77856399
参考:http://blog.csdn.net/u012150179/article/details/32343635
参考:http://blog.csdn.net/u012150179/article/details/32911511

架构:https://zhuanlan.zhihu.com/p/21320942
对比:https://zhuanlan.zhihu.com/p/22304295

【安装】

pip install Scrapy

查看版本:

scrapy version

输出:

Scrapy 1.1.3

爬虫策略:

requests和bs4库还是相当强大的,简单写个几十行,再配上代理和多进程/多线程,就能抓取相当可观的数据。题主如果想入门这两个库可以在网易云课堂上搜一个有关python爬虫的课程

参考:https://www.zhihu.com/question/32169632

对于爬虫来讲,感觉不到区别,这些都不是事儿,除了编码和print。而且requests(这也是urllib\urllib2封装的)和bs4都支持吧(待我确定下)。那什么是事儿呢?

1 限制ip:用requests代理,买代理,或者网上免费代理
2 伪装成浏览器:requests切换user agent
3 先登录,保存cookies (使用Fiddler),requests用session先post拿到cookies,再爬
4 URL参数太多,不明白什么意思,webdriver和phantomjs
5 JavaScript和ajax问题:浏览器f12分析请求规律,直接requests请求。或者用webdriver和phantomjs,如果用scrapy的话,用scrapyjs
6 爬的太慢:多线程,别说gil,一般是网络io慢,cpu等io
7 还是慢:scrapy异步(做过几个项目了,挺好用的),pyspider(这个支持Python3)
8 还是慢:分布式(暂时还没涉及),redis,scrapyd
9 验证码:对不起,帮不了你。简单的可以pil,灰度二值化切割识别
10 如果你想自己实现异步请求的话:grequests不错

增量爬取:https://www.zhihu.com/question/19793879

参考:https://www.zhihu.com/search?type=content&q=python+%E7%88%AC%E8%99%AB

参考:https://www.zhihu.com/question/31015275
参考:https://www.zhihu.com/question/26990647
参考:https://www.zhihu.com/question/25470689

参考:http://itindex.net/detail/55967-scrapy-%E8%B5%84%E6%BA%90-%E6%87%82%E5%BE%97
参考:http://itindex.net/detail/48471-scrapy-%E7%AC%94%E8%AE%B0-%E6%A1%86%E6%9E%B6
参考:http://itindex.net/detail/50097-%E5%BC%80%E6%BA%90-python-%E7%BD%91%E7%BB%9C

scrapy

官网:http://scrapy.org/
源码:https://github.com/scrapy/scrapy.org

项目:

参考:https://github.com/GhostArray/

参考:http://www.xiaoxiaoguo.cn/blog/scrapy-chinaz

片段:

参考:http://www.iplaypython.com/crawler/2625
参考:http://www.thinksaas.cn/topics/0/92/92516

实战:

《Web Scraping with Python》

http://www.doc88.com/p-7844538986953

《使用scrapy爬取域名的whois信息》

http://www.xiaoxiaoguo.cn/blog/scrapy-chinaz

《在centos7和centos6下安装scrapy》

http://www.xiaoxiaoguo.cn/blog/scrapy-centos6-centos7