【相关】
Xpath
参考:http://www.w3school.com.cn/xpath/
https://blog.csdn.net/weixin_44919384/article/details/107721780
https://blog.csdn.net/weixin_44919384/article/details/107721145
【介绍】
参考:http://scrapy-chs.readthedocs.io/zh_CN/0.24/index.html
参考:http://findingsea.github.io/2015/10/03/scrapy-step-1/
参考:https://blog.csdn.net/tpc1990519/article/details/77856399
参考:http://blog.csdn.net/u012150179/article/details/32343635
参考:http://blog.csdn.net/u012150179/article/details/32911511
架构:https://zhuanlan.zhihu.com/p/21320942
对比:https://zhuanlan.zhihu.com/p/22304295
【安装】
pip install Scrapy
查看版本:
scrapy version
输出:
Scrapy 1.1.3
爬虫策略:
requests和bs4库还是相当强大的,简单写个几十行,再配上代理和多进程/多线程,就能抓取相当可观的数据。题主如果想入门这两个库可以在网易云课堂上搜一个有关python爬虫的课程
参考:https://www.zhihu.com/question/32169632
对于爬虫来讲,感觉不到区别,这些都不是事儿,除了编码和print。而且requests(这也是urllib\urllib2封装的)和bs4都支持吧(待我确定下)。那什么是事儿呢?
1 限制ip:用requests代理,买代理,或者网上免费代理
2 伪装成浏览器:requests切换user agent
3 先登录,保存cookies (使用Fiddler),requests用session先post拿到cookies,再爬
4 URL参数太多,不明白什么意思,webdriver和phantomjs
5 JavaScript和ajax问题:浏览器f12分析请求规律,直接requests请求。或者用webdriver和phantomjs,如果用scrapy的话,用scrapyjs
6 爬的太慢:多线程,别说gil,一般是网络io慢,cpu等io
7 还是慢:scrapy异步(做过几个项目了,挺好用的),pyspider(这个支持Python3)
8 还是慢:分布式(暂时还没涉及),redis,scrapyd
9 验证码:对不起,帮不了你。简单的可以pil,灰度二值化切割识别
10 如果你想自己实现异步请求的话:grequests不错
增量爬取:https://www.zhihu.com/question/19793879
参考:https://www.zhihu.com/search?type=content&q=python+%E7%88%AC%E8%99%AB
参考:https://www.zhihu.com/question/31015275
参考:https://www.zhihu.com/question/26990647
参考:https://www.zhihu.com/question/25470689
参考:http://itindex.net/detail/55967-scrapy-%E8%B5%84%E6%BA%90-%E6%87%82%E5%BE%97
参考:http://itindex.net/detail/48471-scrapy-%E7%AC%94%E8%AE%B0-%E6%A1%86%E6%9E%B6
参考:http://itindex.net/detail/50097-%E5%BC%80%E6%BA%90-python-%E7%BD%91%E7%BB%9C
scrapy
官网:http://scrapy.org/
源码:https://github.com/scrapy/scrapy.org
项目:
参考:https://github.com/GhostArray/
参考:http://www.xiaoxiaoguo.cn/blog/scrapy-chinaz
片段:
参考:http://www.iplaypython.com/crawler/2625
参考:http://www.thinksaas.cn/topics/0/92/92516
实战:
《Web Scraping with Python》
http://www.doc88.com/p-7844538986953
《使用scrapy爬取域名的whois信息》
http://www.xiaoxiaoguo.cn/blog/scrapy-chinaz
《在centos7和centos6下安装scrapy》