数据采集工具

2016年1月18日 | 分类: 【软件】, 【项目】

scrapy

官网:http://scrapy.org/
源码:https://github.com/scrapy/scrapy.org

集搜客GooSeeker网页抓取套件

官网:http://www.gooseeker.com/

下载:http://www.gooseeker.com/pro/download?filename=gooseeker_Win_FF38.x_5.6.0_zh.xpi.zip&filetype=xpi

结构:
MS谋数(台)—— MetaStudio:抓取规则定义软件
DS打数(机)—— DataScraper:执行网页抓取的网络爬虫
MC数满仓—— MetaCorpora:抓取结果入库清洗软件

工具阶段——网页数据的结构化转化工具:集搜客网络爬虫

集搜客GooSeeker大数据软件开发始于2007年,2007年正是语义网络走向商用的时期,集搜客致力于提供一套便捷易用的软件,将网页内容进行语义标注和结构化转换。一旦有了语义结构,整个Web就变成了一个大数据库;一旦内容被赋予了意义(语义),就能从中挖掘出有价值的知识,集搜客创造了以下商业应用场景:

1. 集搜客网络爬虫不是一个简单的网页抓取器,她能够集众人之力把语义标签摘取下来
2. 每个语义标签代表大数据知识对象的一个维度,多维度整合,剖析此知识对象
3. 知识对象可以是多个层面的,比如:市场竞争、消费者洞察、品牌地图、企业画像

方案阶段——围绕核心工具开发一系列大数据处理软件:竞争情报、电商分析、消费者洞察

历经8年辛勤耕耘,GooSeeker已把互联网内容结构化和语义化技术成功推广到金融、保险、电信运营、电信设备制造、电子制造、零售、电商、旅游、教育等行业。围绕核心产品,由一系列软件组件给各行业提供大数据解决方案,主要解决如下核心问题:

1. 内容聚合层面:例如,将金融和财经类信息汇聚,自动分类并用CMS系统进行管理,形成行业垂直信息聚合平台
2. 市场情报与竞争分析层面:例如,零售营销竞争要素分析,包括定价、货架和品类、促销、库存、品牌等要素在电商网站上的展现和蕴含的竞争情报
3. 消费者洞察和品牌分析层面:例如,将所有消费者互动信息进行聚合和挖掘,研究用户对产品的期望、产品与市场的契合度、品牌态度、品牌感知、品牌鸿沟、品牌传播等。
4. 商机发掘层面:例如,商圈分析——在哪里开店?企业画像——如何挖掘B2B销售机会?需求分析——哪些人群最可能需要光纤服务?

社区化阶段——将核心工具开放,搭建大数据能力交流平台

GooSeeker看到太多空谈“啤酒与尿布”,看到更多大数据“高大上”得遥不可及。基于8年服务大数据行业的经验,GooSeeker正在将大数据具象化和亲民化——凝炼成多层面的大数据资源,让最广泛的人可以利用大数据。集搜客是“搜客”的家园,让我们一起玩转大数据,发现数据之美:

1. 集方法——大数据应用场景、分析模型、研究报告,以及Web数据挖掘攻略
2. 集数据——集搜客网络爬虫软件
3. 集工具——天据棱镜系列软件(中文信息处理和商业情报挖掘)、天据天眼系列软件(电商营销和经营分析)
4. 集朋友——大数据挖掘互助平台

关于深圳市天据电子商务有限公司

深圳市天据电子商务有限公司以GooSeeker研发中心的技术后盾,整合多方资源,获得多笔资金注入,研发、市场营销、咨询师骨干组建的团队富有执行力,为商业客户提供全面周到的商业竞争情报分析服务,为商业客户的经营决策活动提供数据和数据分析支持。

深圳市天据电子商务有限公司及GooSeeker研发中心与国内多所著名高校和研究机构紧密合作,致力于语义网络和互联网信息处理的研究工作,公司的产品和解决方案已被众多世界500强企业所采用。

已有近百家大型企事业单位的IT系统集成了集搜客网络爬虫,以及配套的数据清洗和数据集成软件模块,这得益于集搜客网络爬虫独特的开放的设计思想和软件架构,更详细信息参看集搜客网络爬虫功能列表。将这些能力打包成开放的软件模块,集成到各类IT软件系统中,IT系统根据自己的业务目标,可以自动调度和管理网络爬虫,典型案例有:

1. 中国进出口银行项目:集搜客网络爬虫负责抓取中文财经、金融、证券和经济报告类网站内容,而爬行范围、时间安排和其它管理指令是由整个IT系统的其他软件模块发出。
2. 某电商竞争分析项目:集搜客网络爬虫负责从国内所有主流电商网站上获取商品、品牌、价格、库存、货架、品类、以及促销信息,爬虫调度、数据汇聚等操作指令的下发都由整个情报分析系统负责。
3. 某手机消费者洞察项目:集搜客网络爬虫从电商、论坛、社交媒体、微博、问答等等主流自媒体网站上抓取用户评论和各种互动产生的内容,经过数据清洗处理,交给数据挖掘系统进行分析
4. 某上市公司的母婴产品导购平台项目:集搜客网络爬虫实时监视天猫、淘宝、京东和各主流电商的商品、货架、店铺变化情况,及时通知导购平台,例如,某导购攻略提及的商品下架了或者价格变化了,要实时根据通知进行调整