BIG DATA
我们针对企业信息化系统、互联网、物联网等大数据应用,打造易使用、高可靠、低成本的大数据方案,实现海量数据的存储、整合、挖掘和应用全流程,帮助企业客户快速构建大数据平台,在保障用户隐私及数据安全的前提下,满足企业的各类业务需求。

分布式爬虫系统 DCS
德风分布式爬虫平台参考Apache Nutch研发,将侧重点由搜索引擎转变为全栈数据采集。提供了多种反爬规避和弹性抓取策略,集成了多种开源驱动器技术,具备可视化工具进行管理、监控和调度。
-
通用性
支持新闻类、博客类、电商类、银行类、企业类、政府类等站点通用抓取;支持多编程语言开发。
-
多重反爬
最大化利用代理IP、有效预防蜜罐站点;动态调整密度、递归referer有效处理防盗链站点。
-
弹性计算
支持弹性启动计算任务,允许失败任务多节点恢复,有效利用集群中的硬件资源
-
分布式
采用主从结构的分布式集群设计,节点支持快速失败,具备统一调度、可视化操作与监控服务。
产品特点Product characteristics
DCS主要分为基础平台部分和通用采集服务。基础平台提供了资源的统一调度、计算和存储服务;通用采集服务提供面向具体业务领域的垂直资源抓取。
-
部署简单
-
最优配置建议
-
支持Web界面控制台
-
提供精简API便于快速开发

产品优势Product advantage
DCS系统支持多类型站点抓取同时能有效处理JavaScript脚本的能力、数据抓取时自动优化、具备完善的监控和预警能力。在体系架构、功能组件、客户友好、运维管理、应用开发支撑等多方面占据强势地位。在大量的成功案例中展现了产品、服务、知识储备和技术发展前瞻性的优势。
成功案例Successful case
在基于内容推荐的电子商务推荐系统中,需要抓取京东商城的部分商品数据。DCS是一套基于分布式的通用爬虫系统,围绕抓取京东商城应用的需求全面涵盖了自动分页、剔除广告位、异步处理Ajax请求等能力,很好的解决了该推荐系统所需的基础数据。
-
支撑智能分页查询
-
高性价比,良好支持廉价服务器/PC电脑
-
自动调整反爬虫策略
-
支撑7*24*365无间断的商品数据更新
-
支撑每天数百万商品数据抓取