BIG DATA

我们针对企业信息化系统、互联网、物联网等大数据应用,打造易使用、高可靠、低成本的大数据方案,实现海量数据的存储、整合、挖掘和应用全流程,帮助企业客户快速构建大数据平台,在保障用户隐私及数据安全的前提下,满足企业的各类业务需求。

分布式爬虫系统 DCS

德风分布式爬虫平台参考Apache Nutch研发,将侧重点由搜索引擎转变为全栈数据采集。提供了多种反爬规避和弹性抓取策略,集成了多种开源驱动器技术,具备可视化工具进行管理、监控和调度。

  • 通用性

    支持新闻类、博客类、电商类、银行类、企业类、政府类等站点通用抓取;支持多编程语言开发。

  • 多重反爬

    最大化利用代理IP、有效预防蜜罐站点;动态调整密度、递归referer有效处理防盗链站点。

  • 弹性计算

    支持弹性启动计算任务,允许失败任务多节点恢复,有效利用集群中的硬件资源

  • 分布式

    采用主从结构的分布式集群设计,节点支持快速失败,具备统一调度、可视化操作与监控服务。

产品特点Product characteristics

DCS主要分为基础平台部分和通用采集服务。基础平台提供了资源的统一调度、计算和存储服务;通用采集服务提供面向具体业务领域的垂直资源抓取。

  • 部署简单
  • 最优配置建议
  • 支持Web界面控制台
  • 提供精简API便于快速开发

产品优势Product advantage

DCS系统支持多类型站点抓取同时能有效处理JavaScript脚本的能力、数据抓取时自动优化、具备完善的监控和预警能力。在体系架构、功能组件、客户友好、运维管理、应用开发支撑等多方面占据强势地位。在大量的成功案例中展现了产品、服务、知识储备和技术发展前瞻性的优势。

具备多个成功案例
有成熟稳定的解决方案
具备多种类型站点支持,
高度代码复用
具备多编程语言开发
充分利用企业现有人员资源
具备完善的监控服务,
能有效提供预警能力
具备分布式设计,
能够抓取超大型数据抓取工作

成功案例Successful case

在基于内容推荐的电子商务推荐系统中,需要抓取京东商城的部分商品数据。DCS是一套基于分布式的通用爬虫系统,围绕抓取京东商城应用的需求全面涵盖了自动分页、剔除广告位、异步处理Ajax请求等能力,很好的解决了该推荐系统所需的基础数据。

  • 支撑智能分页查询
  • 高性价比,良好支持廉价服务器/PC电脑
  • 自动调整反爬虫策略
  • 支撑7*24*365无间断的商品数据更新
  • 支撑每天数百万商品数据抓取