传统ETL产品工具面临的挑战和TurboDX产品解决方案

2017年1月23日
Synball
(c) CC0 Public Domain / unsplash.com

     今天的企业/政府领导越来越意识到数据资源的重要性。面对日益增加的数据量、以及复杂的异构环境,如何更快、更方便地获取原有沉积在各种异构应用系统孤岛(silos)中的数据,以及通过梳理、分类、管理、整合成为有价值的数据资源,更有效地应用于实时分析报告(Real-Time Reporting)、商业智能(BI)、大数据(BigData)智能应用、以及对外共享等,企业/政府需要方便易用的、可自我服务的(Self-service)、可统一管理的、可扩展和可靠的、可快速部署于本地或云中的企业级数据交换复制和整合产品解决方案, 降低数据资源开发和使用的成本,避免陈旧传统技术产品解决方案所带来的困扰和问题。对于陈旧的基于ETL的解决方案,我们常听到诸如“黑箱技术、易用性差、效率低、实时性差、本身又造成孤岛、缺乏集中统一管理”等许多来自用户的差评。
    根据IDC研究报告的统计,客户对于传统的数据交换/复制、ETL解决方案在性能方面的满意度极低,满意的用户只占17%左右。基于20多年前陈旧技术的ETL解决方案面临着许多难于解决的挑战,主要有以下几个方面:
      (1) 日益增加的异构数据源环境,包括各种关系型数据库、结构化及非结构化数据、以及NoSQL数据库和大数据平台(Hadoop)的应用环境。
      (2) 在企业/政府私有云和混合云的计算环境下,传统产品的C/S架构难于满足构建云与端的数据交换,以及在云中心的部署并支持远程多用户共享使用方式的要求。在一个现有的企业环境中,往往不同项目要购买多套ETL产品,各自成为孤岛,难于实现元数据集中(Hub)的统一管理、共享和监控运维,造成元数据目录管理与数据共享交换割裂的“二张皮”。
     (3) 需要编写(二次开发)脚本语言或所谓的“模板”组件,产品的使用对象主要是面向技术开发者的,易用性差、时间周期长、成本高昂,难于满足业务部门对数据的快速需求; 而另一方面,越来越多的企业数据分析人员希望产品提供简单易用的功能,并实现“自我服务”模式和数据“端到端”的可视化管理。
    (4) 传统的ETL解决方案产品,往往采用批处理(batch)的数据釆集/抽取方式,实时性差,交换效率低下。

     北京数贝软件科技有限公司自主研发的TurboDXTM 产品,采用最新的基于Web、流处理(Stream Processing)和容器(Container)的架构技术。用户通过简单易用的Web设计界面和控制台与TurboDX Server后台交互。核心功能包括:数据源连接、元数据目录、数据查看、复制同步、交换整合、二进制文件交换、数据文件加载、任务管理、任务调度等功能模块。技术特点包括:数据库全量(FullLoad)交换复制、非侵入式(Non-intrusive)增量捕获(CDC)数据交换、数据虚拟化(Data Virtualization)及多表数据整合(Data Integration)、智能冲突解决策略、多线程并行流式处理、优化的可扩展性和灵活性、以及方便易用的基于Web B/S的任务配置和监控管理界面。用户通过点击几下B/S界面操作,就能完成诸如数据厍复制、数据同步、数据备份/恢复、应用系统数据卸载(Off-Loading)、数据汇聚整合、分库分表、数据分发、数据服务等应用场景。场景化设计,简单易用是TurboDX的核心设计理念和功能特色。


 


版权所有©️2016  北京数贝软件科技有限公司    京ICP备14032596号