什么是数据集成,数据集成的3种方法?

营销圈公众号引导关注

数据集成

近几年,大家听到很多数据中台的概念,各家企业陆续搭建数据中台或者采购市场上比较成熟的数据中台化产品,但是遇到一个很现实的问题是,各家企业的业务不同,对数据中台的理解也就不太一样,导致没有体系化的方法指导自己企业搭建数据中台,因此在建设数据中台时畏首畏尾、进展缓慢。

自从工作以来,本人一直在一线大厂带数据产品团队做数据相关工作,从数据研发转到产品,到带数据部门,到在目前的企业带领产品团队构建起了国内领先的数据智能中台,目前已经服务过国内众多互联网公司、传统企业、政府项目等等,因此我想把自己走过的路,趟过的坑给大家讲一下,让大家在数据中台这条路上能够平稳掌舵,纵行前往。

从今天开始,我将为大家系统讲解数据中台的产品矩阵与产品形态,那么废话不多说,干货Start:如下为企业级数据中台常见的解决方案

1.数据产品.数据采集与集成(批量数据同步、数据实时同步、数据转换、CDC同步策略)

2.数据产品.数据仓库(数据集成、数据开发、离线数据仓库、实时数据仓库、数据字典)

3.数据产品.数据治理平台(元数据管理、主数据管理、数据标准管理、数据质检、数据资产管理、数据安全管理、数据模型管理、数据指标管理)

4.数据产品.数据开发平台(离线开发、实时开发、指标开发、标签开发)

5.数据产品.数据智能CDP平台(数据采集、数据仓库、指标管理、数据开发、数据分析、标签开发、自动化运营平台)

6.数据产品.数据智能DMP平台:(数据管理、数据开发、标签开发、标签圈选、自动化运营平台)

7.数据产品.数据分析与挖掘(BI分析、统计分析、机器学习)

8.数据产品.BI与数据可视化(可视化、BI分析方法、BI产品选择、BI平台如何从0到1搭建,仪表板、报表、填报、数据报告、大屏)

9.数据产品.隐私计算(多方安全计算、联邦学习、可信执行环境)

数据采集与集成

什么是数据集成 ?

咱先整点儿学术上的定义:“数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。”

为什么要做数据集成?

在企业中,由于开发时间或开发部门的不同,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行,这些系统的数据源彼此独立、相互封闭,使得数据难以在系统之间交流、共享和融合,从而形成了”信息孤岛”。随着信息化、数字化、智能化应用的不断深入,企业内部、企业与外部数据共享、交互的需求日益强烈,急切需要对已有的信息进行整合,联通“信息孤岛”,共享数据。

厨师长:各位吃货们,请看菜谱

什么是数据集成,数据集成的3种方法?

厨师长:菜谱看明白了吗?

吃货:没看明白,厨师长,赶快说说配料

厨师长:No Problem

什么是ETL架构、ELT架构 ?

我们先来说说数据集成最常见的两种架构:ETL架构、ELT架构,这两种架构有什么区别呢?什么是ETL,英文名:Extract-Transform-Load,顾名思义ETL英文就是():你看看,你学习就是快,还辣么漂帅!咱继续

什么是数据集成,数据集成的3种方法?
什么是数据集成,数据集成的3种方法?

ETL在转化的过程中,主要体现在以下几方面:

  1. 空值处理:可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。
  2. 规范化数据格式:可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。
  3. 拆分数据:依据业务需求对字段可进行分解。例,主叫号 861082585313-8148,可进行区域码和电话号码分解。
  4. 验证数据正确性:可利用Lookup(查找转换组件)及拆分功能进行数据验证。例如,主叫号0536-5313848,进行区域码和电话号码分解后,可利用Lookup返回主叫网关或交换机记载的主叫地区,进行数据验证。
  5. 数据替换:对于因业务因素,可实现无效数据、缺失数据的替换。
  6. Lookup:查获丢失数据 Lookup实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。
  7. 建立ETL过程的主外键约束:对无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键唯一记录的加载。
  8. 当然不止这些,数据的转换组件有很多…行转列、列转行,我们先了解其中大概涉及到要做的事情就好。

数据转换主要做的事情总结如下:

什么是数据集成,数据集成的3种方法?

ETL架构的优势:

  1. ETL可以分担数据库系统的负载(采用单独的硬件服务器)
  2. ETL相对于ELT架构可以实现更为复杂的数据转化逻辑
  3. ETL采用单独的硬件服务器
  4. ETL与底层的数据库数据存储无关

ETL架构的劣势:

性能慢,大数据量下跑批效率比较低,很难胜任需求场景,在大数据量的互联网场景,或者大数据量的业务系统一个复杂的数据转换跑批任务要好几个小时,如果任务很多呢?加服务器?数据库调优?咳咳,是一个办法,通过对相关数据库进行性能调优,ETL过程获得3到4倍的效率提升一般不是特别困难。但是这道菜也就给70分吧,因为ETL架构的劣势,所以目前各个数据中台厂商做数据集成时更加推崇ELT架构。

ELT在转化的过程中,主要体现在以下几方面:

在ELT架构中,ELT只负责提供图形化的界面来设计业务规则,数据的整个加工过程都在目标和源的数据库之间流动,ELT协调相关的数据库系统来执行相关的应用,数据加工过程既可以在源数据库端执行,也可以在目标数据仓库端执行(主要取决于系统的架构设计和数据属性)。

ELT架构的优势:

  1. ELT主要通过数据库引擎来实现系统的可扩展性(尤其是当数据加工过程在晚上时,可以充分利用数据库引擎的资源)
  2. ELT可以保持所有的数据始终在数据库当中,避免数据的加载和导出,从而保证效率,提高系统的可监控性。
  3. ELT可以根据数据的分布情况进行并行处理优化,并可以利用数据库的固有功能优化磁盘I/O。
  4. ELT的可扩展性取决于数据库引擎和其硬件服务器的可扩展性。
  5. 通过对相关数据库进行性能调优,ETL过程获得3到4倍的效率提升一般不是特别困难。

如何选型数据集成与转换工具?

不管是ETL架构或者ELT架构的对应的产品都有挺多:Kettle(ETL,开源)、用友DI(ETL)与数据移动(ELT)、阿里云DTS(ELT)、DataX(ELT,开源)、FlinkX(ELT,开源)、DataPipeline(ELT)等等…..

吃货:厨师长,这道菜还不够硬!

厨师长:上“产品”

ELT产品配置界面举栗:

在此说明:ELT最大的优势就是数据同步,因为同步到目的库再做数据的转换任务,性能上会提高很多,所以企业实际场景中在ELT数据集成也往往叫做数据同步工具。

  1. ELT离线(批量)同步

在离线数据仓库开发中,业务库产生的数据往往通过批量数据同步同步到ODS层,这时候就要配置数据的批量集成任务。

什么是数据集成,数据集成的3种方法?
什么是数据集成,数据集成的3种方法?
什么是数据集成,数据集成的3种方法?

在数据集成时,CDC(变更数据捕获)方案如何选择?因为不同的业务场景会涉及到不同的CDC方案,欢迎大家留言交流。

  1. ELT实时同步

数据集成数据源A产生数据立即同步到目的源数据源B的话就需要配置流式任务,比如mysql通过binlog的解析同步,其他数据源的我就不在这里一一列举了,数据源类型有很多,也会有不同的集成方案。

什么是数据集成,数据集成的3种方法?

  1. 文件同步

什么是数据集成,数据集成的3种方法?

4.复杂的同步方式我们也可以根据我们选择的技术框架,通过写代码方式上传对应的开发包进行自定义同步。

什么是数据集成,数据集成的3种方法?

  1. 同步任务监控与数据比对

什么是数据集成,数据集成的3种方法?

为什么需要数据比对呢?数据同步后到底是否完整,对于遗漏的数据可以进行补数据。

数据集成的内容很多,比如:数据同步数据源有很多种类型,Greenplum、postgresql、oracle、clickhouse、kudu、hive、mongodb、hbase、tidb等等,不同的源也会有不用的配置与策略。更多分享请留意后续内容吧~

结尾

更多文章欢迎关注公众号:产品人栖息地

在数据中台中,离线数据仓库或者实时数据仓库是往往是通过数据开发平台去完成的,数据开发基于ODS层数据去做数据开发之前,就需要数据集成。

后面我会与大家继续分享数据中台的其他内容:数据开发平台、指标管理、标签开发、数据安全、数据治理、主数据管理、隐私计算、自动化运营、CDP、DMP等等一系列内容~

菜也上齐了,如果您觉得文章内容不错,欢迎转发、评论、关注,点击“再看”让更多人看到哦~

更多数据中台内容请关注微信公众号:产品人栖息地 ,数据中台系列陆续推出

1.数据产品.数据采集与集成(批量数据同步、数据实时同步、数据转换、CDC同步策略)

2.数据产品.数据仓库(数据集成、数据开发、离线数据仓库、实时数据仓库、数据字典)

3.数据产品.数据治理平台(元数据管理、主数据管理、数据标准管理、数据质检、数据资产管理、数据安全管理、数据模型管理、数据指标管理)

4.数据产品.数据开发平台(离线开发、实时开发、指标开发、标签开发)

5.数据产品.数据智能CDP平台(数据采集、数据仓库、指标管理、数据开发、数据分析、标签开发、自动化运营平台)

6.数据产品.数据智能DMP平台:(数据管理、数据开发、标签开发、标签圈选、自动化运营平台)

7.数据产品.数据分析与挖掘(BI分析、统计分析、机器学习)

8.数据产品.BI与数据可视化(可视化、BI分析方法、BI产品选择、BI平台从0到1,仪表板、报表、填报、数据报告、大屏)

9.数据产品.隐私计算(多方安全计算、联邦学习、可信执行环境)

产品能栖息地 助你产品职业成长,挑战百万年薪!

好了,这篇文章的内容营销圈就和大家分享到这里,如果大家对网络推广引流和网络创业项目感兴趣,可以添加微信:Sum8338 备注:营销圈引流学习,我拉你进直播课程学习群,每周135晚上都是有实战的推广引流技术和网络创业项目课程分享,当然是免费学!

版权声明:本站部分文章来源互联网用户自发投稿,主要目的在于分享信息,版权归原作者所有,不承担相关法律责任。如有侵权请联系我们反馈邮箱yingxiaoo@foxmail.com,我们将在7个工作日内进行处理,如若转载,请注明本文地址:https://www.yingxiaoo.com/68285.html