数仓分层数据仓库理论上一般分为三层
ODS 数据运营层
DW 数据仓库层
ADS 数据服务层
ODS 数据运营层OperationDataStore数据准备区,也称为贴源层。数据仓库源头系统的数据表通常会原封不动的存储一份,称为 ODS 层,是后续数据仓库加工数据的来源。ODS 层数据的来源方式:
业务库: 离线方面经常会使用 Sqoop 来抽取,例如每天定时抽取一次。实时方面可以考虑用 Canal 监听 MySQL 的 binlog,实时接入即可。
埋点日志: 日志一般以文件的形式保存,可以选择用 Flume 定时同步,可以用 SparkStreaming 或者 Flink 来实时接入
消息队列: 即来自 ActiveMQ、Kafka 的数据等。
DW 数据仓库层DW 数据仓库层,由下到上可以分为 DWD(数据明细层),DWM(数据中间层),DWS(数据服务层)。从 ODS 层中获得的数据将按照主题建立各种数据模型。这一层和维度建模会有比较深的联系。
DWD 细节数据层DWD: Data Warehouse Details 细节数据层,是业务层与数据仓库的隔离层。主要对 OD ...