数据治理大数据湖仓一体开源框架分为4部分:
1、数据源
业务库数据、用户日志、系统日志、爬虫数据
2、构建集群
Hadoop,HDFS,Yarn
3.1 数据采集
数据采集工具:Sqoop、Flume、Canal、Sparkstreaming
3.2 数据预处理
数据预处理工具:消息系统Kafka,宽表工具SparkSql、FlinkSql
3.3数据存储
Hbase数据库集群、Clickhouse
3.4数据挖掘
Spark,Flink
4、数据可视化
FineBI 、PowerBI
开发工具:Intellij IDEA