莫方教程网

专业程序员编程教程与实战案例分享

数据治理大数据湖仓一体开源框架

数据治理大数据湖仓一体开源框架分为4部分:

1、数据源

业务库数据、用户日志、系统日志、爬虫数据

2、构建集群

Hadoop,HDFS,Yarn

3.1 数据采集

数据采集工具:Sqoop、Flume、Canal、Sparkstreaming

3.2 数据预处理

数据预处理工具:消息系统Kafka,宽表工具SparkSql、FlinkSql

3.3数据存储

Hbase数据库集群、Clickhouse

3.4数据挖掘

Spark,Flink

4、数据可视化

FineBI 、PowerBI

开发工具:Intellij IDEA

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言

    滇ICP备2024046894号-1