原文《大数据治理平台总体架构、技术架构、功能架构及数据应用解决方案》PPT格式主要从大数据总体架构、数据采集架构、数据总线(数据分析、数据ETL)、人工智能平台、数据治理平台、数据安全中心等进行建设。
来源网络,旨在交流学习,如有侵权,联系速删,更多参考公众号:优享智库
一、大数据治理平台总体架构
二、数据采集平台——定位及特色
随着大数据时代的不断发展, 各大企业、政府纷纷建立大数据中心,数据分析、应用的脚步越来越快,在此过程中,异 构数据源的使用、关联分析的需求越发旺盛,如何快速、便捷地采集异构数据至大数据平台,成为数据采集汇聚的关键。
数据汇聚产品主要功能是将各种存储方式的数据源接入到大数据平台或者其他数据仓库。通过提供可视化界面,帮助用户轻松完成采集任务创建、运行,并实时提供任务监控,使用户随时了解自己的采集任务状态。
采用主流的流式计算引擎作为产品的主要采集框架,提供离线采集、实时采集两种方式,满足用户不同的采集需求。
1、数据采集平台——技术架构
2、数据采集平台——使用场景
3、数据采集平台——配置化采集
四、大数据治理平台架构-智能调度
1、智能调度——定位与特色
2、智能调度——功能架构
五、大数据治理平台架构-数据总线
1、数据总线——数据ETL
实现异构数据交换的快速通道
组件式拖拽实现数据ETL
便于用户查询及关联分析不同数据源的数据
实现数据迁移 (同种数据 库、 异构数据库)
2、数据总线——数据分析
提供可视化数据建模挖掘工作台,依托大数据集群强大的计算能力,进一步提升租户对于海量数据的建模挖掘能力, 提高开发效率。
◆ 交互式开发界面支持:全流程、图形化、组件拖拽式的交互式开发能力,快速便捷
◆ 完善的算法调试支持:提供小批量数据运行、断点调试、模型参数调试等
◆ 多租户管理支持:底层融合多租户权限体系,保证数据资源、存储资源以及计算资源的安全管控
◆ 数据挖掘建模支持:常用机器学习算法(随机森林,逻辑回归二分类,二分类评估,预测),统计分析(数据视图,数据直方图),模型管理及共享等
六、大数据治理平台架构-人工智能平台
1、人工智能平台优势
3、人工智能——技术架构
人工智能平台:
① 数据资产管理能力: 数据、模型、样本、 特征全生命周期管理
② 多算法库兼容能力: 主流算法库支持, 多 开发语言支持,模型构建与算法集成。
③ 完整的AI算法开发能力: 提供多框架支持, 提供从模型开发、训练、部署一整套服务。
④ AI应用构建能力: 视频、 NLP、语言三大 领域成熟应用以及基于业务的AI应用
⑤ 平台能力开放: 支持平台服务、应用、模 型开放,与三方平台灵活对接
⑥ 开发管控能力: 实现模型开放全流程管控、 日志审计
4、人工智能——AI平台能力
◆CPU、GPU资源统一 调度管理
◆样本数据共享
◆算法模型复用
◆提供标准化的流程引导,把高大上的算 法生产变成流程化操作
◆提供算法开发插件接,提供面向不同业务 场景的建模开发工具,快速构建模型
5、人工智能——AI应用服务
文本分析技术:
根据分词、热词分析和语义分析等技术,对文本数据进行分析、分类、聚类和信息情感能量评估等工作,广泛地用于政府舆论监督、投诉类 工单知识整理和优化、智能客服、信息摘要及营销话术优化等场景。
知识图谱构建:
将通过互联网爬取的不同类型、不同结构的信息进行,基于不同行业的元数据(Metadata), 基于基于深度学习构建领域知识图谱和通 用知识图谱,有效提升多源数据整合之上的对象刻画能力, 深入揭示 对象之间的关系。
七、大数据治理平台架构-数据治理平台
1、数据治理——数据资产管理
数据治理的总体目标是理解企业的信息需求, 规 范数据的生成,持续改进数据质量,实现数据最 大价值。
2、数据治理——数据标准管理
数据标准监控:
稽核规则录入: 系统将标准规范提供给 数据标准接口,同时对标准稽核规则进行 配置,放入稽核规则库中。
前向稽核校验: 对接口数据进行记录条 数和长度等的前向规则稽核效验,并对稽核校验结果通过错误文件记录的方式反馈 给数据开发者。
后向稽核校验: 通过规则库的后向质量 稽核规则去发现数据标准规范中字段质量 的相关问题,同时进行数据标准质量的稽 核告警。
稽核反馈: 根据稽核结果,当有稽核错 误发生时系统提供告警功能,向数据开发 者发出警示。通过稽核后则数据进行存储, 供共享使用
3、数据治理——数据质量管理
单系统数据质量检查
支持对质量检查的规则进行配置,支持按照不 通过业务系统进行配置;
提供按照数据质量规则进行数据检查功能;
提供数据检查结果展示功能;
提供数据检查结果分析统计功能。
跨系统数据质量检查
提供对一致性的检查规则进行配置;
提供按照数据一致性检查规则进行数 据质量检查功能;
提供数据检查结果展示功能;
提供数据检查结果进行分析统计功能。
数据质量预警告警
支持对一定时间段内的数据质量告警/预警 信息进行列表显示;
告警/预警信息应包括数据质量审核问题单 相关信息;
针对每条数据质量检查规则可以设置是否 作为告警/预警信息出现在告警/预警界面。
数据质量评估分析
支持总量评估功能
支持源系统数据质量问题评估功能
支持专项数据质量问题评估功能
业务规则检查
支持业务规则设定,能够随着业务的发展进行扩展;
支持按照业务规则对数据进行检查,并能够生成检 查报告;
数据阀值监控
支持数据阀值的设定,阀值的触发点可以设置到不 同的环节,或者不同的数据处理方式;
支持阀值触发点的扩充,以适应监控的需求扩展;
支持阀值的动态监控,能够实时地显示监控报告。
八、大数据治理平台架构-数据安全中心
1、数据安全保障能力
2、数据安全中心
IDSC (IdealDataSecurityCenter) 为用户提供从业务运营到核心数据的安全保障, 实现 全生命周期无侵入式的安全管控能力, 大数据安 全中心每一个功能模块, 均可灵活组合。
安全运营管理特性:
功能主要针对管理层, 达到领导驾驶舱的目的
可根据人员岗位、级别拆分功能模块访问权限
安全审计管理特性:
功能主要针对技术型运维人员、安全管理人员
聚合级分类日志检索, 提供汇总式的结论报告
明细级分类日志检索, 主要针对安全事件回溯, 提 供详细数据
3、数据安全中心——全生命周期安全管控
4、数据安全中心——关键能力
九、大数据工作台
IDH (IdealDataHub)大数据工作台,提供一站式开发管理服务入口
1. 管用分离的专属门户:划分开发者与管理者专属门户, 为不同角色的人员提供专 属服务能力。
2. 高集成度的工作平台:向租户提供一个一站式的工作平台。将租户所有的工作金 行分类整理后,在工作台中提供统一的功能入口,满足租户所有的日常工作操作。
3. 个性化的定制界面:在工作台的标准定义下,用户可以根据操作习惯进行自定义 配置,定制与之工作相关的数据视图、图表、分析报告等。