大家好,我是mikechen。
2025年04月28日
本文从大数据的整体架构出发,分层介绍了不同组件的应用场景。可以对大数据的初学者提供一定的参考。以下为集群架构图:
该架构自下而上分为3层,分别是数据采集层,数据存储和处理层,应用层。
下面分层介绍下各层组件的大致用法。
2025年04月28日
来源:环球网
【环球网财经综合报道】10月30日,工业和信息化部、财政部、国家数据局联合发布《新材料大数据中心总体建设方案》,推动新材料产业技术创新和高质量发展。新材料作为国家战略性、基础性产业,是高技术竞争的关键领域,而大数据和人工智能的技术支撑对于新材料产业至关重要。
根据《方案》,到2027年,我国将建立“1+N”的新材料大数据中心架构体系,即一个中心主平台和多个数据资源节点。该体系预计将包含30个以上数据资源节点、30项以上材料大数据算法软件和工具、20种以上典型关键材料和产品的数据赋能应用示范。展望2035年,新材料大数据中心体系将全面建成并稳定运行,数据规模有望进入国际第一梯队。
2025年04月28日
上一篇文章讲的是美团的大数据平台架构,相信大家也看到了这种平台的优势,也就是因为这种大数据平台架构的存在,阿里才会提出数据中台这么个非常好用的东西,后面有空会和大家再讲讲数据中台。
好了,言归正传,如果我们能够化整为零,在企业内部从宏观、整体的角度设计和实现一个统一的大数据平台,引入单一集群、单一存储,统一服务和统一安全的架构思想,就能很好的帮助企业解决很多问题。
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。
2025年04月28日
互联网和移动互联网技术开启了大规模生产、分享和应用数据的大数据时代。面对如此庞大规模的数据,如何存储?如何计算?各大互联网巨头都进行了探索。Google的三篇论文 GFS(2003),MapReduce(2004),Bigtable(2006)为大数据技术奠定了理论基础。随后,基于这三篇论文的开源实现Hadoop被各个互联网公司广泛使用。在此过程中,无数互联网工程师基于自己的实践,不断完善和丰富Hadoop技术生态。经过十几年的发展,如今的大数据技术生态已相对成熟,围绕大数据应用搭建的平台架构和技术选型也逐渐趋向统一。
2025年04月28日
如何将大数据分为不同的类别
大数据问题的分析和解决通常很复杂。大数据的量、速度和种类使得提取信息和获得业务洞察变得很困难。以下操作是一个良好的开端:依据必须处理的数据的格式、要应用的分析类型、使用的处理技术,以及目标系统需要获取、加载、处理、分析和存储数据的数据源,对大数据问题进行分类。
概述
大数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同的特征,包括数据的频率、量、速度、类型和真实性。处理并存储大数据时,会涉及到更多维度,比如治理、安全性和策略。选择一种架构并构建合适的大数据解决方案极具挑战,因为需要考虑非常多的因素。
2025年04月28日
大数据要实现处理,需要专业的技术手段去实现,以Hadoop、Spark为首的一些计算框架,也已经在大数据处理当中,稳稳地占据一席之地。当然,在大数据当中,可用的计算处理框架不止于此。今天加米谷学院就来为大家介绍一些大数据常用处理框架。
发展到今天,大数据处理主要分为两类大的需求,一是批处理,一是流处理。在企业的实际业务场景当中,可能会只需要批处理或者流处理,也可能同时需要批处理和流处理,这就使得搭建大数据系统平台的时候,需要根据具体场景来进行技术选型。
大数据处理框架,通常可以分为三类——