基础概念
1. 什么是 Kafka,它的主要应用场景有哪些?
Kafka 是一个分布式的、高吞吐量的、可持久化的消息系统,最初由 LinkedIn 开发,后来成为 Apache 项目的一部分。它主要用于处理实时数据流,具有高吞吐量、可扩展性、容错性等特点。其主要应用场景包括:
2025年04月30日
Kafka 是一个分布式的、高吞吐量的、可持久化的消息系统,最初由 LinkedIn 开发,后来成为 Apache 项目的一部分。它主要用于处理实时数据流,具有高吞吐量、可扩展性、容错性等特点。其主要应用场景包括:
2025年04月30日
在外卖广告CTR场景下,深度学习模型正在从简单DNN小模型过渡到千亿参数复杂模型。基于该背景,本文将重点针对大规模深度模型在全链路带来的挑战,从在线时延、离线效率两个方面展开,阐述外卖广告在大规模深度模型上的工程实践经验,希望能为读者提供思路上的借鉴。
2025年04月30日
享学课堂作者:逐梦々少年
简书ID:逐梦々少年
转载请声明出处!
上次我们详细的学习了Java中的序列化机制,但是我们日常开发过程中,因为java的序列化机制的压缩效率问题,以及序列化大小带来的传输的效率问题,一般很少会使用原生的序列化机制,而是使用常见的序列化开源框架来实现序列化操作,接下来我们学习一下开发常用的序列化机制及原理分析
xml序列化
2025年04月30日
在大数据备受关注的今天,企业不能盲从,而是应该明白大数据为什么会如此之热,为什么去关注它。其中一个重要原因就是,大数据不同于普通数据,它增加了很多半结构化数据和非结构化数据,并且其数量级和价值不可同日而语。
IDC的报告显示,目前大数据的1.8万亿GB容量中,非结构化数据占到了80%~90%之间,并且到2020年将以44倍的发展速度增长。如果说结构化数据用详实的方式记录了企业的生产交易活动,那么非结构化数据则是掌握企业命脉的关键内容,所反映的信息蕴含着诸多企业效益提高的机会。因此,只有解决非结构化数据的分析困难,才能有效挖掘这些数据背后的价值,驱动企业价值提升。
2025年04月30日
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
2025年04月30日
Q1、大数据分析中的实时推荐是如何实现的?
@rein07 某证券 系统架构师:
实时推荐需要使用实时处理框架结合推荐算法,从而做到对数据的实时处理和推荐。实时处理框架有Storm、Flink、SparkStreaming,组件可以对接Kafka,获取实时流数据,在实时框架内部实现对数据的处理过程。
@陈星星 科技公司 技术经理:
1、实时推荐需要借助实时计算框架例如Spark或是Strom技术,
2025年04月30日
Flink项目是大数据计算领域冉冉升起的一颗新星。大数据计算引擎的发展经历了几个过程,从第1代的MapReduce,到第2代基于有向无环图的Tez,第3代基于内存计算的Spark,再到第4代的Flink。因为Flink可以基于Hadoop进行开发和使用,所以Flink并不会取代Hadoop,而是和Hadoop紧密结合。
Flink主要包括DataStream API、DataSet API、Table API、SQL、Graph API和FlinkML等。现在Flink也有自己的生态圈,涉及离线数据处理、实时数据处理、SQL操作、图计算和机器学习库等。
2025年04月30日
在数字时代,数据的重要性不言而喻。随着各行各业的数字化深入,数据的融合应用也成为一个重要趋势。在这个过程中,如何打破数据孤岛的壁垒,实现数据共享,也是整个行业亟待解决的难题。
在这种背景下,隐私计算应运而生。隐私计算(Privacy Computing)是一种由两个或多个参与方联合计算的技术和系统,参与方在不泄露各自数据的前提下通过协作对他们的数据进行联合机器学习和联合分析。
目前,隐私计算是当前数据保护领域各界关注的热点。在学术界,近年来有关隐私计算的学术会议和论文呈现爆发式增长,产业界则也愈发关注隐私计算技术和产品,各企业都争相投入到隐私计算的研发和产品化工作。