28 | 知名大厂如何搭建大数据平台?

41 篇文章 2 订阅
订阅专栏

专栏第 26 期,介绍了一个常规的大数据平台架构方案,这种架构方案是基于大数据平台 Lamda 架构进行设计的。事实上,业界也基本是按照这种架构模型搭建自己的大数据平台。

今天我们来看一下淘宝、美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的架构,另一方面也学习大厂的工程师如何画架构图。通过大厂的这些架构图,你就会发现,不但这些知名大厂的大数据平台设计方案大同小异,架构图的画法也有套路可以寻觅。

淘宝大数据平台淘宝可能是中国互联网业界较早搭建了自己大数据平台的公司,下图是淘宝早期的 Hadoop 大数据平台,比较典型。

淘宝的大数据平台基本也是分成三个部分,上面是数据源与数据同步;中间是云梯 1,也就是淘宝的 Hadoop 大数据集群;下面是大数据的应用,使用大数据集群的计算结果。

数据源主要来自 Oracle 和 MySQL 的备库,以及日志系统和爬虫系统,这些数据通过数据同步网关服务器导入到 Hadoop 集群中。其中 DataExchange 非实时全量同步数据库数据,DBSync 实时同步数据库增量数据,TimeTunnel 实时同步日志和爬虫数据。数据全部写入到 HDFS 中。

在 Hadoop 中的计算任务会通过天网调度系统,根据集群资源和作业优先级,调度作业的提交和执行。计算结果写入到 HDFS,再经过 DataExchange 同步到 MySQL 和 Oracle 数据库。处于平台下方的数据魔方、推荐系统等从数据库中读取数据,就可以实时响应用户的操作请求。

淘宝大数据平台的核心是位于架构图左侧的天网调度系统,提交到 Hadoop 集群上的任务需要按序按优先级调度执行,Hadoop 集群上已经定义好的任务也需要调度执行,何时从数据库、日志、爬虫系统导入数据也需要调度执行,何时将 Hadoop 执行结果导出到应用系统的数据库,也需要调度执行。可以说,整个大数据平台都是在天网调度系统的统一规划和安排下进行运作的。

DBSync、TimeTunnel、DataExchange 这些数据同步组件也是淘宝内部开发的,可以针对不同的数据源和同步需求进行数据导入导出。这些组件淘宝大都已经开源,我们可以参考使用。

美团大数据平台

美团大数据平台的数据源来自 MySQL 数据库和日志,数据库通过 Canal 获得 MySQL 的 binlog,输出给消息队列 Kafka,日志通过 Flume 也输出到 Kafka。

Kafka 的数据会被流式计算和批处理计算两个引擎分别消费。流处理使用 Storm 进行计算,结果输出到 HBase 或者数据库。批处理计算使用 Hive 进行分析计算,结果输出到查询系统和 BI(商业智能)平台。

数据分析师可以通过 BI 产品平台进行交互式的数据查询访问,也可以通过可视化的报表工具查看已经处理好的常用分析指标。公司高管也是通过这个平台上的天机系统查看公司主要业务指标和报表。

美团大数据平台的整个过程管理通过调度平台进行管理。公司内部开发者使用数据开发平台访问大数据平台,进行 ETL(数据提取、转换、装载)开发,提交任务作业并进行数据管理。

滴滴大数据平台

滴滴大数据平台分为实时计算平台(流式计算平台)和离线计算平台(批处理计算平台)两个部分。

实时计算平台架构如下。数据采集以后输出到 Kafka 消息队列,消费通道有两个,一个是数据 ETL,使用 Spark Streaming 或者 Flink 将数据进行清洗、转换、处理后记录到 HDFS 中,供后续批处理计算。另一个通道是 Druid,计算实时监控指标,将结果输出到报警系统和实时图表系统 DashBoard。

离线计算平台架构如下。滴滴的离线大数据平台是基于 Hadoo 2(HDFS、Yarn、MapReduce)和 Spark 以及 Hive 构建,在此基础上开发了自己的调度系统和开发系统。调度系统和前面其他系统一样,调度大数据作业的优先级和执行顺序。开发平台是一个可视化的 SQL 编辑器,可以方便地查询表结构、开发 SQL,并发布到大数据集群上。

此外,滴滴还对 HBase 重度使用,并对相关产品(HBase、Phoenix)做了一些自定义的开发,维护着一个和实时、离线两个大数据平台同级别的 HBase 平台,它的架构图如下。

来自于实时计算平台和离线计算平台的计算结果被保存到 HBase 中,然后应用程序通过 Phoenix 访问 HBase。而 Phoenix 是一个构建在 HBase 上的 SQL 引擎,可以通过 SQL 方式访问 HBase 上的数据。

小结

可以看到,这些知名大厂的大数据平台真的是大同小异,他们根据各自场景和技术栈的不同,虽然在大数据产品选型和架构细节上略有调整,但整体思路基本上都是一样的。

不过也正是这种大同小异,让我们从各个角度更加了解大数据平台架构,对大数据平台架构有了更加深刻的认知。

在阿里巴巴工作期间,有一阵子不断参加各种基础技术产品的架构评审会。有一次,另一个一样经常参加这类会议的架构师说:“我感觉这些产品的架构怎么都一样”。被他一说,大家都纷纷点头称是,好像确实如此。

同一类问题的解决方案通常也是相似的。一个解决方案可以解决重复出现的同类问题,这种解决方案就叫作模式。模式几乎是无处不在的,一旦一个解决方案被证明是行之有效的,就会被重复尝试解决同类的问题。

所以我们看到,很多大数据产品的架构也都是差不多的,比如 Hadoop 1、Yarn、Spark、Flink、Storm,这些产品的部署架构真的是太像了。

对于有志于成为架构师的工程师来说,一方面当然是提高自己的编程水平,另一方面也可以多看看各种架构设计文档,多去参加一些架构师技术大会。在我看来,编程需要天分;而架构设计,真的是孰能生巧。

下图是腾讯的大数据平台架构,尝试对这个架构图的主要组件和运行机制进行分析。

知名大厂如何搭建大数据平台&架构
javalingyu的博客
05-25 416
今天我们来看一下淘宝、美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台架构,另一方面也学习大厂的工程师如何画架构图。通过大厂的这些架构图,你就会发现,不但这些知名大厂大数据平台设计方案大同小异,架构图的画法也有套路可以寻觅。 淘宝大数据平台 淘宝可能是中国互联网业界较早搭建了自己大数据平台公司,下图是淘宝早期的 Hadoop 大数据平台,比较典型。 image 淘宝的大数据平台基本也是分成三个部分,上面是数据源与数据同步;中间是云梯 1,也就是淘宝的 Hadoop 大数据集群;下
淘宝,滴滴,美团各大厂是如何搭建大数据平台架构的?
大数据基础入门教程
04-16 1320
今天我们来看一下淘宝、美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台架构,另一方面也学习大厂的工程师如何画架构图。通过大厂的这些架构图,你就会发现,不但这些知名大厂大数据平台设计方案大同小异,架构图的画法也有套路可以寻觅。 淘宝大数据平台 淘宝可能是中国互联网业界较早搭建了自己大数据平台公司,下图是淘宝早期的Hadoop 大数据平台,比较典型。 淘宝的大数据平台基本也是分成...
淘宝数据魔方技术架构解析
Mac Track
08-04 1550
淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。 为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据产品的研
淘宝网站架构技术演进历程
weixin_46816383的博客
04-12 1439
淘宝网站架构技术演进历程1、概述2、基本概念3、架构演进3.1、单机架构3.2、第一次演进:Tomcat与数据库分开部署3.3、第二次演进:引入本地缓存和分布式缓存3.4、第三次演进:引入反向代理实现负载均衡3.5、第四次演进:数据库读写分离3.6、第五次演进:数据库按业务分库3.7、第六次演进:把大表拆分为小表3.8、第七次演进:使用LVS或F5来使多个Nginx负载均衡3.9、第八次演进:通过DNS轮询实现机房间的负载均衡3.10、第九次演进:引入NoSQL数据库和搜索引擎等技术3.11、第十次演进:大
淘宝十年资深架构师吐血总结淘宝的数据库架构设计和采用的技术手段。
zxyhj的博客
03-09 4108
​ 综上所述,淘宝的数据库架构设计采用了分布式数据库技术,通过分库分表、数据冗余、异步复制、读写分离等技术手段来解决数据库的性能、可用性和扩展性问题。同时,淘宝还采用了一系列中间件来协调分布式系统的操作,保证了数据的一致性和高性能。这些技术手段的综合应用,使得淘宝的数据库能够承受双十一这种高并发、高压力的交易活动。
企业级大数据平台建设参考 淘宝滴滴美团360快手京东
jane9872的博客
06-20 904
从金融业务,物流业务,电商业务,保险业务、健康业务等不同业务的特点和需求出发,逐步构建成标准化、可管理、可维护、可理解、可复制、一站式、体系化的数据中台,解决了前面提到的业务复杂、数据异构、烟囱化开发、建设成本高等问题。总结,大数据平台的出现伴随着业务的不断发展,数据的不断增长,数据需求的不断增加,数据分析及挖掘的场景而逐步形成。构建,在此基础上开发了自己的调度系统和开发系统。面向业务,奇麟思考的是通过提供简单易用的一站式大数据处理的平台,降低使用门槛,简化大数据平台工作,帮助业务释放数据价值,赋能业务。
大数据开发的前景和就业如何?该如何去学习它?
Blue92120的博客
07-28 709
因为数据从根本上讲,是对过去和现在的归纳和总结,其本身不具备趋势和方向性的特征,但是可以应用大数据去了解事物发展的客观规律、了解人类行为,并且能够帮助我们改变过去的思维方式,建立新的数据思维模型,从而对未来进行预测和推测。大数据提供的是些描述性的信息,而创新还是需要人类自己来实现。Python是基于ABC语言的发展来的,Python语法和动态类型,以及解释型语言的本质,使它成为多数平台上写脚本和快速开发应用的编程语言,随着版本的不断更新和语言新功能的添加,逐渐被用于独立的、大型项目的开发。...
云计算、大数据、人工智能、物联网、虚拟现实技术、区块链技术
2301_79098963的博客
04-30 637
ChatGPT是一种由OpenAI训练的大型语言模型。它的原理是基于Transformer架构,通过预训练大量文本数据来学习如何生成人类可读的文本,然后通过接受输入并生成输出来实现对话。ChatGPT的用途非常广泛,可以用于自然语言处理(NLP)任务,如对话生成、问答系统、文本生成等。如果你想使用ChatGPT,你可以用它来构建对话机器人,回答问题,生成文本等。它的应用非常广泛,可以用于各种场景,如客服、帮助提供者、教育机构等。
2024年最全云计算、大数据、人工智能、物联网、虚拟现实技术、区块链技术,大数据开发开发必看
最新发布
2401_84183802的博客
05-05 1495
ChatGPT是一种由OpenAI训练的大型语言模型。它的原理是基于Transformer架构,通过预训练大量文本数据来学习如何生成人类可读的文本,然后通过接受输入并生成输出来实现对话。ChatGPT的用途非常广泛,可以用于自然语言处理(NLP)任务,如对话生成、问答系统、文本生成等。如果你想使用ChatGPT,你可以用它来构建对话机器人,回答问题,生成文本等。它的应用非常广泛,可以用于各种场景,如客服、帮助提供者、教育机构等。
杨志丰:OceanBase——淘宝结构化大数据解决之道
05-29
杨志丰在此次盛会中做主题为“OceanBase--淘宝结构化大数据解决之道”的演讲。杨志丰表示淘宝每天大约有6000万用户登录以及20亿PV量。淘宝数据库对于淘宝来说非常重要。
淘宝大数据量产品技术架构
拟声的主扬在江湖
07-18 1124
淘宝大数据量产品技术架构      来自淘宝数据平台与产品部的张轩丞为大家分享淘宝大数据量产品技术架构的相关知识, 淘宝主站有30亿个店铺和宝贝浏览,10亿计的在线宝贝数,千万级交易笔数。而淘宝的面对千万量级的数据查询请求,平均响应时间为20.8ms。 对其内容详细阅读
淘宝走过的大数据之路
陈家二少的博客
09-06 3325
回顾丨13年来,淘宝走过的大数据之路 来源:CSDN大数据 时间:2016-11-07 10:19:15 作者: — 淘宝大数据之路 —   2003年至今淘宝网从零开始飞速发展,走过了13个年头,支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台,淘宝大数据平台,就是其中非常重要的一个组成部分,承担了数据采集、加工处理、数据应用的职责,淘宝大数据平台一路到今天,总共经历了三个大的阶段(...
淘宝海量数据产品的技术架构
weixin_34066347的博客
04-01 357
淘宝海量数据产品的技术架构是什么,又是如何应对双十一的海量访问的?先看图: 按照数据的流向来划分,我们把淘宝数据产品的技术架构分为五层(如图1所示),分别是数据源、计算层、存储层、查询层和产品层。位于架构顶端的是我们的数据来源层,这里有淘宝主站的用户、店铺、商品和交易等数据库,还有用户的浏览、搜索等行为日志等。这一系列的数据是数据产品最原始的生命力所在。   在数据源层实时产生的数据,通...
干货+赠书|淘宝、美团、滴滴分别如何搭建大数据平台
过往记忆大数据
07-29 444
送书规则:关注下方公众号,回复“送书”,点击小程序参与抽奖。本次抽取5名幸运儿,免费包邮送一本《大数据技术架构:核心原理与应用实践》常规的大数据平台架构方案是基于大数据平台Lamda架构设...
分布式系统架构演进过程
zcswl7961的博客
11-08 779
文章目录前言1. 概述2. 基本概念分布式高可用集群负载均衡正向代理和反向代理3. 架构演进3.1 单机架构3.2 第一次演进:Tomcat与数据库分开部署3.3 第二次演进:引入本地缓存和分布式缓存3.4 第三次演进:引入反向代理实现负载均衡3.5 第四次演进:数据库读写分离3.6 第五次演进:数据库按业务分库3.7 第六次演进:把大表拆分为小表3.8 第七次演进:使用LVS或F5来使多个Ngi...
淘宝整体架构
weixin_30699831的博客
07-03 445
一应用无状态(淘宝session框架) 假如在session中保存了大量与客户端的状态信息,保存状态信息的server宕机时 通常通过集群解决,不仅有负载均衡,更重要的是要有失效恢复failover tomcat用集群节点广播复制,jboss用配对复制等session状态复制策略,但严重影响系统的伸缩性,不能通过增加更多的机器达到良好的水平伸缩 因为集群节点间session通信随着节...
阿里淘宝海量级数据技术架构
huangjian1174的博客
03-12 1906
架构图 按照数据的流向来划分,我们把淘宝数据产品的技术架构分为五层(如图1所示),分别是数据源、计算层、存储层、查询层和产品层。位于架构顶端的是我们的数据来源层,这里有淘宝主站的用户、店铺、商品和交易等数据库,还有用户的浏览、搜索等行为日志等。这一系列的数据是数据产品最原始的生命力所在。 在数据源层实时产生的数据,通过淘宝自主研发的数据传输组件DataX、DbSync和Timetunnel准实时地...
互联网大厂Java大数据面试深度解析:Kafka与Hadoop Shuffle
"这份资料包含了互联网大厂对Java大数据开发工程师面试的真题,主要涉及了Java面试中的常见问题,以及在大厂面试过程中可能会遇到的技术点,如Kafka消息结构、Kafka offset查看方法以及Hadoop的Shuffle过程等核心...
写文章

热门文章

  • 05|音频降噪如何对症下药? 12200
  • 14|音效三剑客:变调、均衡器、混响 9091
  • 15|AI变声:音频AI技术的集大成者 7421
  • 22|再探HuggingFace:一键部署自己的大模型 7013
  • 11|网络差怎么办?音频网络传输与抗弱网策略 6222

分类专栏

  • Android 开发 19篇
  • C++实战笔记 26篇
  • 大规模数据处理 42篇
  • 技术管理2 37篇
  • 元宇宙 13篇
  • 前端 54篇
  • python自动化 36篇
  • Java 核心技术 41篇
  • 技术管理 37篇
  • Kafka 核心技术 45篇
  • 编译原理之美 41篇
  • 数学基础 56篇
  • 编程入门 35篇
  • 性能工程实战 33篇
  • 面试现场 39篇
  • 程序员工作法 55篇
  • 软件设计之美 36篇
  • 性能测试 33篇
  • 全栈工程师修炼 45篇
  • 搭建直播视频平台
  • AI大模型 30篇
  • 分布式协议与算法 28篇
  • 即时消息技术 23篇
  • Redis核心技术 49篇
  • 秒杀系统设计 9篇
  • 云计算 18篇
  • 程序员进阶攻略 65篇
  • 消息队列 39篇
  • 计算机组成原理 56篇
  • 代码精进之路 46篇
  • 动态规划面试 20篇
  • 系统性能调优 41篇
  • 架构实战案例 21篇
  • Go语言 50篇
  • eBPF 核心技术
  • 架构2 80篇
  • C++数据结构与算法
  • 微服务 39篇
  • 推荐系统 36篇
  • OAuth 2.0 15篇
  • 后端存储 27篇
  • python核心技术 32篇
  • 深入剖析 Kubernetes 52篇
  • 分布式技术原理与算法 35篇
  • RPC 实战与核心原理 27篇
  • Linux內核技术 21篇
  • 后端技术面试 44篇
  • 大数据 41篇
  • 游戏开发 37篇
  • HTTP 40篇
  • 机器学习 43篇
  • 架构 51篇
  • 网络编程 36篇
  • 视频技术 6篇
  • 密码学 20篇
  • Linux性能优化 58篇
  • 操作系统实战 5篇
  • c++ 34篇
  • 敏捷 10篇
  • 高并发系统设计 38篇
  • 音视频入门
  • Linux操作系统 66篇
  • C语言 31篇
  • 网络排查案例 5篇
  • 音频技术 16篇
  • 网络协议 46篇

最新评论

  • 07 | Raft算法(一):如何选举领导者?

    wfh2015: 有些地方写的有偏差。 1. Follower等待Leader超时时间,是一个在固定区间的随机数,论文写的参考值是150-300ms 2. 很多时候不用Paxos主要原因有三个:a) Paxos算法是非常难以理解的,论文作者也提到,即使是斯坦福博士专门研究这东西,也花了1年左右的时间 b) Paxos算法有一些细节部分并没有公开 c) Raft是一个完整的算法,在Raft作者博士论文提到过的,除了基本部分意外,还增加了成员变更(可以理解为变更副本数提供了理论基础)/客户端交互/日志压缩,这意味着并不是空中楼阁

  • 06 | 定位防火墙(二):网络层的精确打击

    allen-smith: 请问虚拟机1和2的IP地址是多少,谢谢.

  • 05|码流结构:原来你是这样的H264

    YangShine01: 写的太好了!!!

  • 11 | I/O优化(下):如何监控线上I/O操作?

    CSDN-Ada助手: Python入门 技能树或许可以帮到你:https://edu.csdn.net/skill/python?utm_source=AI_act_python

  • 20 | 概率基础(上):一篇文章帮你理解随机变量、概率分布和期望值

    梁顿: 以下是个人观点,不对请指正:随机变量这个概念是为了跟变量这个概念区分开。如果变量最后的数据是1,那它是100%是1;而随机变量不同,如果随机变量结果是1,那是指多大程度上是1,如70%的可能性是1.

大家在看

  • [ARMS用户体验监控]接入H5应用 623
  • AI时代的软件工程师生存手册:未来趋势与应对策略 77
  • 十二、数据库其他调优策略 27
  • 【开题报告】基于Springboot+vue游戏软件分销平台(程序+源码+论文) 计算机毕业设计
  • 【开题报告】基于Springboot+vue校园闲置二手交易网站(程序+源码+论文) 计算机毕业设计

最新文章

  • 16 | 网络优化(中):复杂多变的移动网络该如何优化?
  • 15 | 网络优化(上):移动开发工程师必备的网络优化知识
  • 14 | 存储优化(下):数据库SQLite的使用和优化
2024
08月 12篇
07月 49篇
06月 81篇
05月 158篇
04月 193篇
03月 255篇
02月 286篇
01月 218篇
2023年931篇
2022年46篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳坪山网站建设公司天津网站关键词优化怎么做石家庄网站优化哪家专业塔城网站推广优化济宁网站优化平台吉安网站怎么优化seo网站优化推广收费无锡网站关键词优化网站都是哪里需要优化宿迁seo网站优化推广宁波本地网站优化哪家好杭州优质网站推广优化公司青铜峡怎么做网站优化优化网站哪个最靠谱龙华seo网站搜索优化网站快速排名优化价格延安网站seo优化报价网站制作优化首选金苹果如何写网站优化方案推荐怎样给网站做优化外包泰安原装网站优化开户彭州网站优化公司贵阳关键词网站优化最新网站优化哪家快专业网站建设网络推广网站优化响应式网站有利于优化吗遂宁网站优化怎么选淘宝网站的优化策略网站ipa对接优化浙江网站优化深圳企业网站优化香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

深圳坪山网站建设公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化