Loading...

为什么要自建实时计算平台

Created2017-12-07|Updated2026-06-17

|Word Count:473|Reading Time:1mins|Post Views:

#为什么要自建一个离线平台#

可以优化资源利用率。
业务平台应该把精力放在业务上。

#什么是实时计算#

强调响应时间短（相对于离线计算）：毫秒级、亚秒级、秒级。T+1 的报表都是离线计算。
数据的价值随着时间的流逝而迅速降低。
常见技术方案：
流计算 + 实时存储 or 消息队列
流计算 + 实现 OLAP

#什么是流式计算#

实时且无界。
数据驱动计算，事件触发。
有状态及持续集成。
流计算引擎：Spark Streaming、Flink Streaming、Storm/JStorm、Samza 等。

#Spark Streaming 模型#

Micro-Batch 模式。看起来是流式处理的，实际上还是一小批一小批处理的。从批处理走到流处理。
最小延时：batch 的处理时间
最大延时：batch interval（通常2s-10s） + batch 处理时间。
使用场景：数据清洗（实时数据通道）、数据 ETL 等。
对于熟悉 Spark 批处理的 RD 非常容易上手。

#Flink Streaming#

Native Streaming。
低延时，通常在毫秒级。
使用场景：事件驱动、实时风控、在线业务等。
比 Spark 更新。

实时数据存储及多维度聚合计算引擎。
服务于时间序列数据。
低延时数据写入（只写消费 kafka）,实时数据可见。
快速交互式查询（99% 查询1秒内返回）。
支持 SQL 及 DSL 两种查询语言。
适用场景：实时报表、实时监控。

#Presto 模型及服务#

基于全内存计算的分布式 SQL 查询引擎。
针对响应时间 20S 以内的 OLAP 场景。
通过 Connector 支持多种数据源。

#重流还是轻流#

计算到底是在存储里 OLAP 里算出来，还是从存储里导出来，用流来计算的？

用调整算子并发的方式，可以提升性能瓶颈。

Author: magicliang

Link: https://magicliang.github.io/2017/12/07/%E4%B8%BA%E4%BB%80%E4%B9%88%E8%A6%81%E8%87%AA%E5%BB%BA%E5%AE%9E%E6%97%B6%E8%AE%A1%E7%AE%97%E5%B9%B3%E5%8F%B0/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

Related Articles

DAG 执行框架优于 MapReduce 的地方在哪里？

有个同学问我什么是 DAG 框架。我感觉隐隐约约听过，但又讲不清楚它的概念。上网搜了一下，我们常见的新大数据执行框架如 Spark、Storm，还有一个我没听过的 Tez，都算 DAG 任务执行框架。他们的主要优点是，可以用 DAG 事先通晓整个任务的全部步骤，然后进行转换优化。如 Tez 就可以把多个任务转换为一个大任务，而 Spark 则可以把相关联的 Map 直接串联起来，免得多次写回 hdfs（看来 hdfs 也很慢）。传统的 MapReduce 框架为什么不能理解这种优化空间的存在，在任务运行的时候好像一个盲人一样，是个很有意思的话题。 Quora 上的一个相关的问答。

经典面试问题的大数据解法——Spark 与 Flink 实战

“100 亿个数中找出最大的 1000 个”、“两个 10GB 的文件找出共同的 URL”——这些经典面试题的本质都是内存放不下。单机方案围绕分治展开，分布式方案则把分治思想映射到集群节点上。本文按问题类型组织，每类问题给出从单机到 Spark/Flink 的渐进式解法，并附上概率数据结构（布隆过滤器、HyperLogLog、Count-Min Sketch）在近似场景中的应用。引言：大数据问题的共同特征为什么"内存放不下" 面试中给出的数据规模往往是精心设计的——刚好跨过单机内存的边界：数据规模内存需求典型服务器内存能否放入内存 1 亿个 int 400 MB 16 GB ✅ 10 亿个 int 4 GB 16 GB ✅（但留给程序的余量不多） 100 亿个 int 40 GB 16 GB ❌ 10 亿个 URL（平均 100 字节） 100 GB 16 GB ❌ 上表只计算了裸数据大小。实际使用 HashMap、HashSet 等容器时，对象头、指针、负载因子会使内存占用膨胀 3-5 倍。通用解题框架 123...

datawarehouse相关

不常见的 SQL

窗口函数 OVER OVER用于为行定义一个窗口，它对一组值进行操作，不需要使用GROUP BY 子句对数据进行分组，能够在同一行中同时返回基础行的原始列和聚合列。在这里要引入窗口函数/开窗函数（Window Function）的概念： 12345678910111213141516171819202122232425CREATE TABLE Employee(ID INT PRIMARY KEY,Name VARCHAR(20),GroupName VARCHAR(20),Salary INT)INSERT INTO EmployeeVALUES(1,'小明','开发部',8000), (4,'小张','开发部',7600), (5,'小白','开发部',7000), (8,'小王','财务部',5000), (9, null,'财务部',NULL), ...