datawarehouse相关

Created2024-01-22|Updated2024-01-22

|Word Count:0|Reading Time:1mins|Post Views:

多层架构数据仓库与集市 dw内部数据流向 dw示例

Author: magicliang

Link: http://magicliang.github.io/2024/01/22/datawarehouse%E7%9B%B8%E5%85%B3/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

大数据数据仓库

Related Articles

为什么要自建实时计算平台

#为什么要自建一个离线平台# 可以优化资源利用率。业务平台应该把精力放在业务上。 #什么是实时计算# 强调响应时间短（相对于离线计算）：毫秒级、亚秒级、秒级。T+1 的报表都是离线计算。数据的价值随着时间的流逝而迅速降低。常见技术方案：流计算 + 实时存储 or 消息队列流计算 + 实现 OLAP #什么是流式计算# 实时且无界。数据驱动计算，事件触发。有状态及持续集成。流计算引擎：Spark Streaming、Flink Streaming、Storm/JStorm、Samza 等。 #Spark Streaming 模型# Micro-Batch 模式。看起来是流式处理的，实际上还是一小批一小批处理的。从批处理走到流处理。最小延时：batch 的处理时间最大延时：batch interval（通常2s-10s） + batch 处理时间。使用场景：数据清洗（实时数据通道）、数据 ETL 等。对于熟悉 Spark 批处理的 RD 非常容易上手。 #Flink Streaming# Native Streaming。低延时，通常在毫秒...

DAG 执行框架优于 MapReduce 的地方在哪里？

有个同学问我什么是 DAG 框架。我感觉隐隐约约听过，但又讲不清楚它的概念。上网搜了一下，我们常见的新大数据执行框架如 Spark、Storm，还有一个我没听过的 Tez，都算 DAG 任务执行框架。他们的主要优点是，可以用 DAG 事先通晓整个任务的全部步骤，然后进行转换优化。如 Tez 就可以把多个任务转换为一个大任务，而 Spark 则可以把相关联的 Map 直接串联起来，免得多次写回 hdfs（看来 hdfs 也很慢）。传统的 MapReduce 框架为什么不能理解这种优化空间的存在，在任务运行的时候好像一个盲人一样，是个很有意思的话题。 Quora 上的一个相关的问答。

不常见的 SQL

窗口函数 OVER OVER用于为行定义一个窗口，它对一组值进行操作，不需要使用GROUP BY子句对数据进行分组，能够在同一行中同时返回基础行的列和聚合列。在这里要引入窗口函数和开窗函数的概念： 12345678910111213141516171819202122232425CREATE TABLE Employee(ID INT PRIMARY KEY,Name VARCHAR(20),GroupName VARCHAR(20),Salary INT)INSERT INTO EmployeeVALUES(1,'小明','开发部',8000), (4,'小张','开发部',7600), (5,'小白','开发部',7000), (8,'小王','财务部',5000), (9, null,'财务部',NULL), (15,'小刘...