数据处理的大一统——从 Shell 脚本到 SQL 引擎

“工业流水线”的鼻祖，福特 T 型汽车的电机装配，将组装过程拆成 29 道工序，将装备时间由平均二十分钟降到五分钟，效率提升四倍。

这种流水线的思想在数据处理过程中也随处可见。其核心概念是：

标准化的数据集合：对应待组装对象，是对数据处理中各个环节输入输出的一种一致性抽象。所谓一致，就是一个任意处理环节的输出，都可以作为任意处理环节的输入。
可组合的数据变换：对应单道组装工序，定义了对数据进行变换的一个原子操作。通过组合各种原子操作，可以具有强大的表达力。

则，数据处理的本质是：针对不同需求，读取并标准化数据集后，施加不同的变换组合。

本文注意考察了 Unix Pipe、MapReduce、Spark、SQL Engine ，试图探讨数据处理背后的共通之处。

SQL解析中的体现就类似Parser -》 Binder -》 Planner -》Optimizer -》Executor中其实都是围绕这一个树结构进行转换、剪枝等加工

Kould 确实。不过我这篇文章主要侧重数据处理（对数据集变换）而非算子树变换，对应 SQL 中 Execution Engine 部分。

将各种Transformer组装成DAG

Transformer之间可以流水线计算，没有依赖关系的Transformer可以并行计算

lokax 这些都是相通的，比如 MapReduce 中的 shuffle、Spark 中的宽依赖窄依赖、SQL 中的 Join。