“工业流水线”的鼻祖,福特 T 型汽车的电机装配,将组装过程拆成 29 道工序,将装备时间由平均二十分钟降到五分钟,效率提升四倍。

这种流水线的思想在数据处理过程中也随处可见。其核心概念是:
- 标准化的数据集合:对应待组装对象,是对数据处理中各个环节输入输出的一种一致性抽象。所谓一致,就是一个任意处理环节的输出,都可以作为任意处理环节的输入。
- 可组合的数据变换:对应单道组装工序,定义了对数据进行变换的一个原子操作。通过组合各种原子操作,可以具有强大的表达力。
则,数据处理的本质是:针对不同需求,读取并标准化数据集后,施加不同的变换组合。
本文注意考察了 Unix Pipe、MapReduce、Spark、SQL Engine ,试图探讨数据处理背后的共通之处。
Read More: https://xiaobot.net/post/32d80aea-3466-4596-b068-a7115bb7cbaa