ray.data 是基于 ray core 的一层封装。依赖 ray.data,用户用简单的代码,就可以实现数据大规模的异构处理(主要指同时使用 CPU 和 GPU)。一句话总结:很简单好用,同时也有很多坑。
- dataset-> block -> row 三层组织;batch 和 block 之间的纠葛;block 数和文件数间的关系。
- 使用阻塞队列桥接上下游算子。调度就是不断找到有输入的算子,按并行度约束生成任务来向下游搬运数据。
https://xiaobot.net/post/439b717b-b7bf-456a-80a5-08fbdc7584d6