我正在尝试将矩阵的平面文本文件(制表符分隔)表示形式读取到dask
数组中,distributed
用于将数组的块分布在集群中。
(旁白:这与 PySpark 的sc.textFile
方法没有什么不同)
但是,我不清楚如何使用可用的工具将文本文件解析为矩阵结构。在 PySpark 中,我可以使用一个简单map
的 UDF 来完成此操作,该 UDF 将每一行拆分为一个空格并将标记转换为浮点列表,最后将列表转换为 [indexed] numpy 数组。
我从dask.bag.read_text
方法开始,它有一个collection
我可以设置的参数,False
所以它给了我一堆Delayed
期货。如何将这些解析为最终矩阵的行?
from dask.bag import read_text
matrix = read_text(filename.txt, collection = False)
这仅返回一个未来。如何为文本文件中的每一行生成未来?