我有一个具有以下布局的 csv 文件:
Website Text
A B
在第一列中有一个网站,第二列是我从中刮取的文字。这是一个 1GB 大小的文件。
我需要以某种方式遍历文本的每一行,与网站无关,并将其合并到一个单元格中。例如:
Website Text
A Mary
B had a little lamb
会成为:
Text
Mary had a little lamb
我尝试了多种方法,pandas 无法工作,因为文件太大而无法一次全部保存在内存中,而且我不知道如何使用 pyspark/spark 来完成。
感谢您的任何帮助!