我正在尝试读取一个小的 txt 文件,该文件作为表格添加到 Databricks 上的默认数据库中。尝试通过 Local File API 读取文件时,我得到一个FileNotFoundError
,但我可以使用SparkContext读取与Spark RDD相同的文件。
请在下面找到代码:
with open("/FileStore/tables/boringwords.txt", "r") as f_read:
for line in f_read:
print(line)
这给了我错误:
FileNotFoundError Traceback (most recent call last)
<command-2618449717515592> in <module>
----> 1 with open("dbfs:/FileStore/tables/boringwords.txt", "r") as f_read:
2 for line in f_read:
3 print(line)
FileNotFoundError: [Errno 2] No such file or directory: 'dbfs:/FileStore/tables/boringwords.txt'
其中,我使用SparkContext读取文件没有问题:
boring_words = sc.textFile("/FileStore/tables/boringwords.txt")
set(i.strip() for i in boring_words.collect())
正如预期的那样,我得到了上述代码块的结果:
Out[4]: {'mad',
'mobile',
'filename',
'circle',
'cookies',
'immigration',
'anticipated',
'editorials',
'review'}
我还参考了此处的DBFS 文档以了解本地文件 API 的限制,但在此问题上没有任何线索。任何帮助将不胜感激。谢谢!