0

我是 Spark 的新手,我有 Databricks 社区版帐户。现在我正在做实验室并遇到以下错误:

!rm README.md* -f 
!wget https://raw.githubusercontent.com/carloapp2/SparkPOT/master/README.md

textfile_rdd = sc.textFile("README.md")
textfile_rdd.count()

输出:

IllegalArgumentException: Path must be absolute: dbfs:/../dbfs/README.md
4

1 回答 1

1

默认情况下,wget 会将您的文件下载到/databricks/driver 您必须将其存储在 DataBricks 文件系统 (dbfs) 中才能使用 -P 选项读取它。请参阅wget 手册以供参考。似乎魔术创建了一个路径!wget不可用的文件。dbfs:/在 Databricks 社区上,!wget导致您提到的文件未找到。

您可以%sh先在单元格中执行以下操作:

%sh
rm README.md* -f 
wget https://raw.githubusercontent.com/carloapp2/SparkPOT/master/README.md -P /dbfs/downloads/

然后在第二个 python 单元中,您可以通过 Files API 访问文件(注意路径以file:/

textfile_rdd = sc.textFile("file:/dbfs/downloads/README.md")
textfile_rdd.count()
--2022-02-11 13:48:19--  https://raw.githubusercontent.com/carloapp2/SparkPOT/master/README.md
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.110.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 3624 (3.5K) [text/plain]
Saving to: ‘/dbfs/FileStore/README.md.1’

README.md.1         100%[===================>]   3.54K  --.-KB/s    in 0.001s  

2022-02-11 13:48:19 (4.10 MB/s) - ‘/dbfs/FileStore/README.md.1’ saved [3624/3624]

Out[25]: 98

以下解决方案已在具有 7.1 LTS ML 和 9.1 LTS ML Databricks Runtime 的 Databricks Community Edition 上进行了测试。 在此处输入图像描述

于 2022-02-11T13:51:56.350 回答