0

我正在尝试使用 Microsoft Academic Graph(MAG) 数据的 PySpark 教程。(https://github.com/Azure-Samples/microsoft-academic-graph-pyspark-samples/blob/master/src/AIIndex.ipynb

我在“加载 MAG 数据”部分不断收到错误消息。即使我运行需要最少时间的第 4 行(Affiliations.txt - 由于文件大小为 5MB),运行大约需要 11 分钟,并输出以下错误消息。

shaded.databricks.org.apache.hadoop.fs.azure.AzureException:shaded.databricks.org.apache.hadoop.fs.azure.AzureException:无法使用匿名凭据访问帐户 mag-datashare 中的容器 $root,并且没有凭据在配置中为他们找到。

我已经搜索了错误消息,但无济于事。我认为我在“初始化存储帐户和容器详细信息”部分做错了,尤其是 MagContainer 和 OutputContainer 变量。

在我的存储帐户中,

  1. 我有一个从 Microsoft 共享的名为“mag-datashare”的容器,我试图将路径放在 MagContainer 变量中。描述以“mag-yyyy-mm-dd”的形式表示,但尝试失败。我试过'mag-datashare/mag/2021-10-11'、'mag-datashare/mag'、'mag-2021-10-11'、'mag-2021-10-11'、'mag-datashare'这一切都失败了。有些会立即失败,但有些需要 11 分钟。已搜索其他示例,但它们似乎具有不同的格式,使用了额外的 MagVersion 变量。
  2. 我制作了一个名为“mag-output”的容器,并将其路径放在 OutputContainer 变量中。

谁能帮我运行代码?

4

0 回答 0