2

我目前正在尝试使用 Azure Jupyter Notebooks 打开镶木地板文件。我已经尝试了两个 Python 内核(2 和 3)。安装pyarrow后,我只能在 Python 内核为 2 时导入模块(不适用于 Python 3)

这是我到目前为止所做的(为了清楚起见,我没有提及我所有的各种尝试,例如使用conda代替pip,因为它也失败了):

!pip install --upgrade pip
!pip install -I Cython==0.28.5
!pip install pyarrow

import pandas  
import pyarrow
import pyarrow.parquet

#so far, so good

filePath_parquet = "foo.parquet"
table_parquet_raw = pandas.read_parquet(filePath_parquet, engine='pyarrow')

如果我离线执行此操作(使用 Spyder,Python v.3.7.0),这很有效。但使用 Azure Notebook 失败。

 AttributeErrorTraceback (most recent call last)
<ipython-input-54-2739da3f2d20> in <module>()
      6 
      7 #table_parquet_raw = pd.read_parquet(filePath_parquet, engine='pyarrow')
----> 8 table_parquet_raw = pandas.read_parquet(filePath_parquet, engine='pyarrow')

AttributeError: 'module' object has no attribute 'read_parquet'

请问有什么想法吗?

先感谢您 !

编辑:

非常感谢您的回复彼得潘!我已经输入了这些语句,这是我得到的:

1.

    print(pandas.__dict__)

=> read_parquet 没有出现

2.

    print(pandas.__file__)

=> 我得到:

    /home/nbuser/anaconda3_23/lib/python3.4/site-packages/pandas/__init__.py
  1. 导入系统;print(sys.path) => 我得到:

    ['', '/home/nbuser/anaconda3_23/lib/python34.zip',
    '/home/nbuser/anaconda3_23/lib/python3.4',
    '/home/nbuser/anaconda3_23/lib/python3.4/plat-linux',
    '/home/nbuser/anaconda3_23/lib/python3.4/lib-dynload',
    '/home/nbuser/.local/lib/python3.4/site-packages',
    '/home/nbuser/anaconda3_23/lib/python3.4/site-packages',
    '/home/nbuser/anaconda3_23/lib/python3.4/site-packages/Sphinx-1.3.1-py3.4.egg',
    '/home/nbuser/anaconda3_23/lib/python3.4/site-packages/setuptools-27.2.0-py3.4.egg',
    '/home/nbuser/anaconda3_23/lib/python3.4/site-packages/IPython/extensions',
    '/home/nbuser/.ipython']
    

你有什么想法吗?

编辑2:

亲爱的@PeterPan,我已经输入了两个!conda update conda!conda update pandas:当检查 Pandas 版本(pandas.__version__)时,它仍然是0.19.2

我也尝试过!conda update pandas -y -f,它返回:`Fetching package metadata .........解决包规范:。

环境/home/nbuser/anaconda3_23安装包方案:

将安装以下新软件包:

pandas: 0.19.2-np111py34_1`

打字时: !pip install --upgrade pandas

我得到:

Requirement already up-to-date: pandas in /home/nbuser/anaconda3_23/lib/python3.4/site-packages Requirement already up-to-date: pytz>=2011k in /home/nbuser/anaconda3_23/lib/python3.4/site-packages (from pandas) Requirement already up-to-date: numpy>=1.9.0 in /home/nbuser/anaconda3_23/lib/python3.4/site-packages (from pandas) Requirement already up-to-date: python-dateutil>=2 in /home/nbuser/anaconda3_23/lib/python3.4/site-packages (from pandas) Requirement already up-to-date: six>=1.5 in /home/nbuser/anaconda3_23/lib/python3.4/site-packages (from python-dateutil>=2->pandas)

最后,输入时:

!pip install --upgrade pandas==0.24.0

我得到:

Collecting pandas==0.24.0 Could not find a version that satisfies the requirement pandas==0.24.0 (from versions: 0.1, 0.2b0, 0.2b1, 0.2, 0.3.0b0, 0.3.0b2, 0.3.0, 0.4.0, 0.4.1, 0.4.2, 0.4.3, 0.5.0, 0.6.0, 0.6.1, 0.7.0rc1, 0.7.0, 0.7.1, 0.7.2, 0.7.3, 0.8.0rc1, 0.8.0rc2, 0.8.0, 0.8.1, 0.9.0, 0.9.1, 0.10.0, 0.10.1, 0.11.0, 0.12.0, 0.13.0, 0.13.1, 0.14.0, 0.14.1, 0.15.0, 0.15.1, 0.15.2, 0.16.0, 0.16.1, 0.16.2, 0.17.0, 0.17.1, 0.18.0, 0.18.1, 0.19.0rc1, 0.19.0, 0.19.1, 0.19.2, 0.20.0rc1, 0.20.0, 0.20.1, 0.20.2, 0.20.3, 0.21.0rc1, 0.21.0, 0.21.1, 0.22.0) No matching distribution found for pandas==0.24.0

因此,我的猜测是问题出在 Azure 中管理包的方式上。更新一个包(这里是 Pandas),应该会导致更新到可用的最新版本,不是吗?

4

1 回答 1

1

我试图在我的 Azure Jupyter Notebook 上重现您的问题,但失败了。!pip install --upgrade pip如果不执行您的两个步骤,对我来说没有任何问题,!pip install -I Cython==0.28.5我认为这无关紧要。

请运行下面的一些代码来检查您的导入包pandas是否正确。

  1. 运行print(pandas.__dict__)检查输出中是否有read_parquet函数的描述。
  2. 运行print(pandas.__file__)以检查您是否导入了不同的pandas包。
  3. 运行import sys; print(sys.path)检查路径的顺序,这些路径下是否有相同的命名文件或目录。

如果有相同的文件或目录名为pandas,您只需将其重命名并重新启动ipynb即可重新运行。这是一个常见问题,您可以参考这些 SO 线程AttributeError: 'module' object has no attribute 'reader' and Importing installed package from script raises "AttributeError: module has no attribute" 或 "ImportError: cannot import name"

在其他情况下,请更新您的帖子以获取更多详细信息,让我知道。


最新pandas版本应该是0.23.4,不是0.24.0

我试图通过在不同版本的文档中搜索功能名称来找出支持该功能的最早pandas版本。然后,我发现版本之后的支持功能,如下所示。read_parquetread_parquet0.19.20.23.3pandasread_parquet0.21.1

在此处输入图像描述

What's Newof 版本中显示的新功能0.21.1 在此处输入图像描述

根据您的EDIT 2描述,您似乎在 Azure Jupyter Notebook 中使用 Python 3.4。并非所有pandas版本都支持 Python 3.4 版本。

版本0.21.1&0.22.0正式支持 Python 2.7、3.5 和 3.6,如下所示。 在此处输入图像描述

PyPI 页面pandas也需要 Python 版本,如下所示。

在此处输入图像描述

因此,您可以尝试在 Python 3.4 的当前笔记本中安装pandas版本0.21.1& 0.22.0。如果失败,请在 Python 中创建一个新的笔记本2.7>=3.5安装pandas版本>= 0.21.1以使用该功能read_parquet

于 2018-12-25T09:31:15.287 回答