我有一个获取数据的脚本,并将数据存储在 Pandas 数据框中。
我做了 3 个数据聚合,MEAN/STDEV/MAX,每一个都被转换为一个箭头表并作为 parquet 文件保存在磁盘上。
我使用 pyarrow 将 Pandas 框架转换为箭头表。(我无法创建 pyarrow 标签,因为我显然需要更多点)
此代码适用于 100-500 条记录,但对于更大的容量会出错。我也知道这段代码有效,因为另一个开发人员在镜像机器上使用相同的代码(就硬件而言)并且它有效。我要保存的数据集的顺序是数百万。
代码错误出@ line pq.write_table(arrowTable, filePath)。
这是代码:
arrowTable = pa.Table.from_pandas(self.grpByMeanDS2)
begintime = datetime.now()
begintime_str = begintime.strftime("%Y%m%d%I%M%S")
filePath = SaveFileLoc + "\\Raw\\" + agg + "Data" + begintime_str + ".parq"
print('Begin Saving File')
pq.write_table(arrowTable, filePath)
print('Done Saving File')
print('Appending FilePath to List')
self.listspDF.append(filePath)
print('Done Appending FilePath to List')
Python 崩溃并抛出“python 必须关闭错误”。
以下是详细错误:
问题事件名称:APPCRASH 应用程序名称:python.exe 应用程序版本:3.5.2150.1013 应用程序时间戳:577be340 故障模块名称:parquet.dll 故障模块版本:0.0.0.0 故障模块时间戳:59403662 异常代码:c0000005 异常偏移量:000000000005f990 操作系统版本:6.3.9600.2.0.0.400.8 区域设置 ID:1033
在线阅读我们的隐私声明:http: //go.microsoft.com/fwlink/ ?linkid=280262
如果在线隐私声明不可用,请离线阅读我们的隐私声明:C:\Windows\system32\en-US\erofflps.txt
我曾尝试更新 Python 和 pyarrow,但没有成功。
以下是python的版本:
import sys
print (sys.version)
3.5.2 |Anaconda custom (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)]
以下是 pip freeze 的结果:
alabaster==0.7.9
anaconda-clean==1.0
anaconda-client==1.5.1
anaconda-navigator==1.3.1
argcomplete==1.0.0
astroid==1.4.7
astropy==2.0
Babel==2.3.4
backports.shutil-get-terminal-size==1.0.0
beautifulsoup4==4.5.1
bitarray==0.8.1
blaze==0.10.1
bokeh==0.12.2
boto==2.42.0
Bottleneck==1.2.1
cffi==1.7.0
chest==0.2.3
click==6.6
cloudpickle==0.2.1
clyent==1.2.2
colorama==0.3.7
comtypes==1.1.2
conda==4.3.22
conda-build==2.0.2
configobj==5.0.6
contextlib2==0.5.3
cryptography==1.5
cycler==0.10.0
Cython==0.24.1
cytoolz==0.8.0
dask==0.11.0
datashape==0.5.2
decorator==4.0.10
dill==0.2.5
docutils==0.12
dynd===c328ab7
et-xmlfile==1.0.1
fastcache==1.0.2
filelock==2.0.6
Flask==0.11.1
Flask-Cors==2.1.2
gevent==1.1.2
greenlet==0.4.10
h5py==2.7.0
HeapDict==1.0.0
idna==2.1
imageio==2.2.0
imagesize==0.7.1
ipykernel==4.5.0
ipython==5.1.0
ipython-genutils==0.1.0
ipywidgets==5.2.2
itsdangerous==0.24
jdcal==1.2
jedi==0.9.0
Jinja2==2.8
jsonschema==2.5.1
jupyter==1.0.0
jupyter-client==4.4.0
jupyter-console==5.0.0
jupyter-core==4.2.0
lazy-object-proxy==1.2.1
llvmlite==0.19.0
locket==0.2.0
lxml==3.6.4
MarkupSafe==0.23
matplotlib==2.0.2
menuinst==1.4.1
mistune==0.7.3
mpmath==0.19
multipledispatch==0.4.8
nb-anacondacloud==1.2.0
nb-conda==2.0.0
nb-conda-kernels==2.0.0
nbconvert==4.2.0
nbformat==4.1.0
nbpresent==3.0.2
networkx==1.11
nltk==3.2.1
nose==1.3.7
notebook==4.2.3
numba==0.34.0
numexpr==2.6.2
numpy==1.13.1
odo==0.5.0
openpyxl==2.3.2
pandas==0.20.2
partd==0.3.6
path.py==0.0.0
pathlib2==2.1.0
patsy==0.4.1
pep8==1.7.0
pickleshare==0.7.4
Pillow==3.3.1
pkginfo==1.3.2
ply==3.9
prompt-toolkit==1.0.3
psutil==4.3.1
py==1.4.31
py4j==0.10.4
pyarrow==0.4.1
pyasn1==0.1.9
pycosat==0.6.1
pycparser==2.14
pycrypto==2.6.1
pycurl==7.43.0
pyflakes==1.3.0
Pygments==2.1.3
pyidealdata==0.7.0
pylint==1.5.4
pyodbc==4.0.17
pyOpenSSL==16.2.0
pyparsing==2.1.4
pyspark==2.1.0+hadoop2.7
pytest==2.9.2
python-dateutil==2.5.3
pytz==2016.6.1
PyUber==1.4.4
PyWavelets==0.5.2
pywin32==220
PyYAML==3.12
pyzmq==15.4.0
QtAwesome==0.3.3
qtconsole==4.2.1
QtPy==1.1.2
requests==2.14.2
rope-py3k==0.9.4.post1
ruamel-yaml===-VERSION
scikit-image==0.13.0
scikit-learn==0.18.2
scipy==0.19.1
simplegeneric==0.8.1
singledispatch==3.4.0.3
six==1.10.0
snowballstemmer==1.2.1
sockjs-tornado==1.0.3
sphinx==1.4.6
spyder==3.0.0
SQLAlchemy==1.0.13
statsmodels==0.8.0
sympy==1.0
tables==3.2.2
toolz==0.8.0
tornado==4.4.1
traitlets==4.3.0
unicodecsv==0.14.1
wcwidth==0.1.7
Werkzeug==0.11.11
widgetsnbextension==1.2.6
win-unicode-console==0.5
wrapt==1.10.6
xlrd==1.0.0
XlsxWriter==0.9.3
xlwings==0.10.0
xlwt==1.1.2
我想知道是否有人可以阐明为什么 pyarrow 不能在某台机器上工作?
谢谢,阿杜