问题标签 [apache-arrow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何读取和更新 python Plasma 中的对象?
我刚刚发现了plasma https://arrow.apache.org/docs/python/plasma.html#putting-and-getting-python-objects 并且想存储一个对象,获取它,更新并写回商店。可能吗?我失败的试验现在看起来如下:
apache-spark - AWS EMR - ModuleNotFoundError:没有名为“pyarrow”的模块
我在使用 Apache Arrow Spark 集成时遇到了这个问题。
使用带有 Spark 2.4.3 的 AWS EMR
在本地 spark 单机实例和 Cloudera 集群上测试了这个问题,一切正常。
在 spark-env.sh 中设置这些
在火花壳中证实了这一点
使用 apache 箭头集成运行基本 pandas_udf 会导致错误
aws emr 上的错误 [在 cloudera 和本地机器上没有错误]
有人知道发生了什么吗?一些可能的想法...
PYTHONPATH 是否会因为我没有使用而导致问题anaconda
?
它与 Spark 版本和 Arrow 版本有关吗?
这是最奇怪的事情,因为我在所有 3 个平台 [本地桌面、cloudera、emr] 中使用相同的版本,只有 EMR 无法正常工作......
我登录了所有 4 个 EMR EC2 数据节点并测试了我可以导入pyarrow
并且它工作得很好,但在尝试使用它时却不行spark
pyspark - 当 PySpark 将 Hive 表读取到 pandas 时,Apache Arrow OutOfMemoryException
我搜索了这种错误,但找不到任何有关如何解决它的信息。这是我执行以下两个脚本时得到的结果:
写.py
读取.py
python - 如何使用 PyArrow 的 `read_csv` 读取带有客户分隔符且没有标题的 CSV?
我有一个看起来像的文件
那么如何指定明确的列名呢?在文档中找不到。
feather - 如何压缩和解压缩 Arrow 或 Feather 文件?
我计划将数据文件格式从镶木地板更改为羽毛。Parquet 有压缩选项(lz4 等),我已经使用过它们。但我在羽毛或箭头文件中找不到它们。不支持压缩吗?
c# - 在 C# 中使用 ParquetSharp 库进行基于行的访问,该库基于 apache-parquet-cpp(箭头)
有谁知道如何ParquetSharp
执行对镶木地板文件的基于行的读取访问?这是我必须去的地方,但inputStream
抛出了一个无法转换为字符串的错误。
也ParquetSharp
使用TTuple
,但我在任何地方都找不到它的任何定义。
我知道镶木地板是基于列的,所以这不是最有效的阅读方法,但它对我的工作很方便。
问候
python - Spark Arrow、toPandas() 和宽变换
使用箭头优化时,toPandas() 实际上做了什么?
生成的 pandas 数据帧对于 pandas 数据帧上的广泛转换(需要数据混洗)是否安全,例如。.merge
操作?组和聚合呢?我应该期待什么样的性能限制?
我试图在可能的情况下标准化为 Pandas 数据帧,因为易于单元测试和与内存对象的可交换性,而无需启动可怕的 spark 实例。
python - python - 在python中的PyArrow和C ++中的Arrow之间进行接口时如何将PyArrow表转换为Arrow表
我有一个 C++ 库,它是针对 Apache Arrow C++ 库构建的,并使用 Pybind 绑定到 python。我希望能够在 C++ 中编写一个函数来获取一个用 PyArrow 构建的表,例如:
传入 PyArrow 表,如:
如果我像上面那样做一个简单的函数,我会得到:
我还尝试编写一个需要 a 的函数,py::object
但.cast<arrow::Table>()
我无法进行强制转换:
有谁知道如何让它工作?
python - 逐行构造pyarrow表的最快方法
我有一个大字典,我想遍历它来构建一个 pyarrow 表。字典的值是不同类型的元组,需要解包并存储在最终 pyarrow 表中的单独列中。我确实提前知道架构。键也需要存储为列。我在下面有一种方法可以逐行构造表格 - 还有另一种更快的方法吗?对于上下文,我想将一个大字典解析为一个 pyarrow 表以写出一个镶木地板文件。RAM 使用比 CPU 时间更重要。我不想下拉到箭头 C++ API。