问题标签 [apache-arrow]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

332 问题

0 投票

0 回答

261 浏览

python - 如何读取和更新 python Plasma 中的对象？

我刚刚发现了plasma https://arrow.apache.org/docs/python/plasma.html#putting-and-getting-python-objects 并且想存储一个对象，获取它，更新并写回商店。可能吗？我失败的试验现在看起来如下：

2019-08-01T14:52:16.643

0 投票

2 回答

4554 浏览

apache-spark - AWS EMR - ModuleNotFoundError：没有名为“pyarrow”的模块

我在使用 Apache Arrow Spark 集成时遇到了这个问题。

使用带有 Spark 2.4.3 的 AWS EMR

在本地 spark 单机实例和 Cloudera 集群上测试了这个问题，一切正常。

在 spark-env.sh 中设置这些

在火花壳中证实了这一点

使用 apache 箭头集成运行基本 pandas_udf 会导致错误

aws emr 上的错误 [在 cloudera 和本地机器上没有错误]

有人知道发生了什么吗？一些可能的想法...

PYTHONPATH 是否会因为我没有使用而导致问题anaconda？

它与 Spark 版本和 Arrow 版本有关吗？

这是最奇怪的事情，因为我在所有 3 个平台 [本地桌面、cloudera、emr] 中使用相同的版本，只有 EMR 无法正常工作......

我登录了所有 4 个 EMR EC2 数据节点并测试了我可以导入pyarrow并且它工作得很好，但在尝试使用它时却不行spark

apache-spark pyspark amazon-emr pyarrow apache-arrow

2019-08-01T18:28:57.947

0 投票

1 回答

125 浏览

r - 带有 apache 箭头的 Sparklyr R 失败，意外终止：找不到对象“as_tibble”

我正在尝试使用带箭头的 sparklyr来提高性能，例如此处所示，但是遇到了错误。

这是一个（希望）可重现的示例：

使用不带箭头的 sparklyr 效果很好：

但是，将箭头添加到混合中并运行相同会产生错误：

错误消息似乎没有太大帮助，但查看工作日志我看到：

错误 sparklyr：RScript (6891) 意外终止：找不到对象“as_tibble”

pyspark - 当 PySpark 将 Hive 表读取到 pandas 时，Apache Arrow OutOfMemoryException

我搜索了这种错误，但找不到任何有关如何解决它的信息。这是我执行以下两个脚本时得到的结果：

写.py

读取.py

pyspark out-of-memory pyspark-sql pyarrow apache-arrow

2019-08-20T14:41:19.697

0 投票

2 回答

2894 浏览

python - 如何使用 PyArrow 的 `read_csv` 读取带有客户分隔符且没有标题的 CSV？

我有一个看起来像的文件

那么如何指定明确的列名呢？在文档中找不到。

python csv pyarrow apache-arrow

2019-08-24T08:10:24.857

0 投票

1 回答

613 浏览

feather - 如何压缩和解压缩 Arrow 或 Feather 文件？

我计划将数据文件格式从镶木地板更改为羽毛。Parquet 有压缩选项（lz4 等），我已经使用过它们。但我在羽毛或箭头文件中找不到它们。不支持压缩吗？

feather apache-arrow

2019-08-28T05:00:30.133

0 投票

1 回答

797 浏览

c# - 在 C# 中使用 ParquetSharp 库进行基于行的访问，该库基于 apache-parquet-cpp（箭头）

有谁知道如何ParquetSharp执行对镶木地板文件的基于行的读取访问？这是我必须去的地方，但inputStream抛出了一个无法转换为字符串的错误。

也ParquetSharp使用TTuple，但我在任何地方都找不到它的任何定义。

我知道镶木地板是基于列的，所以这不是最有效的阅读方法，但它对我的工作很方便。

问候

c#parquet apache-arrow

2019-08-28T17:10:02.133

0 投票

1 回答

260 浏览

python - Spark Arrow、toPandas() 和宽变换

使用箭头优化时，toPandas() 实际上做了什么？

生成的 pandas 数据帧对于 pandas 数据帧上的广泛转换（需要数据混洗）是否安全，例如。.merge操作？组和聚合呢？我应该期待什么样的性能限制？

我试图在可能的情况下标准化为 Pandas 数据帧，因为易于单元测试和与内存对象的可交换性，而无需启动可怕的 spark 实例。

python pandas apache-spark apache-arrow

2019-08-29T16:15:25.263

0 投票

1 回答

853 浏览

python - python - 在python中的PyArrow和C ++中的Arrow之间进行接口时如何将PyArrow表转换为Arrow表

我有一个 C++ 库，它是针对 Apache Arrow C++ 库构建的，并使用 Pybind 绑定到 python。我希望能够在 C++ 中编写一个函数来获取一个用 PyArrow 构建的表，例如：

传入 PyArrow 表，如：

如果我像上面那样做一个简单的函数，我会得到：

我还尝试编写一个需要 a 的函数，py::object但.cast<arrow::Table>()我无法进行强制转换：

有谁知道如何让它工作？

python c++pybind11 pyarrow apache-arrow

2019-09-10T03:41:28.097

0 投票

2 回答

6397 浏览

python - 逐行构造pyarrow表的最快方法

我有一个大字典，我想遍历它来构建一个 pyarrow 表。字典的值是不同类型的元组，需要解包并存储在最终 pyarrow 表中的单独列中。我确实提前知道架构。键也需要存储为列。我在下面有一种方法可以逐行构造表格 - 还有另一种更快的方法吗？对于上下文，我想将一个大字典解析为一个 pyarrow 表以写出一个镶木地板文件。RAM 使用比 CPU 时间更重要。我不想下拉到箭头 C++ API。

python pyarrow apache-arrow

2019-09-14T20:37:14.310

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-arrow]

在 spark-env.sh 中设置这些

在火花壳中证实了这一点

使用 apache 箭头集成运行基本 pandas_udf 会导致错误

aws emr 上的错误 [在 cloudera 和本地机器上没有错误]

Reference