问题标签 [apache-arrow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pyarrow - 在哪里可以找到使用 Apache Arrow 的 IPC 示例?
我是 Apache Arrow 的新手,想在 IPC 设置(java 或 python)上运行一些测试。我应该查看任何其他 Arrow 资源吗?
r - R:在 Ubuntu 18.04 上带有安装箭头的箭头
我尝试使用 {arrow} 安装,install.packages("arrow")
但出现以下错误
我正在使用 R 3.6.1
pandas - 在 C++ 中读取 Arrow Feather 文件
我已经搜索了 Arrow 文档,但是对于如何将通过 pyarrow 生成的 Feather 文件读回 C++ 并没有很清楚。
这不是推荐的流程吗?看起来 Feather 正走向弃用 Parquet 的道路......
c++ - 通过 apache 箭头读取 csv 的官方示例的 Coredump?
我正在尝试根据官方https://arrow.apache.org/docs/cpp/csv.html#在 c++ 中通过 apache-arrow 编写一个读取 csv 的示例,但它遇到了分段错误status = reader->Read(&table);
任何人都可以帮忙吗?谢谢~
环境信息:
g++:7.3.1
制作命令:
c++ -g -std=c++11 -Wall -O2 test.cpp -o test -I../../arrow/src -L../../arrow/lib -larrow -lparquet -Wl,-rpath,./
代码信息:
核心转储信息:
csv 信息
r - 如何在 Docker 上安装 libparquet-dev 以便我可以使用 R 的 {arrow}?
我基于我的 docker 图像https://hub.docker.com/r/rocker/tidyverse/dockerfile
因此,我尝试将以下行添加到 docker 文件中以尝试安装libparquet-dev
使用 R 中的 Arrow 所需的内容。
RUN apt-get update -qq && apt-get -y --no-install-recommends install \
libparquet-dev
抱怨E: Unable to locate package libparquet-dev
,所以我尝试遵循本指南并添加了以下几行
这是现在抱怨
那么如何libparquet-dev
在 Docker 上安装呢?
编辑 将上述内容放入 .sh 文件中,然后运行它而不是将它们放入 RUN 命令中似乎有帮助,但我现在遇到另一个错误
python-3.x - Pyarrow 表从现有列创建列
有没有办法append_column
根据 pyarrow 表中当前存在的列创建列?我想pa.struct()
使用已经存在的列创建一个字段。寻找以下内容:
在此示例中col1
,col2
、 和col3
是 pyarrow 表中已存在的列。
谢谢!
apache-spark - 是否有 Spark Arrow Streaming = Arrow Streaming + Spark Structured Streaming?
目前我们有火花结构化流
在箭头文档中,我找到了箭头流,我们可以在其中使用 Python 创建流、生成数据并使用StreamReader
Java/Scala 使用流
我想知道这两者是否集成在一起,我们可以在其中做一些事情,比如在 Python 中生成箭头流并使用 spark 结构化流来获取流(以分布式方式)?
想象一个场景,想要构建一个易于使用的 Python api,但计算引擎是在 Java/Scala 上,使用 Kafka/Redis 无法解决跨语言的数据类型。但是使用箭头目前没有集群支持来访问数据
python - python ray - pyarrow.lib.ArrowInvalid:超过最大大小(2GB)
我正在尝试使用 ray 加载和处理大文件。
我使用 ray 的目的是对文件进行多处理并提高解决方案的速度。
我一直遇到这个 pyarrow 错误:pyarrow.lib.ArrowInvalid: Maximum size exceeded (2GB)
. 它似乎与等离子对象存储有关。
我尝试使用 huge_pages 并将其挂载到等离子存储中,在初始化时增加射线对象存储的大小。
任何帮助都会很棒。
amazon-s3 - 记录由 pyarrow 在 S3 上创建的 parquet 文件名
我们正在使用 pyarrow 将数据附加到存储在 S3(分区)中的现有 parquet 数据集。这每小时在 AWS lambda 上运行几次。一个最小的例子是:
结果,将根据内部数据值将许多 parquet 文件写入 S3。我们的目标是通过输出结果文件名(S3 密钥)来跟踪哪些文件已写入文件系统。
有什么方法可以捕获由pyarrow
or编写的实际文件名s3fs
?Parquet 文件名是根据计算的哈希名称任意命名的,我没有看到提到的两个包的任何日志记录功能。
memory - 试图了解 Apache Arrow 的内存存储是如何工作的
Apache Arrow 是一种内存序列化格式。Arrow 的一部分是Plasma,这是一种内存对象存储,旨在在同一台机器上的进程之间有效地共享数据。我想更好地了解这是什么。
我对这将如何工作的一阶近似是将 Arrow 序列化数据放入共享内存(在 IPC 意义上)并允许多个进程从中读取(但不写入)。这就是 Plasma 内存存储的全部内容吗?还是在幕后发生了更复杂的事情?
我的怀疑是 Plasma 仅有效地将进程所需的内存中 Arrow 数据结构的特定部分映射到所述进程的地址空间中。