问题标签 [apache-arrow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
268 浏览

c++ - 将指向 shared_ptr 的指针传递给函数的原因是什么?

我正在查看 Apache 的 Arrow 库的 C++ API,并注意到它到处都是接受 type 参数的成员函数std::shared_ptr<T>*。对我来说,这看起来是不必要的做作,而且可能很脆弱,坦率地说,一个库会规定我如何选择解决我的类实例的所有权,这对我来说很奇怪。因此我的结论是,这种方法一定有一些我不知道的优点,这激发了我的好奇心。

将指向智能指针的指针作为参数的函数有哪些优点?

Herb Sutter 在他关于智能指针参数的文章中没有提到这个选项。

0 投票
2 回答
739 浏览

python - 使用 apache 箭头分组数据帧数据

'make_data' 函数将生成适合我定义的模式的数据,但是当我在模式中添加 list(map()) 结构字段时。它给了我一个如下所示的错误。那真的不支持架构结构吗?

有什么方法可以获取我可以处理的 list(map()) 结构数据吗?

NotImplementedError:使用分组映射 Pandas UDF 的 returnType 无效:StructType(List(StructField(title,StringType,false),StructField(stringdataA,StringType,false),StructField(list,ArrayType(StructType(List(StructField(A,IntegerType,false) ,StructField(B,StringType,false),StructField(C,TimestampType,false))),true),true),StructField(stringdataB,StringType,false))) 不支持

0 投票
1 回答
904 浏览

pandas - 将镶木地板数据转换为熊猫数据框时的数据类型问题

将镶木地板文件转换为数据框时,我遇到了文件类型问题。

我愿意

当我这样做时read_pq,我得到

当我这样做时df = read_pd.to_pandas(); df.dtypes,我得到

原始数据都是整数。当我对 pandas 数据框中的对象进行操作时,操作非常缓慢。

  • 如何将 parquet 列转换为在 pandas 中读取为 int 或 float 的格式?
  • 还是最好像上面那样对熊猫数据框进行操作并使用pd.to_numeric或类似?
  • 还是原始数据格式有问题decimal(9, 0)

还是最好直接在熊猫数据框上进行转换?

我试过:read_pq.column('_COL_0').cast('int32')抛出一个错误

0 投票
1 回答
80 浏览

bigdata - 对箭头表执行转换

您可以对 Arrow 表应用哪些类型的转换?

它的主要用途(目前)是语言的交换格式吗?

0 投票
1 回答
1087 浏览

python - 箭头文件大小与 csv 相同?

我正在尝试将数据框保存为 .arrow 格式,主要是为了获得比 CSV 更好的大小,以便将该文件用于 vega-lite

我正在使用蟒蛇

我期待箭头文件小于 csv,现在箭头稍大

我尝试使用镶木地板导出,结果符合预期

原始 csv:4.4 MB 箭头:4.9 MB parquet:1.6 MB PowerBI(仅供参考):1.7 MB

0 投票
1 回答
335 浏览

java - Apache箭头可以支持无限级嵌套结构吗?

在这个 Apache 箭头文档页面https://arrow.apache.org/docs/format/Metadata.html 似乎支持它。有人会发布一些代码来显示无限级别的嵌套结构吗?谢谢。

0 投票
1 回答
2207 浏览

c++ - 尝试编译简单的测试程序时 CMake 失败

我正在尝试按照文档进行本地构建pyarrow。具体来说,使用conda说明:

cmake指令失败并显示以下错误消息:

特别是,违规行似乎是:

我在 macOS Mojave 10.14.4 上,并且已经安装了 Xcode 10.2.1(通过Apple Developer 下载列表)。我跑的时候xcode-select -p就出来了/Applications/Xcode.app/Contents/Developer

搜索此错误消息将我带到此 GH 评论,它指向此 SO 答案。我按照该答案中的说明进行操作,特别是运行sudo xcode-select -s /Applications/Xcode.app/Contents/Developer,但它没有解决问题。

的内容libSystem.tbd是:

我做错了什么,如何修复我的环境以便我可以正确构建 CMake?

0 投票
0 回答
310 浏览

go - 如何构建具有布尔字段结构的golang apache箭头记录

当我构建具有结构的箭头记录并且该结构具有类型为的字段时arrow.FixedWidthTypes.Boolean,它稍后会在尝试访问布尔值时出现以下错误:

以下代码成功读取了字符串值,但没有读取布尔值:

0 投票
0 回答
2385 浏览

cmake - 配置不完整,出现错误

我得到“配置不完整,发生错误!” 在运行 cmake 构建 Apache 箭头时。(在 Ubuntu 16.04.6 LTS 上运行)

我正在使用带有以下标志的 cmake 版本 3.5.2:

cmake ../arrow/cpp/ -DARROW_PARQUET=ON -DARROW_OPTIONAL_INSTALL=OFF -DARROW_BUILD_TESTS=ON -DCMAKE_BUILD_TYPE=调试 -DPARQUET_BUILD_EXAMPLES=ON -G "Eclipse CDT4 - Unix Makefiles" -DCMAKE_ECLIPSE_GENERATE_SOURCE_PROJECT=TRUE -DARG_EXTRA_LINK_LIBS="lsl" -DBoost_NO_BOOST_CMAKE=TRUE -DCMAKE_LIBRARY_PATH=... -DBoost_INCLUDE_DIR=... -DBOOST_ROOT=... -DINSTALL_C_EXAMPLES=OFF

CMakeError.log包含不应导致失败的错误,例如:

这是打印到屏幕上的最后几行:

-- CMAKE_C_FLAGS: -ggdb -O0 -Wall -Wconversion -Wno-sign-conversion -Werror -msse4.2

-- CMAKE_CXX_FLAGS: -ggdb -O0 -Wall -Wconversion -Wno-sign-conversion -Werror -msse4.2

-- 寻找回溯

-- 寻找回溯 - 找到

-- 在默认库集中检测到回溯工具

-- 找到回溯:/usr/include

-- 配置不完整,出现错误!

另请参阅“build/CMakeFiles/CMakeOutput.log”。

另请参阅“build/CMakeFiles/CMakeError.log”。

0 投票
1 回答
1957 浏览

javascript - 如何在 javascript 中创建 ORC(或 parquet)文件?

在服务器端 javascript 模块中,我需要将数据写入 ORC 文件,但找不到有关如何执行此操作的任何线索。理想情况下,我的模块也应该能够写入 parquet 文件。对于 ORC 案例,我也会对如何在 python 中做到这一点感兴趣。

对于镶木地板的情况,我已经看到这是通过使用Apache-Arrow 的 pyarrow 库在 python 中完成的。Apache Arrow 文档声称支持 ORC 和 parquet 文件格式。还有一个Apache Arrow 节点模块,但在他们的API 参考中,我在 ORC 或 parquet 上找不到任何东西。

在这里,我找到了对parquetjsnode-parquet节点模块的引用,但对 ORC 没有。另外,如果可能的话,我更喜欢使用 Apache Arrow。

有人对我有任何指示吗?