问题标签 [apache-arrow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - 将指向 shared_ptr 的指针传递给函数的原因是什么?
我正在查看 Apache 的 Arrow 库的 C++ API,并注意到它到处都是接受 type 参数的成员函数std::shared_ptr<T>*
。对我来说,这看起来是不必要的做作,而且可能很脆弱,坦率地说,一个库会规定我如何选择解决我的类实例的所有权,这对我来说很奇怪。因此我的结论是,这种方法一定有一些我不知道的优点,这激发了我的好奇心。
将指向智能指针的指针作为参数的函数有哪些优点?
Herb Sutter 在他关于智能指针参数的文章中没有提到这个选项。
python - 使用 apache 箭头分组数据帧数据
'make_data' 函数将生成适合我定义的模式的数据,但是当我在模式中添加 list(map()) 结构字段时。它给了我一个如下所示的错误。那真的不支持架构结构吗?
有什么方法可以获取我可以处理的 list(map()) 结构数据吗?
NotImplementedError:使用分组映射 Pandas UDF 的 returnType 无效:StructType(List(StructField(title,StringType,false),StructField(stringdataA,StringType,false),StructField(list,ArrayType(StructType(List(StructField(A,IntegerType,false) ,StructField(B,StringType,false),StructField(C,TimestampType,false))),true),true),StructField(stringdataB,StringType,false))) 不支持
pandas - 将镶木地板数据转换为熊猫数据框时的数据类型问题
将镶木地板文件转换为数据框时,我遇到了文件类型问题。
我愿意
当我这样做时read_pq
,我得到
当我这样做时df = read_pd.to_pandas(); df.dtypes
,我得到
原始数据都是整数。当我对 pandas 数据框中的对象进行操作时,操作非常缓慢。
- 如何将 parquet 列转换为在 pandas 中读取为 int 或 float 的格式?
- 还是最好像上面那样对熊猫数据框进行操作并使用
pd.to_numeric
或类似? - 还是原始数据格式有问题
decimal(9, 0)
?
还是最好直接在熊猫数据框上进行转换?
我试过:read_pq.column('_COL_0').cast('int32')
抛出一个错误
bigdata - 对箭头表执行转换
您可以对 Arrow 表应用哪些类型的转换?
它的主要用途(目前)是语言的交换格式吗?
python - 箭头文件大小与 csv 相同?
我正在尝试将数据框保存为 .arrow 格式,主要是为了获得比 CSV 更好的大小,以便将该文件用于 vega-lite
我正在使用蟒蛇
我期待箭头文件小于 csv,现在箭头稍大
我尝试使用镶木地板导出,结果符合预期
原始 csv:4.4 MB 箭头:4.9 MB parquet:1.6 MB PowerBI(仅供参考):1.7 MB
java - Apache箭头可以支持无限级嵌套结构吗?
在这个 Apache 箭头文档页面https://arrow.apache.org/docs/format/Metadata.html 似乎支持它。有人会发布一些代码来显示无限级别的嵌套结构吗?谢谢。
c++ - 尝试编译简单的测试程序时 CMake 失败
我正在尝试按照文档进行本地构建pyarrow
。具体来说,使用conda
说明:
该cmake
指令失败并显示以下错误消息:
特别是,违规行似乎是:
我在 macOS Mojave 10.14.4 上,并且已经安装了 Xcode 10.2.1(通过Apple Developer 下载列表)。我跑的时候xcode-select -p
就出来了/Applications/Xcode.app/Contents/Developer
。
搜索此错误消息将我带到此 GH 评论,它指向此 SO 答案。我按照该答案中的说明进行操作,特别是运行sudo xcode-select -s /Applications/Xcode.app/Contents/Developer
,但它没有解决问题。
的内容libSystem.tbd
是:
我做错了什么,如何修复我的环境以便我可以正确构建 CMake?
go - 如何构建具有布尔字段结构的golang apache箭头记录
当我构建具有结构的箭头记录并且该结构具有类型为的字段时arrow.FixedWidthTypes.Boolean
,它稍后会在尝试访问布尔值时出现以下错误:
以下代码成功读取了字符串值,但没有读取布尔值:
cmake - 配置不完整,出现错误
我得到“配置不完整,发生错误!” 在运行 cmake 构建 Apache 箭头时。(在 Ubuntu 16.04.6 LTS 上运行)
我正在使用带有以下标志的 cmake 版本 3.5.2:
cmake ../arrow/cpp/ -DARROW_PARQUET=ON -DARROW_OPTIONAL_INSTALL=OFF -DARROW_BUILD_TESTS=ON -DCMAKE_BUILD_TYPE=调试 -DPARQUET_BUILD_EXAMPLES=ON -G "Eclipse CDT4 - Unix Makefiles" -DCMAKE_ECLIPSE_GENERATE_SOURCE_PROJECT=TRUE -DARG_EXTRA_LINK_LIBS="lsl" -DBoost_NO_BOOST_CMAKE=TRUE -DCMAKE_LIBRARY_PATH=... -DBoost_INCLUDE_DIR=... -DBOOST_ROOT=... -DINSTALL_C_EXAMPLES=OFF
CMakeError.log包含不应导致失败的错误,例如:
这是打印到屏幕上的最后几行:
-- CMAKE_C_FLAGS: -ggdb -O0 -Wall -Wconversion -Wno-sign-conversion -Werror -msse4.2
-- CMAKE_CXX_FLAGS: -ggdb -O0 -Wall -Wconversion -Wno-sign-conversion -Werror -msse4.2
-- 寻找回溯
-- 寻找回溯 - 找到
-- 在默认库集中检测到回溯工具
-- 找到回溯:/usr/include
-- 配置不完整,出现错误!
另请参阅“build/CMakeFiles/CMakeOutput.log”。
另请参阅“build/CMakeFiles/CMakeError.log”。
javascript - 如何在 javascript 中创建 ORC(或 parquet)文件?
在服务器端 javascript 模块中,我需要将数据写入 ORC 文件,但找不到有关如何执行此操作的任何线索。理想情况下,我的模块也应该能够写入 parquet 文件。对于 ORC 案例,我也会对如何在 python 中做到这一点感兴趣。
对于镶木地板的情况,我已经看到这是通过使用Apache-Arrow 的 pyarrow 库在 python 中完成的。Apache Arrow 文档声称支持 ORC 和 parquet 文件格式。还有一个Apache Arrow 节点模块,但在他们的API 参考中,我在 ORC 或 parquet 上找不到任何东西。
在这里,我找到了对parquetjs和node-parquet节点模块的引用,但对 ORC 没有。另外,如果可能的话,我更喜欢使用 Apache Arrow。
有人对我有任何指示吗?