问题标签 [py-datatable]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 R/Python 中分析巨大的 csv 文件并根据文件的分布采样 X%?
我有一个大的 csv 文件(6 GB),我想对其中的 20% 进行采样。
这 20% 应该与大原始文件具有相同的分布。
以 Kaggles 数据为例: https ://www.kaggle.com/c/avazu-ctr-prediction/data
我考虑过块,但我怎样才能让分布相同?
试过 read_csv,fread 但没有运气。
请告知我该怎么做?我的笔记本电脑无法处理 6GB 的 csv 文件。
python - python data.table windows 构建
有没有人成功让 h2o pythondatatable
包安装在 Windows 上?它需要 clang/llvm ( https://github.com/h2oai/datatable/wiki/Build-instructions ),当我尝试时,Windows 的预构建二进制文件显然不足。因此,它似乎需要从源代码构建完整的 clang/llvm/llvmlite 才能开始工作。如果有人运气好,我很乐意看到详细的构建过程。
python - 使用python数据表按组排列前N行
在python数据表中按组查询前 N 行的正确方法是什么?
例如,要按组获取具有最大值v3
的前 2 行,id2, id4
我将按以下方式执行 pandas 表达式:
在 R 中使用data.table
:
或在 R 中使用dplyr
:
使用 pandas 的示例数据和预期输出:
python - 正则表达式的 Python data.table 行过滤器
相当于 %like% 的 python 的 data.table 是什么?
简短的例子:
我曾期望这样的事情会起作用:
但它返回“预期的字符串或类似字节的对象”。我很想开始在 Python 中使用新的 data.tables 包,就像在 R 中使用它一样,但我更多地使用文本数据而不是数字数据。
提前致谢。
python - 有没有办法在不等待用户输入的情况下打印 python 数据表
我正在打印一个 python 数据表框架。当我这样做时它会分页,它在最后等待我的输入,即使是非常小的帧。例如,
如您所见,此处无需导航框架。有没有办法停止对所有 python 数据表框架执行此操作?
谢谢!
python - 如何将 seaborn 库与 pydatatable 一起使用?
我已经开始将 pydatatable 用于我的一个数据分析项目,在这里我在使用 seaborn 库制作 pydatatable 对象图表时遇到了一些问题。
pydatatable 在当前版本 0.8 中是否支持 seaborn 可视化?
我试图用图表来可视化一列:直方图、箱线图等。如下面的示例代码所示
在上面的代码块上运行时,它应该显示所提供列的箱线图,但在这里它给出了一个错误
AttributeError:“框架”对象没有属性“获取”
您能否在这里写信给我如何解决这个问题,您是否曾经尝试过将这两个软件包一起使用?
python - Is there a way of performing arithmetic operations on entire Frame in Python datatable?
This question is about the recent h2o datatable package. I want to replace pandas code with this library to enhance performance.
The question is simple: I need to divide/sum/multiply/substract an entire Frame or various selected columns by a number.
In pandas, to divide all the columns excluding the first by 3, one could write:
In the datatable package, one can do this just for one selected column:
By now, in Python 3.6 (I don't know about the 3.7 version), the FrameProxy f doesn't admit slices. I'm just asking if there's a better way to perform this kind of Frame arithmetic operations than a loop, I haven't found it on the Documentation.
EDIT:
Latest commit #1962 has added a feature related to this question. If I'm able to run the latest source version, I'll add myself an answer including that new feature.
python - 尝试安装 python 数据表时出现 C++ 编译器错误
我正在尝试使用如下所示的“pip”为 python 安装“数据表”,但出现错误。
显示的错误是:
我什至重新安装了 VC++ Compiler for Python 并更新了:
python - jay 文件格式是否特定于 Python 数据表?
我找不到有关此处jay
提到的文件格式的信息。
它是仅数据表格式吗?