问题标签 [blaze]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
323 浏览

python - Blaze with Scikit Learn K-Means

我正在尝试使 Blaze 数据对象适合 scikit kmeans 函数。

数据样本:

它的抛出错误:

在此处输入图像描述

我已经能够使用 Pandas Dataframe 做到这一点。有什么方法可以将 blaze 对象提供给这个函数?

0 投票
1 回答
335 浏览

dask - dask.bag 处理内存不足的数据

我正在尝试将 dask bag 用于 wordcount 30GB 的 json 文件,我严格按照官方网站的教程:http: //dask.pydata.org/en/latest/examples/bag-word-count-hdfs.html

但是还是不行,我的单机是32GB内存和8核CPU。

我在下面的代码,我曾经处理 10GB 文件甚至无法正常工作,错误运行了几个小时而没有任何通知 jupyter 已崩溃,我在 Ubuntu 和 Windows 上尝试过这两个系统都是同样的问题。所以我怀疑dask bag是否可以处理内存不足的数据?还是我的代码不正确?

来自http://files.pushshift.io/reddit/comments/的测试数据

0 投票
2 回答
5329 浏览

anaconda - 找不到共享库:libhdfs3.so

每个人。我尝试将 Dask 与 Distributed + HDFS 一起使用来处理一些文件。当我安装分布式尝试安装 HDFS3 插件时,错误是:

Can not find the shared library:libhdfs3.so

我的环境是 Ubuntu 16 桌面版。我严格按照bewlo,但仍然无法正常工作。希望有人能帮忙!非常感谢

0 投票
1 回答
704 浏览

pandas - 如何在 Python 中存储大的柱状文本+数字数据?

要在不构建柱状数据库的情况下保存在磁盘上,有:

只是想知道哪个在速度方面最有效?谢谢

0 投票
3 回答
686 浏览

python - 从 Blaze 调用 SQL 函数

特别是我想调用 Postgreslevenshtein函数。我想编写 blaze 查询以返回与单词“similar”相似的单词,即相当于:

在 Blaze 中,这应该看起来像

但未levenshtein在我在 python 端导入的任何模块中定义。在哪里/如何获得levenshtein在 Python 端的 Blaze 表达式中使用的定义?


我找到了sqlalchemy.sql.func为 SqlAlchemy 使用的 SQL 函数提供 Python 句柄的包,但这些在 Blaze 表达式中不起作用。是否有等效的 Blaze 包,或者我如何sqlalchemy.sql.func.levenshtein在 Blaze 表达式中使用?

0 投票
0 回答
42 浏览

python - 强制 python blaze 使用索引

我需要用 blaze 写这样的东西:

我需要指定索引,否则查询会计算很长时间。有没有办法,怎么办?该表有多个索引。

0 投票
2 回答
549 浏览

python - 如何从 hive2 将数据加载到 blaze

全部,

我正在尝试从 hive2 thrift 服务器将数据加载到 blaze 中。我想做一些类似于这里发布的分析。这是我目前的过程。

我能够建立连接并生成引擎,但是当我运行 bz.data 它失败并出现错误

任何帮助表示赞赏。

回答

0 投票
1 回答
39 浏览

python - Blaze 为简单的 sql HAVING 样式查询生成无效的 sql?

我正在尝试使用 Blaze 执行一个简单的操作,例如 sql HAVING。当我将 by 操作与过滤操作链接在一起时,Blaze 没有正确链接这两个命令。

在 sqlite 中使用此数据:

这两个操作导致无效的SQL

这是生成的 SQL。请注意,这两个操作没有正确链接在一起。相反,错误地使用了 COUNT 函数。

在 Jupyter Notebook 中复制

0 投票
1 回答
222 浏览

python - 从 Blaze 访问 S3 上的分片 JSON 文件中的数据

我正在尝试访问 S3 上的行分隔 JSON 数据。根据我对文档的理解,我应该能够做类似的事情

抛出

我已经尝试过导致不同错误的变化。

我可以获得以下内容来处理本地文件:

不过,我不确定为什么(map(JSONLines, glob(需要它。

我不太了解如何使用类型修饰符

0 投票
1 回答
281 浏览

jupyter-notebook - 从 blaze 查询转换为 GraphQL 查询

我有一个数据使用者,它是 Jupyter Notebook。有什么方法可以将 blaze 编写的查询转换为 graphQL 查询?

例如在 blaze 我们有:

在 GraphQL 中,我们可能有这个: