问题标签 [blaze]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
528 浏览

python - 使用 Blaze Data(引擎)的不支持的字符串编码

有解决方法吗?

我有一个使用 SQL_Latin1_General_CP1_CI_AS 排序规则设置的 MSSQL 表。

我可以将它加载到熊猫数据框中

但是当我尝试使用 Blaze 时遇到错误

我无法更改排序规则,并希望更多地使用 Blaze 进行我自己的数据分析。有任何想法吗?

0 投票
7 回答
208732 浏览

python - 如何将 Parquet 文件读入 Pandas DataFrame?

如何在不设置集群计算基础设施(如 Hadoop 或 Spark)的情况下将中等大小的 Parquet 数据集读入内存中的 Pandas DataFrame?这只是我想在笔记本电脑上使用简单的 Python 脚本在内存中读取的适量数据。数据不驻留在 HDFS 上。它要么在本地文件系统上,要么在 S3 中。我不想启动和配置其他服务,如 Hadoop、Hive 或 Spark。

我认为 Blaze/Odo 会让这成为可能:Odo 文档提到 Parquet,但这些示例似乎都通过外部 Hive 运行时进行。

0 投票
1 回答
210 浏览

python - 仅获取 python blaze 对象中的数字列

我有一个blaze像这样的数据对象

我只想获取那些具有numeric datatypes.For example here onlyid并且amount具有数值的列名。

我可以使用dshape如下方式获取列类型

但不确定如何正确利用它。我知道如何在pandas使用_get_numeric_data()函数时做同样的事情。寻找类似的功能或代码blaze

0 投票
2 回答
423 浏览

python - python blaze计算多列的平均值

我有一个像这样的python blaze数据

我想计算数字列的平均值。我尝试过这样的事情

我得到

但我想像 in 一样一次性计算pandas,比如data.mean()

有什么想法或建议???

0 投票
1 回答
517 浏览

python-3.x - Pandas / odo / bcolz 从大型 CSV 文件中选择性加载行

假设我们有大型 csv 文件(例如 200 GB),其中只有一小部分行(例如 0.1% 或更少)包含感兴趣的数据。

假设我们将这样的条件定义为让一个特定列包含来自预定义列表的值(例如,10K 个感兴趣的值)。

odoPandas 或 Pandas是否促进了将这种类型的行选择性加载到数据框中的方法?

0 投票
1 回答
120 浏览

python - Blaze Data 字段映射抛出 TypeError

我最近开始将我的数据探索代码集pandasblaze. 我遇到了以下问题。

认为:

我们可以pandas.DataFrame通过into容易地计算出类似的东西:

但是,我在尝试这样做时遇到了严重的困难:

抛出一个TypeError: a bytes-like object is required, not 'int'除其他外。

这个问题似乎与将函数应用于列或通过将函数应用于另一个列来创建新列的最佳方法有关?这是关闭的,所以我不知道去哪里。

ps:如果您觉得这很琐碎并想将问题标记下来,还请提供完整的工作答案。

0 投票
0 回答
1620 浏览

python - 使用 Blaze 和 SqlAlchemy 流式传输结果

我正在尝试使用 Blaze/Odo 从 Redshift 读取一个大的(~70M 行)结果集。默认情况下,SqlAlchemy 会在开始处理之前尝试将整个结果读入内存。这可以通过 execution_options(stream_results=True)引擎/会话或yield_per(sane_number)查询来防止。从 Blaze SqlAchemy 工作时,查询是在幕后生成的,离开execution_options方法。不幸的是,以下抛出和错误。

例外是:

如果我遗漏了execution_options=dict(stream_results=True)上面的工作,但是做类似的事情

将耗尽大表的内存。

使用execution_options(stream_results=True)确实适用于pandas.read_csv. 以下代码工作正常,仅使用适量的内存:


这是完整的堆栈跟踪:

0 投票
2 回答
876 浏览

python - 使用 odo 函数时如何解决 utf-8 错误?OperationalError: (sqlite3.OperationalError) 无法解码为 UTF-8 列

我是新来的。我有一个用于迁移数据库的简单功能:

在 SQLite 数据库上运行它。

我收到以下错误。

我该如何解决这个问题?

OperationalError:(sqlite3.OperationalError)无法解码为 UTF-8 列“V_WIMS_WELLS$COMMENTS”,文本为“2013 年 12 月 29 日:与 SAP 问题相关,WO# 已关闭,但仍出现在 WIMS 中以供确认。

WPH-41 切割表面 CSG 9-5/8¿ 在 b

PS :- 我知道我们可以在 sqlalchemy 中显式设置 textfactory

我不知道如何在 odo 函数中修复它

#

通过显式传递元数据来编写函数的第二次尝试会导致以下错误

错误:-

0 投票
2 回答
132 浏览

python - 索引百万行方阵,用于快速访问

我有一些非常大的矩阵(比如说百万行的顺序),我无法保存在内存中,我需要在下降时间(不到一分钟......)访问这个矩阵的子样本。我开始结合 numpy 和 pandas 研究 hdf5 和 blaze:

但我发现它有点复杂,我不确定它是否是最好的解决方案。

还有其他解决方案吗?

谢谢

编辑

这里有一些关于我正在处理的数据类型的更多规范。

  • 矩阵通常是稀疏的(< 10% 或 < 25% 的非零单元格)
  • 矩阵是对称的

我需要做的是:

  • 只读访问
  • 提取矩形子矩阵(主要沿对角线,但也在外部)
0 投票
1 回答
519 浏览

python - 存储在 bcolz 中时数据大小爆炸

我有一个包含约 7M 行和 3 列的数据集,2 个数字和 1 个由约 20M 不同的字符串 uuid 组成。数据作为csv文件需要3G左右,castra可以将其存储在2G左右。我想用这些数据测试 bcolz。

我试过了

在耗尽磁盘上的 inode 并崩溃之前生成了约 70G 的数据。

将这样的数据集导入 bcolz 的推荐方法是什么?