问题标签 [infobright]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mysql - InfoBright (MySQL) 错误 5 (HY000): std::exception
我正在批量上传到我的 InfoBright。
我已将服务器 1 中的数据放入 outfile 并尝试批量上传到服务器 2。我将 MySQL 生成的数据文件OUTFILE
从服务器 1 复制到服务器 2。我将服务器 2 上这些数据文件的所有权更改为 mysql:mysql。文件大小为 493 MB。
但是当我尝试执行以下命令时:
我收到以下错误:
错误 5 表示 mysql 内存不足。
因此,作为验证,我将服务器 2 上存在的类似数据放在OUTFILE
. 该文件的大小为 503 MB。
然后使用以下命令:
这确实有效。那么为什么它不能与服务器 1 的转储一起使用呢?可能是什么问题?
hadoop - 为什么 Vertica/InfoBright/GreenPlum 等面向列的数据库会在 Hadoop 上做文章?
为 Hadoop 集群提供数据并使用该集群将数据输入 Vertica/InfoBright 数据仓库有什么意义?
所有这些供应商都在说“我们可以连接 Hadoop”,但我不明白这有什么意义。存储在 Hadoop 中并转移到 InfoBright 有什么好处?为什么不将应用程序直接存储在 Infobright/Vertica DW 中?
谢谢 !
java - 使用多个连接的单个事务。(MYSQL/JDBC)
我正在处理的应用程序是一个基于 Java 的 ETL 过程,它将数据加载到多个表中。DBMS 是 Infobright(一个面向数据仓库的基于 MYSQL 的 DBMS)。
数据加载应该以原子方式完成;但是,出于性能原因,我想同时将数据加载到多个表中(使用LOAD DATA INFILE
命令)。这意味着我需要打开多个连接。
是否有任何解决方案可以让我以原子方式并行执行负载?(我猜答案可能取决于我加载到的表的引擎;其中大多数是 Brighthouse,它允许事务,但没有 XA 和保存点)。
为了进一步澄清,我想避免一种情况,让我们说:
- 我将数据加载到 5 个表中
- 我为前 4 个表提交负载
- 第 5 个表的提交失败
在这种情况下,我无法回滚前 4 次加载,因为它们已经提交。
database - 用于财务分析的数据存储
我正在构建系统来分析有关证券交易价格的大量财务数据。鉴于数据将达到 10 兆兆字节,因此其中的一个大挑战是确定对数据使用哪种存储方法。将有许多对数据的查询,例如取平均值、计算标准差以及按价格、时间、交易量等多列过滤的总和。联接语句不是必需的,但如果有就好了。
现在,出于评估目的,我正在查看 infobright 社区版、monetdb 和 greenplum 社区版。到目前为止,它们看起来很棒,但对于更高级的功能,其中一些版本不提供其中的一些功能(使用多个服务器、插入/更新语句等)。
对于这种情况,您会使用什么解决方案,以及它比替代方案提供的好处?具有成本效益是一大优势。如果我必须为数据仓库解决方案付费,我会,但我宁愿避免它,如果可能的话,采用开源/社区版本的路线。
java - Infobright/MySQL 加载数据 infile 死锁
我在使用多个并发 LOAD DATA INFILE 命令时遇到死锁。这是背景:
我开发了一个基于 Java 的 ETL 工具,可以将平面文件加载到 Infobright 数据库中(Infobright 是一个基于 MySQL 的列式数据库)。在处理结束时,使用 LOAD DATA INFILE 命令执行加载。此过程可以处理加载到多个表中,并且每个加载都使用单独的连接并行完成(出于性能原因)。
我还编写了一个 bash 脚本,它为多个文件并行运行这个工具(为了节省处理部分的时间,因为 LOAD 命令无论如何都会被数据库服务器序列化)。这意味着我可以对同一个目标表(来自不同的进程)有多个 LOAD DATA 命令。
我所期待的是 LOAD DATA 命令将以串行方式执行,但最终会完成。但是,我遇到了僵局。如果我执行“显示进程列表”,我可以看到我所有的 LOAD DATA 命令都处于“系统锁定”状态。
有没有人遇到过这样的问题并找到了解决方案?
详细信息:我使用的是 Infobright Enterprise Edition v3.5.2。这是基于
MySQL 5.1.40。我的 ETL 应用程序使用 java 1.5.0_08 和 Mysql
Connector Java v5.1.12。操作系统:Centos 5.6 64 位(Linux 2.6.18-238.12.1.el5)
ice - 如何在版本 4.0.6 GA 的 infobright 中使用拒绝文件
在4.0.6 GA 版本的发行说明中,我们可以发现第一个新特性是“ Infobright Loader 现在支持 Reject 文件”
但是我找不到更多关于它的信息,比如如何使用它,在这种情况下我们可能需要它。
请帮忙
sql - 修改 Microstrategy SQL 生成器
我正在使用 Microstrategy,并且知道 Freeform SQL Report 功能。但是,我想更改 Microstrategy 生成其 SQL 的方式。
由于我使用的是 Infobright,我想使用子选择而不是完全连接等。示例:
Microstrategy 生成的查询: select b.colb, min(b.cold), sum(a.colb) from tablea a join tableb b on a.id = b.id group by b.colb
我希望它生成以下方式: select b.colb, min(b.cold), sum(a.colb) from (select id, sum(cold) from tablea a group by colb) join tableb b on a .id = b.id 由 b.colb 分组
是否可以修改生成器以采用这种方法而不是当前方法?或者,我必须使用自由格式生成器吗?
database - 如何处理大数据数据集市/事实表?(2.4亿行)
我们有一个 BI 客户,每月在他们的销售数据库表中生成大约 4000 万行,这些行是从他们的销售交易中生成的。他们想用他们 5 年的历史数据建立一个销售数据集市,这意味着这个事实表可能有大约 2.4 亿行。(40 x 12 个月 x 5 年)
这是结构良好的数据。
这是我第一次面对如此大量的数据,这让我分析了 Inrbright 等垂直数据库工具。但是使用这种软件,一个简单的查询仍然需要非常非常长的时间来运行。
这让我看了一下 Hadoop,但在阅读了一些文章后,我得出结论认为 Hadoop 不是创建事实表的最佳选择(即使使用 Hive),因为在我的理解中是用于处理非结构化数据。
所以,我的问题是:建立这个挑战的最佳方式是什么?,我不是在寻找合适的技术吗?在如此大的事实表中,我可以获得的最佳查询响应时间是多少?..或者我在这里面对一堵真正的墙,唯一的选择是建立聚合表?
mysql - MySQL 选择不带引号的 Outfile
有没有可能,如果有的话,我SELECT ... INTO OUTFILE
可以让它不包含任何字符。
到目前为止,这不起作用:
我不确定引擎在这种情况下是否重要,但请注意我在 Linux 机器上使用 InfoBright 可能很重要。
输出如下:
infobright - Brighthouse 内存不足错误
我们已经轻松使用 Infobright 社区版一年多了,完全没有任何问题。它甚至与占用空间更大的数据库(postgreSQL 数据库)共享服务器。
突然间,它开始给我们带来错误。“失忆的光明屋”。我尝试将 ServerMainHeapSize 参数从默认的 600 增加到 4000,并将相应的内存参数增加到中间级别大小,但无济于事(这是我第一次尝试调整 Infobright,因为它始终表现完美,更多或更少)。
有人对此有任何猜测吗?日志文件只是报告错误,没有帮助。
在一个可能相关的说明中,几个月前,我们的一个表在数据库中损坏了。错误消息是“属性文件中的错误:格式错误”。即使我尝试删除表(因此无法删除),或者就此而言,如果我尝试删除数据库,也会发生此错误。如何删除此表?(这些表中的数据会定期重新加载,因此 Infobright 数据库本身没有正式的备份)。
--sw