问题标签 [bulk-load]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
262 浏览

cassandra - Cassandra 1.1 批量加载时出现异常

使用 sstableloader 批量加载时出现异常。我正在使用 JDK 1.6.0_25 64 位、Ubuntu 12.04 服务器。IPv6 已关闭。主机之间的网络通信正常工作。我要疯了 ;-(

所有主机都运行 Cassandra 1.1(datastax 版)。端口 7000,7199,9160 已打开。有任何想法吗 ??

0 投票
1 回答
2550 浏览

mapreduce - 将 MapReduce 输出数据加载到 HBase

最近几天我一直在试验 Hadoop。我在 Ubuntu 12.10 上以伪分布式模式运行 Hadoop,并成功执行了一些标准 MapReduce 作业。

接下来我想开始试验 HBase。我已经安装了 HBase,在 shell 中玩了一下。一切都很好,所以我想通过一个简单的 Java 程序来试验 HBase。我想导入以前的 MapReduce 作业之一的输出并将其加载到 HBase 表中。我写了一个映射器,它应该生成HFileOutputFormat应该很容易读入 HBase 表的文件。

现在,每当我运行程序(使用:hadoop jar [compiled jar])时,我都会得到一个ClassNotFoundException. 该程序似乎无法解决com.google.commons.primitives.Long。当然,我认为这只是缺少一个依赖项,但 JAR(Google 的 Guava)就在那里。

我尝试了很多不同的方法,但似乎找不到解决方案。

我附上了发生的异常和最重要的类。如果有人可以帮助我或给我一些关于在哪里看的建议,我将不胜感激。

亲切的问候,彼得扬

错误

JAVA
映射器:

工作:

0 投票
0 回答
1421 浏览

mysql - MySQL 批量加载程序 - java.lang.ArrayIndexOutOfBoundsException: -1

嗨,我正在使用MySQL批量加载器将数据从 Amazon 服务转储到 linux 服务器上的本地表,但是每次执行它时,它都会在 MySQL 批量加载器步骤中失败,说

错误日志说

任何人都可以帮助为什么这个数组索引越界错误即将到来,我已经验证了前面的行,有很多行并且它们都没有空值

0 投票
1 回答
4511 浏览

java - 将 Bean 列表传递给 oracle 存储过程的 Java 程序 - 一次性传递整个列表,而不是一个接一个地附加对象

我有以下一组 TYPE、PROCEDURE 和 Java 代码。我能够成功调用存储过程,但我必须一个接一个地附加对象。我希望在处理超过 50K+ 记录时一次性完成该过程。任何人都可以让我知道需要进行哪些更改,以便我可以一次性发送整个列表。代码可以在下面找到。

我想要的是替换以下代码

我不想单独设置每个对象,而是直接使用 sampleLst 而不是对象数组“员工”。当我处理 50K+ 对象时,我无法继续将它们添加到对象 []。我也会遇到堆问题。任何人都可以在这里帮助我吗?

0 投票
1 回答
711 浏览

java - Why do i get appcfg.sh: permission denied when i try to download my app from google app engine?

I am using google app engine with java. In my web.xml i added following code:

Now when i write following command:

and i get following text in command prompt:

Can anybody please tell me why permission is denied. Thanks in advance.

0 投票
1 回答
2253 浏览

sql-server - 批量插入 MAXERRORS

有什么方法可以使用 Bulk Insert 语句并禁用 MAXERRORS?

我想允许无限数量的错误,因为我批量插入的文件中的错误数量可能很高(我无法控制此文件,目前正在与供应商合作解决他们的问题在某些行上)。

如果没有办法禁用它,MAXERRORS 可以处理的最大数量是多少?是 2147483647 吗?

0 投票
1 回答
4390 浏览

hadoop - 使用 map reduce 在 cassandra 中执行批量加载

我没有太多使用 cassandra 的经验,所以如果我采取了错误的方法,请原谅。

我正在尝试使用 map reduce 在 cassandra 中进行批量加载

基本上是字数示例

参考:http ://henning.kropponline.de/2012/11/15/using-cassandra-hadoopbulkoutputformat/

我已经放置了简单的 Hadoop Wordcount Mapper 示例,并按照上面的示例稍微修改了驱动程序代码和减速器。

我也成功生成了输出文件。现在我的疑问是如何执行加载到 cassandra 部分?我的方法有什么不同吗?

请指教。

这是驱动程序代码的一部分

Mapper 与普通的 wordcount 映射器相同,只是标记并发出 Word,1

减速器类的形式是

0 投票
3 回答
9854 浏览

sql-server - 共享文件夹的 OPENROWSET BULK 权限

客观的

使用 OPENROWSET 功能在针对文本文件的查询中加入数据。

错误

利用@gbn 在这个问题上的答案,我试图像 OP 一样打开一个行集;虽然文件的格式有点不同。但是,我在尝试访问共享文件夹时遇到以下错误:

消息 4861,第 16 层,状态 1,第 1 行

无法批量加载,因为无法打开文件“\MACHINENAME\Share\EC04.txt”。操作系统错误代码 5(拒绝访问。)。

背景

请理解,我没有将无法访问 SQL 服务器,因此我无法在其中放置文件。

该文件位于 Windows 7 x64 机器上。

该文件夹已与Read/Write共享Everyone

问题

有人可以帮助我了解我需要提供哪些其他安全性以允许 SQL 服务器访问此文件夹?

0 投票
2 回答
394 浏览

mysql - 在 MySQL 和 HBase 中批量插入/加载

我有一个具有两个进程的系统,其中一个执行单个插入,另一个执行批量插入。显然,第二个过程更快,我正在努力将第一个过程迁移到批量插入机制,但今天早上我被一位同事提出的关于“为什么批量插入比单次插入更快”的问题难住了。

那么确实,为什么批量插入比单次插入更快?

此外,鉴于它们的数据库架构完全不同,MySQL 和 HBase 中的批量插入和单次插入之间是否存在差异?我将两者都用于我的项目,并且想知道这两个数据库的批量插入和单个插入是否存在差异。

0 投票
1 回答
205 浏览

google-app-engine - 使用bulkloader时如何在appengine中填充“ID”字段?

数据存储查看器

更新:见下文

我已经弄清楚如何为我的数据集填写 Key Name 字段,这样我现在将写入操作减少了 2(从 8 减少)。但是我仍然有这个额外的空列“ID”。我已经尝试了 bulkloader.py 的各种配置,但我无法填充该列并希望进一步减少我的写入操作......

这是我所拥有的:

这是我的 csv 文件的标题和一些示例行:

更新:好的,我发现了如何以“键名”列为代价填充“ID”列......

我将 bulkload.py 更改为如下所示:

csv 文件如下所示:

Datastore Viewer 中的输出现在如下所示:

数据存储查看器现在的样子

仍然想知道是否有任何方法可以填充 ID 和“密钥名称”列并将写入操作减少到 4?