问题标签 [bulk-load]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1038 浏览

sql - SQL 批量加载期间的问题

我们有一个真正令人困惑的问题。我们正在尝试使用我们编写的一个小应用程序测试SQL 批量加载,该应用程序传入数据文件 XML、模式和 SQL 数据库连接字符串。

这是一个非常简单的应用程序,这是代码的主要部分:

如您所见,这非常简单,但是我们从将这些内容传递给的库中收到以下错误:Interop.SQLXMLBULKLOADLib.dll

消息内容如下:

Failure: Attempted to read or write protected memory. This is often an indication that other memory has been corrupted

我们不知道是什么原因造成的,甚至不知道它意味着什么。

在此之前,我们首先遇到了一个错误,因为没有安装 SQLXML4.0,因此很容易修复。然后出现错误,因为它无法连接到数据库(错误的连接字符串) - 已修复。现在有这个,我们只是感到困惑。

谢谢你的帮助。我们真是摸不着头脑!

0 投票
4 回答
7382 浏览

postgresql - 从远程客户端批量加载到 PostgreSQL

我需要将一个大文件批量加载到 PostgreSQL 中。我通常会使用 COPY 命令,但是这个文件需要从远程客户端机器上加载。使用 MSSQL,我可以安装本地工具并在客户端使用 bcp.exe 连接到服务器。

PostgreSQL有等效的方法吗?如果不是,如果我不能先将文件复制到服务器,那么从客户端机器加载大文件的推荐方法是什么?

谢谢。

0 投票
2 回答
696 浏览

python - AppEngine 批量上传列表属性

我有一个带有列表属性的模型。

我有一个 csv,每个列表数据看起来像这样。

[u'1234567']

该列表每个只有一项。

我的 bulkloader.yaml 已经配置了 import_transform: transform.none_if_empty(list)。它将上述列表属性上传为 [u'[', u'u', u"'", u'1', u'2', u'3', u'4', u'5', u' 6', u'7', u"'", u']']

我应该如何配置 import_transform 才能正确上传?

谢谢!

0 投票
1 回答
1019 浏览

python - App Engine 批量加载程序性能

我正在使用 App Engine 批量加载程序(Python 运行时)将实体批量上传到数据存储区。我上传的数据以专有格式存储,因此我通过自己的连接器(在 中注册bulkload_config.py)实现了将其转换为中间 python 字典。

要将这个中性 python 字典转换为数据存储实体,我使用了我在 YAML 中定义的自定义后导入函数。

注意:我没有entity_instance, bulkload_state在我的feature_post_import函数中使用。我只是创建新的数据存储实体(基于我的input_dict),然后返回它们。

现在,一切都很好。但是,批量加载数据的过程似乎花费了太多时间。例如,1 GB(约 1,000,000 个实体)的数据需要约 20 小时。如何提高批量加载过程的性能。我错过了什么吗?

我与 appcfg.py 一起使用的一些参数是(10 个线程,每个线程的批量大小为 10 个实体)。

链接了 Google App Engine Python 小组帖子:http ://groups.google.com/group/google-appengine-python/browse_thread/thread/4c8def071a86c840

更新:为了测试批量加载过程的性能,我加载entities了一个 'Test' Kind。尽管这entity有一个非常简单的FloatProperty,我仍然花了同样多的时间来批量加载这些entities

我仍然会尝试改变批量加载程序参数,rps_limitbandwidth_limithttp_limit看看我是否可以获得更多的吞吐量。

0 投票
1 回答
703 浏览

postgresql - 将非规范化数据集批量加载到 PostgreSQL 中的最有效方法?

我已经加载了一个巨大的 CSV 数据集——使用 PostgreSQL 的 COPY 的 Eclipse 的过滤使用数据,它占用了大量空间,因为它没有被规范化:三个 TEXT 列被更有效地重构为单独的表,以便从主表中引用具有外键列的表。

我的问题是:加载所有数据重构数据库更快,还是创建具有所有约束的预期表,然后加载数据?前者涉及重复扫描一个巨大的表(接近 10^9 行),而后者将涉及对每个 CSV 行执行多个查询(例如,以前见过这种动作类型吗?如果没有,将其添加到动作表中,获取其ID,在主表中创建一个具有正确操作 ID 的行等)。

现在每个重构步骤大约需要一天左右的时间,初始加载也需要大约相同的时间。

0 投票
1 回答
1773 浏览

sql - SQL Server 2005 - 批量插入问题

我从 sql server 2005 中的批量加载中收到以下错误消息,并且经过想法我可以尝试解决这个问题。

第 2 行第 4 列(类型)的批量加载数据转换错误(指定代码页的类型不匹配或无效字符)。

有任何想法吗?

我无法更改源文件,但我可以更改要插入的表。(不要问我为什么,但是小数已经插入到 ID 的末尾了……我只需要处理它。)

0 投票
4 回答
45949 浏览

database - “批量加载”是什么意思?

从一篇文章跳到另一篇文章,我到处都可以看到“批量加载”的表达。

它真正(技术上)是什么意思?

这意味着什么?

欢迎基于用例的解释。

0 投票
2 回答
1488 浏览

hadoop - HBase 批量加载产生大量的 reducer 任务 - 任何解决方法

HBase 批量加载(使用 configureIncrementalLoad 辅助方法)将作业配置为创建与 hbase 表中的区域一样多的 reducer 任务。因此,如果有几百个区域,那么该作业将产生几百个 reducer 任务。在小型集群上这可能会变得非常慢..

使用 MultipleOutputFormat 或其他方法是否有任何解决方法?

谢谢

0 投票
1 回答
1362 浏览

powershell - 将用户列表从平面文件导入 AD 组

我真的有两个问题,都围绕同一个话题。

我需要能够创建一个平面文件并使用此文件将文件中列出的用户导入 Active Directory 中的特定组。它们已经存在于 AD 中,只是不在组中。

其次,我还需要能够使用类似的方法使用不同的平面文件从 AD 组中删除用户。

这可以做到吗?用户列表将有 100 多位,所以我真的不想手动操作....

0 投票
1 回答
1423 浏览

sql-server - 使用 XML 批量加载将简单表加载到 SQL Server 的 XSD 示例

我正在尝试使用批量加载将一个相对简单的 xml 文件作为表加载到 SQL Server 2008 中。我的主要问题是制作一个适用于批量加载的 XSD。这是我当前的 XSD。我要创建的表将只有 nvarchar 字段和 datetime 字段。

我知道我在如何组合 XSD 方面存在错误。现在 XSD 正在工作,但批量加载未加载任何数据。

我真的在寻找可以使用批量加载成功加载到 SQL Server 的 XSD 和 XML 文件的示例。这允许我指定最大长度和数据类型。XML 将包含一些非标准字符,因此我已将其用于该数据。

下面是我的 XSD 和 XML 示例。谢谢。