问题标签 [bulk-load]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
forms - 在没有 API 的情况下将数据(来自电子表格)输入到 Web 表单中
这很可能是一个非常菜鸟的问题。我正在努力提高办公室工作流程的效率。基本情况是这样的:公司每天多次通过传真或扫描接收来自多个实体的手写信息。现在,员工正在阅读手写信息并将其输入网络表单并提交该信息——很多来回点击。每条记录都是手动输入的。然后他们将手写表单中的信息重新输入到其他数据库中(其中一些支持批量 .csv 插入,其中一些不支持)。我在想员工是否可以阅读并输入一次信息到 excel 电子表格中,然后使用该 excel 电子表格将信息加载到 Web 表单中,并在可能的情况下进行批量上传。工作流程会根据每种情况发生变化,但员工工作流程效率极低,我希望有针对此流程中的一个或多个步骤的编程解决方案。
主要问题是第一个 Web 表单。该网站非常古老——它是一个州政府网站——并且没有 API(该州知道,我已经联系过他们)。这是一个 .nsf 站点(需要您登录)。我知道 .nsf 是一个 Lotus Notes 数据库。我还没有评分 10,所以我不能直接在这里发布图片,但这里有一个图片链接:http: //postimg.org/image/5ns2k844h/
由于国家机构没有 API(而且他们似乎并不关心这个过程非常繁琐),有没有办法构建一个程序,或者是否有一个当前的程序可以快速输入这些信息?任何帮助都将不胜感激!
BB
sql - oracle如何插入大量行?
谁能告诉我如何在 Oracle 中插入大量行?
使用插入语句,我们可以将数据插入到表的行中。
假设我要插入 100,000 行,是否需要按照上面的步骤逐一插入?或者有没有其他方法一次插入大量行?任何人都可以举个例子告诉我。
注意:这里我不是要求从另一个表中复制数据.. 只是考虑我们有一个包含 1,00,000 行的 XL 表,那么我们如何将它们插入到特定表中..
谢谢,赛。
sql - 收集索引上的统计信息或删除创建?
删除和重新创建索引是否与使用 dbms.gather_index_stats 具有相同的效果?(它是否与重建/更新索引具有相同的效果)
还是这两种完全不同的东西不应该相互比较?
sql - 与删除和重新创建索引相比,禁用和重新启用索引有什么区别?
正如问题所述,两者在性能方面有什么区别,哪种场景更好?
或者这两个有相同的效果?如果适用,各有什么优缺点?
据我了解,重新创建索引也会导致类似于收集统计信息(11g)的重建
禁用和重新启用索引怎么样?它还会自动收集统计信息吗?
请注意,我是带着需要进行大量批量插入/更新的心态来问这个的
非常感谢
c# - 检查 .TXT 扩展文件以获取 CSV 格式数据的最佳方法是什么?
我需要使用 CSV 格式数据导出和导入 TXT 文件。我需要在 MVC4 中完成。这样做的最佳方法是什么?
txt文件可以包含大量的CSV格式数据,
sql - 使用主键约束在 monetdb 中批量加载
我正在尝试将对象列表批量加载到单列(主键)数据库中。唯一的原因是删除重复项。我无法将列表加载到内存中,因为文件大小远远大于我的内存大小(我需要大约 10^14 次插入!)。
我使用 monetdb 的COPY-INTO命令,但我不希望它在重复时失败。我希望它添加所有不重复的内容并跳过重复项。
有没有办法用 monetdb 做到这一点?还有什么办法吗?
python - 用于 python cassandra 的 SStablewriter
是否有用于 cassandra 的 SStable 编写器的 python 变体?我发现了很多java示例,
http://amilaparanawithana.blogspot.com/2012/06/bulk-loading-external-data-to-cassandra.html
这是否仍在考虑中?
java - 大量写入导致 Cassandra 环不稳定
我正在尝试将大量数据加载到 10 节点 Cassandra 环中。
执行插入的脚本获得约 4000 次插入 / 秒,大概在网络 I/O 上被阻塞。我在一台机器上启动了其中的 8 个,吞吐量几乎呈线性增长。(单个吞吐量略有下降,但通过额外的流程得到了更多的补偿。)
这工作得很好,但是,我仍然没有获得足够的吞吐量,所以我在另外 3 个虚拟机上启动了相同的设置。(因此,8 个进程 * 4 个 VM)在第一个附加 VM 之后,随着进一步 VM 的添加频率和严重性的增加,会发生以下情况:
- 客户端开始接收超时错误。他们可以重新尝试他们的写入,但因为他们是分批这样做的,他们的前进进度几乎完全被消除了。
- 环变得不稳定,节点开始将自己标记为“关闭”。此外,不同的节点往往对谁宕机有不同的想法。脚本中止时环不会恢复。(我什至无法通过重启单个节点来解决这个问题:我不得不重启整个环。)
“下”不一。在我最后一次运行中:
- 4 个节点完全死亡。(Cassandra 根本没有运行。)检查日志,似乎没有任何关于它为什么死亡的记录。
- 第五天,卡桑德拉正在奔跑。
nodetool status
在那个节点上挂起。两个线程似乎处于某种无限循环中。(他们一直在使用 100% 的 CPU。)java.lang.OutOfMemoryError: Java heap space
日志中有一个。
代码本质上是:
该函数insert_and_time
分成items
大小为 200 的批次,调用上述函数,并对整个套件和 kaboodle 进行计时。(此代码对戒指有毒。)
我们尝试了更多的读取,因为(有人告诉我)每秒 20k 的插入速度很慢(以这种速度插入我想插入的数据需要一段时间……),而且 Cassandra 具有高容量。
我的问题:
- 我在做什么有什么不寻常的地方吗?哪里不对了?
- 我只是对我的戒指进行 DDoS 攻击吗?
- 我该如何去调试有什么问题?
- 一个错误的客户端,恕我直言,永远不能杀死服务器。(以上内容并没有非常错误。)我能做些什么来防止这种情况发生?
¹客户端似乎也慢慢泄漏文件描述符。我不认为这是相关的。(我.shutdown
同时调用集群和连接。)查看驱动程序源,似乎有很多异常会导致泄漏的路径。
sql - postgresql/psql查询where子句多个“或”从文件中读取
抱歉,如果之前有人问过类似的问题(我搜索过但找不到任何有用的东西)。
我有一张表,其中包含数据传输的详细信息。其中一个字段是与传输关联的 IP。我需要开发一个查询,它将获得表中与 79 个 IP 之一匹配的记录子集(表中有 608 个不同的 IP)。我有一个文件,其中所需的 IP 由换行符分隔。有没有办法开发一个查询来读取这个 IP 文件以获取所需的记录,而不是我手动输入每个由“或”分隔的 IP?
database - 将 hbase 列中不相邻的所有数据复制到另一个新表的速度有多快?
我有一个名为 Table1 的 hbase 表,有行 T1,T2,T3,...Tn ,名为 Table2 的新表。如何将 (T1,T3,T5 ...) 中的所有数据从 Table1 复制到 Table2 ?一个一个拿到行,然后放到新表上就这么慢。