问题标签 [large-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
5032 浏览

javascript - jqgrid海量数据加载问题

我正在对jqgrid进行一些调查,一切正常,直到我在数据库中加载包含大约1M行的巨大数据,jqgrid现在不显示,当我将数据库的行缩小到100K时,数据会显示,但是我仍然需要多次刷新页面,我缩小到 10K,它工作正常,我不确定 jqgrid 是否有大小限制?以及更多,我可以将数据保存到由url返回的本地文件,并将其上传到服务器,并将url更改为文件,jqgrid可以显示它....

有人可以帮帮我吗?代码在这里:

json数据如下:

从 oracle 数据库中获取所有计数

获取数据

将数据返回给 jqgrid 的 Web 控制器

0 投票
1 回答
893 浏览

language-agnostic - 海量数据集的快速分组和聚合

我有大量数据(存储在文件中,但无关紧要 - 主要是数据不适合内存) - 比如说 10 9行记录。

记录由时间、一组键和数据组成。键不是唯一的。
例如

我需要遍历所有数据,并使用用户定义的过滤器对其进行过滤(这不是问题),然后聚合、计算总和并返回具有最高数据的行。

例如,在给定的数据中,我想按 A 和 C 对每个数据分组求和。

预期结果:

我使用幼稚的解决方案实现了这一点,我有Dictionary<tuple(A, C), long>,并且在那里求和。但问题是,A、C 的独特组合可能比我记忆中的要多。

我不能预先对任何数据求和,因为可能会出现任何过滤,也不能使用 SQL(关系数据库不适合我)。

是否有任何可用于以这种方式分组的内存高效算法?SQL 是如何处理这么多数据的?我可以在 SQL 上进行分组,但有一些原因我不想使用它。

或者,我应该谷歌什么?我还没有找到任何关于这个问题的有用文章。

(我使用的是 C#,这个问题是理论上的,而不是“使用以下代码:”)

0 投票
1 回答
4138 浏览

python - Python fork():将数据从子级传递给父级

我有一个主 Python 进程,以及由主进程使用os.fork().

我需要将大量且相当复杂的数据结构从工作人员传回主进程。您会为此推荐哪些现有库?

数据结构是列表、字典、numpy数组、自定义类(我可以调整)和上述多层组合的混合。

应避免磁盘 I/O。如果我也可以避免创建数据的副本——例如通过某种共享内存解决方案——那也很好,但不是硬约束。

出于这个问题的目的,必须使用os.fork()或其包装器创建工作程序,该包装器将克隆主进程的地址空间。

这只需要在 Linux 上工作。

0 投票
2 回答
741 浏览

matlab - 一种从一系列产品中创建矩阵的快速有效的方法

Ax,Ay,Az:[N×N]

B=AA(二元乘积)

它的意思是 :

B(i,j):一个 3x3 矩阵。构造 B 的一种方法是:

当 N 很大时,有没有更快的方法。

编辑:

感谢您的回答。(更快)让我们说:N = 2; 斧头=[1 2;3 4]; Ay=[5 6;7 8]; 阿兹=[9 10;11 12];

奔跑:
???错误使用 ==> mtimes 内部矩阵尺寸必须一致。

如果我写:P = Ai*Aj;那么

这与上面的 A(:,:,1) 不同,与 [Ax(1,1) Ay(1,1) Az(1,1)] 不同

编辑:

编辑:

在对我的应用程序进行一些修改后:通过 gnovice 代码

似乎任何调用像 ceil,ind2sub ... 这样的函数都会使 thw 循环变慢,如果可能的话应该避免。

symIndex很有趣!谢谢你。

0 投票
3 回答
9888 浏览

matlab - 是否可以只保存对称矩阵的一半来节省内存?

有一个用于Ax=b类型问题的大矩阵。 A是对称的。有什么算法可以让我们只保存一半的矩阵并对其进行操作x=A\b吗?

0 投票
2 回答
5961 浏览

java - Java中大型数据集的基于文件的合并排序

给定不适合内存的大型数据集,是否有任何库或 API 可以在 Java 中执行排序?该实现可能类似于 linux 实用程序排序。

0 投票
3 回答
26688 浏览

data-structures - 红黑树与 B 树

我有一个项目,我必须在从兆字节到兆字节的数据上实现快速搜索、插入和删除操作。我最近一直在研究数据结构并分析它们。具体来说,我想介绍3个案例并提出问题:

  1. 数据远远超过内存一次可以处理的数据(样本范围为 10-15 TB)。在这种情况下,我会将数据结构存储在磁盘上。

  2. 与系统的内存相比,数据相对较少,因此可以在内存中存储和操作以提高速度。

  3. 数据超过可用内存,并假设它小于页面文件中可能的连续数据块的大小。因此,我将数据结构存储在磁盘上的文件中,并对文件进行内存映射。

我得出的结论是:

对于案例 1,我应该使用 B-Tree 来加快访问速度,因为它可以节省磁盘旋转产生的延迟

对于案例 2,我应该使用红黑树来更快地访问,因为数据在内存中,而不是。如果我使用 B 树,在更糟糕的情况下需要扫描的元素会少于我必须做的一个

对于案例3,我对此表示怀疑,磁盘上的页面文件使用本机OS I/O对文件进行操作,那么B树应该是更好的选择还是红黑树?

我想知道以上三个结论哪里对,哪里不对,以及如何在三个不同的情况下提高性能。

我正在使用 C++ 语言,带有一棵红黑树和一棵 B 树,它们都是我从头开始设计的。我正在使用 Boost 库进行文件映射。

更新 1::在 stackoverflow 中阅读这篇文章。得到了一些真正好的见解,这让我觉得我在案例中所做的比较类型可能是错误的。在投票最多的答案http://idlebox.net/2007/stx-btree/stx-btree-0.8.3/doxygen-html/speedtest.html中发布了一个链接

0 投票
2 回答
727 浏览

sql - 快速大数据透视

我们正在开发一种产品,该产品可用于开发预测模型以及对数据进行切片和切块,以提供 BI。

我们有两种数据访问要求。

对于预测建模,我们需要每天读取数据并逐行进行。在这种情况下,普通的 SQL Server 数据库就足够了,我们没有遇到任何问题。

如果对大数据进行切片和切块,例如 1GB 的数据,我们可以说是 300 M 行。我们希望以最短的响应时间轻松地转换这些数据。

当前的 SQL 数据库在这方面存在响应时间问题。

我们希望我们的产品能够在任何具有 2GB RAM 和 Core 2 Duo 处理器的普通客户端机器上运行。

我想知道我应该如何存储这些数据,然后如何为每个维度创建旋转体验。

理想情况下,我们将拥有一家大型公司按产品按地区按销售人员的每日销售额的数据。然后我们希望根据任何维度对其进行切片和切块,并且还能够执行聚合、唯一值、最大值、最小值、平均值和其他一些统计功能。

0 投票
5 回答
23121 浏览

java - 在 MyBatis 中处理非常大量的数据

我的目标实际上是将数据库的所有数据转储到 XML 文件中。数据库不是很大,大约300MB。问题是我的内存限制只有 256MB(在 JVM 中)。所以很明显我不能把所有的东西都读入内存。

我设法使用 iBatis(是的,我的意思是 iBatis,而不是 myBatis)通过getList(... int skip, int max)多次调用它来解决这个问题,并增加skip. 这确实解决了我的记忆问题,但我对速度并不满意。变量名称表明该方法在后台执行的操作是读取整个结果集,然后跳过指定的记录。这对我来说听起来很多余(我并不是说这就是方法正在做的事情,我只是根据变量名猜测)。

现在,我为我的应用程序的下一个版本切换到 myBatis 3。我的问题是:有没有更好的方法在 myBatis 中逐块处理大量数据?无论如何要让 myBatis 处理前 N 条记录,将它们返回给调用者,同时保持结果集连接打开,这样下次用户调用 getList(...) 时,它将开始从 N+1 记录读取而不做任何事情“跳过”?

0 投票
3 回答
3895 浏览

wpf - 在 WPF 中将 Combobox 与大量数据绑定

我正在尝试将组合框与自定义对象列表绑定。我的对象列表有大约 15K 条记录,单击组合框后组合框需要很长时间才能显示数据。

下面是代码:

后面的代码:

allEmployee 有大约 15K 的记录。任何人都可以建议我如何提高我的组合框性能?