问题标签 [large-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
7 回答
3226 浏览

database - 可扩展、快速、文本文件支持的数据库引擎?

我正在处理存储在制表符分隔.tsv文件中的大量科学数据。要执行的典型操作是读取几个大文件,仅过滤掉某些列/行,与其他数据源连接,添加计算值并将结果写入另一个 .tsv。

纯文本因其健壮性、寿命和自记录特性而被使用。以另一种格式存储数据不是一种选择,它必须保持开放且易于处理。数据量很大(几十 TB),将副本加载到关系数据库中是负担不起的(我们将不得不购买两倍的存储空间)。

由于我主要进行选择和连接,我意识到我基本上需要一个带有基于 .tsv 的后备存储的数据库引擎。我不关心事务,因为我的数据都是一次写入多次读取。我需要就地处理数据,而不需要主要的转换步骤和数据克隆。

由于要以这种方式查询大量数据,我需要有效地处理它,利用缓存和计算机网格。

有谁知道一个系统可以提供类似数据库的功能,同时使用普通的制表符分隔文件作为后端?在我看来,这似乎是一个非常普遍的问题,几乎所有科学家都以一种或另一种方式处理。

0 投票
1 回答
704 浏览

django - 如何改进 django-admin 中大量内联的显示和处理?

在显示模型的内联时,如果有大量内联,则更改页面加载缓慢,并且很难浏览所有内联。我已经在使用内联折叠技巧(在DjangoSnippets上找到,但那里的搜索不起作用,所以我无法在此处分享链接),但仍然不容易浏览,因为它们的名称相同(主要区别于数字)并且所有内联仍然加载。

我需要某种类型的内联分页器,而且这个分页器首先显示正在编辑的当前对象的最有趣的内联,例如仅指定在线排序(不是应用程序其他区域中使用的默认排序)。

更新:内联是一个子相关类的所有实例。

0 投票
6 回答
1793 浏览

c# - 可以将二维字节数组制成一个巨大的连续字节数组吗?

我在内存中有一个非常大的二维字节数组,

有什么方法(可能不安全)可以让 C# 认为这是一个巨大的连续字节数组?我想这样做,以便我可以将它传递给 aMemoryStream然后 a BinaryReader

0 投票
5 回答
7256 浏览

grails - 需要帮助提高 Grails 中大型数据集的性能

此解决方案有效,但性能低于预期。返回 200K 行的查询需要几分钟时间,并且会在我的开发盒上占用 CPU。在查询分析器中运行相同的*查询会在 < 1 分钟内返回所有结果。

DB = SQL Server 2005 服务器在与我的开发机器分开的专用盒子上。

我还通过 SQL Server Profiler 注意到 gorm/hibernate 正在使用 sp_cursorprepexec 和 sp_cursorfetch 一次读取 128 行结果。如果可以选择,我想尝试不使用光标。

不确定是否是问题,但只能提供帮助。在休眠中,可以将滚动设置为仅向前,但我无法为 grails 找到类似的设置。

原来的休眠问题

解决方案:绕过休眠。从 10 分钟到 15 秒。

*same = 从 SQL Server Profiler 剪切和粘贴,但不包括包装 sp_cursorprepexec sproc。

0 投票
2 回答
4185 浏览

mysql - MySQL:大表拆分

我在数据库中有一个巨大的表,我想将其物理拆分为几个部分,以维护数据库方案。

例如,表名是 TableName,有 2 000 000 行。

我想把那张桌子分成四部分,但我想用同样的方式处理这张桌子,所以

在拆分表后将以与以前相同的方式工作。基本上我希望我的数据库在不同的线程中处理我的查询。我怎样才能做到这一点?

提前致谢。

0 投票
1 回答
370 浏览

gtkmm - 如何在不锁定应用程序的情况下使用大型数据集填充 Gtk::TreeModelColumn

我需要向 Gtk::TreeModelColumn 填写一个大的(可能不是那么多 - 几千个条目)数据集。如何在不锁定应用程序的情况下做到这一点。将处理放入单独的线程中是否安全?那么我必须用锁保护应用程序的哪些部分?它只是 Gtk::TreemodelColumn 类,还是它所在的 Gtk::TreeView 小部件,甚至可能是围绕框架或窗口?

0 投票
2 回答
4855 浏览

sql - 如何在不指定列名的情况下从另一个表更新一个表?

我有两个具有相同结构和非常大数量的字段(大约 1000 个)的表。我需要执行 2 个操作 1)将第二个表中的所有行插入到第一个表中。例子:

2)从第二个表更新第一个表,但是对于更新,我找不到正确的更新 sql 语法。

像这样的查询:

或者

无效。

0 投票
5 回答
372 浏览

python - 如何优化 Python 中大型(75,000 项)布尔值集的操作?

有一个名为svnmerge.py的脚本,我正在尝试对其进行调整和优化。不过,我对 Python 完全陌生,所以这并不容易。

当前的问题似乎与RevisionSet脚本中调用的类有关。本质上,它所做的是创建一个包含整数键布尔值的大型哈希表(?)。在最坏的情况下 - 我们的 SVN 存储库中的每个修订版本都有一个,现在接近 75,000 个。

之后,它对如此庞大的数组执行集合操作——加法、减法、交集等等。该实现是最简单的 O(n) 实现,自然会在如此大的集合上变得相当慢。可以优化整个数据结构,因为有很长的连续值跨度。例如,从 1 到 74,000 的所有键都可能包含true. 此外,该脚本是为 Python 2.2 编写的,这是一个相当旧的版本,而且我们无论如何都在使用 2.6,所以那里也可能会有所收获。

我可以尝试自己拼凑它,但这会很困难并且需要很多时间——更不用说它可能已经在某个地方实现了。虽然我喜欢学习经验,但现在结果更重要。你会建议我做什么?

0 投票
3 回答
8232 浏览

r - 如何在 R 中读取大型数据集

可能重复:
在 R 中快速读取非常大的表作为数据框

你好,

尝试在 R 中读取大型数据集时,控制台显示以下错误:

有谁知道如何读取大型数据集?UserDailyStats.csv 的大小约为 2GB。

0 投票
3 回答
351 浏览

javascript - 好主意或坏主意:将数据库加载为单独的 .js 文件

我有一个网页,您可以在其中自定义您的游戏角色。为了加快浏览速度(gems),我将整个 gems 数据库(600 个条目,247KB)加载为一个单独的 .js 文件,因此它可以被缓存,我不需要每次都加载它。

我没有注意到延迟,这仍然是一个坏主意吗?
我应该即时获取必要的记录吗?

仅供参考:我使用 ASP.NET MVC 2.0,这里正在加载脚本:

这是行动:

编辑:我主要关心的不是加载时间,而是内存使用情况。浏览器加载/解析额外的 250KB javascript 是否会产生显着影响?