问题标签 [large-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
367 浏览

python - 使用 Django 和 MySQL 存储和查找大型 DNA 微阵列结果

我正在尝试设置一个 django 应用程序,该应用程序允许我存储和查找具有约 500k 独特探针的大量受试者的 dna 微阵列的结果。

我一直在玩弄的模型设置如下:

我想知道是否有更好的方法来设置它?我只是在想,对于每个主题,我将在 Genotype 表中创建 500k 行。

如果我使用的是 MySQL 数据库,它是否能够处理大量主题,每个主题都向该表添加 500k 行?

0 投票
4 回答
1911 浏览

sql-server-2008 - 将数据从一个sql表移动到另一个表的最有效方法是什么

目前我有一个 SSIS 作业,用于将数据从一台 sql 20008 机器移动到另一台机器。该作业从大约 6 个表中移动了大约 200 万条记录。这大约需要 5-10 分钟,具体取决于服务器负载,这很好。因为数据被移动到临时表中,所以除了服务器的压力之外没有任何影响。

但是当我现在想将该数据与其各自的实时表合并时,我的问题就变成了。这可能需要大约 15 分钟,在此期间表被清空然后重新填充。我想知道的是在表之间移动数据的最有效方法是什么。

目前情况如下:

删除表
重建带有索引和约束的表
插入选择以移动数据
然后运行所需的任何计算
运行以下命令以在移动数据后重建所有索引:

我觉得应该有更好的方法,以便用户的停机时间最短。我的一个想法是创建第二组表,然后在它们准备好后重命名它们,但我不确定这是否是最好的方法。

我也刚刚阅读了合并命令,这可能会更好,因为我不必删除表并重新填充,这意味着所有数据都将保持可用,但如果不查看几乎所有列就很难知道记录是否发生变化.

我将不胜感激任何帮助。

0 投票
1 回答
488 浏览

iphone - Iphone mapKit,大图像和大数据导致内存警告和崩溃

我正在开发一个应用程序,现在我被卡住了。我想我这是由于缺乏早期的计划。实际上,我之前并不知道我会在我的应用程序中获得如此多的数据,这就是为什么现在在我的应用程序的最后阶段,我会收到内存警告。

基本上我正在使用 MapKit 并从我的服务器获取数据,将它们存储在数组中并使用该数据在地图上显示某些内容,这是我从服务器获取的大量数据。

在其他一些视图中,我正在从服务器下载大图像,并再次下载一些大数据以显示在图像上并使用数组来存储该数据。

我已经检查了应用程序中没有泄漏。但问题是,当我放大和缩小地图并来回移动然后再次放大和缩小地图时,我收到内存警告,我以前的视图被卸载。问题是以前的视图也从服务器获取数据,并且由于我的应用程序目标用户将是 3g 用户而不是 WIFI ,如果他们一次又一次地返回并且再次从服务器下载整个数据将非常困难。

所以基本上我的问题是如何存储大数据?有没有办法减少 MapKit 的内存使用,或者它是一个已知的错误?请帮我。它非常紧急。我被困了很久,无法得到任何解决方案

0 投票
3 回答
509 浏览

database - 为数据库规范化大量数据

我有大量数据需要存储在数据库中。数据为:一个月的每一天,有 5 个事件。这 5 个事件进一步分为 2 个不同的子事件,需要单独保存,这意味着每个月的每一天都有 10 个事件。

在顶层,5个事件有不同的标题,向下,奇数子事件有一个标题,偶数子事件有一个标题。

我想在存储之前对这些数据进行规范化,但我很难找到最终的数据库结构,并且正在寻找这方面的提示。我对规范化的经验很少(这是针对我正在从事的个人项目),但我宁愿正确地做,然后一次性将所有内容转储到数据库中。

编辑:请求的数据示例:

3月20日:

活动 1:子活动 1:凌晨 4:30,子活动 2:上午 5:00
活动 2:子活动 1:下午 12:30,子活动 2:下午 1:00
活动 3:子活动 1:4: 15pm, 子事件 2: 4:45pm
事件4: 子事件1: 6:15pm, 子事件2: 6:45pm
事件5: 子事件1: 8:00pm, 子事件2: 8:45pm

所有事件在整个月和全年的不同时间重复。

0 投票
2 回答
1047 浏览

sql-server - 如何设计一个存储非常大数据的表?

我需要在Oracle中设计一张表,一天可以存储2-5TB的数据。它可以增长到 200TB,当超过 200TB 时,记录将被清除。

将其保留在 OLTP 中是可行的选择,还是需要将其转移到数据仓库 DB 中?请建议我在设计此表或数据库的架构时应牢记的注意事项。

另外,如果它是 SQL 服务器,请告知,因为我可以使用任何一个数据库。

0 投票
1 回答
2072 浏览

oracle - 在oracle中为一个非常大的表创建表语句

我打算在一个表中存储 5 TB 的数据。以下是我为创建表而生成的默认脚本:

你能告诉我是否需要修改任何参数吗?

0 投票
2 回答
636 浏览

php - 如何使用 PHP 将大图像输出到浏览器?

我有一个用 PHP 动态生成并输出到浏览器的非常大的图像。(它宽 5000 像素,高 1000-2000 像素。这是我网站上的日常用户活动图)。

问题是现在情节太大了,PHP脚本给出了内存耗尽的错误(生成的PNG本身非常小),因此我无法获得图像。

有没有办法以某种方式使用PNG格式的GD输出这个大图像?

(ps:我运行站点的主机使用安全模式,所以我无法修改配置,我认为他们使用的是默认的 PHP 安装。)

EDIT1:这是一个管理脚本。除了我,没有用户看到它。

EDIT2:示例图像可以在这里看到:http: //users.atw.hu/calmarius/trash/wtfb2/x.png (我还可以选择按 IP 地址对曲目进行分组。)

每个用户+IP 对都有自己的 24 小时轨迹。每个绿色标记都表示一个用户活动。如您所见,此图像可以逐轨输出。并且不需要一次输出和生成整个东西。

这个网站将是一个在线策略游戏,我想在未来使用这个图表来更容易地检测多账户。(试图通过注册多个帐户而不是只有 1 个帐户来获得优势的用户。)但这是一个不同的问题。

我正在使用 PHP 脚本,因为我懒得从数据库中导出请求日志,下载它并将数据提供给一个可以为我制作情节的程序。;)

0 投票
3 回答
2065 浏览

matlab - 在大型数据集上进行聚类

我正在尝试对大型(千兆字节)数据集进行聚类。为了进行聚类,您需要每个点到每个其他点的距离,因此您最终会得到一个 N^2 大小的距离矩阵,在我的数据集的情况下,它的数量级为艾字节。Matlab 中的 Pdist 当然会立即爆炸;)

有没有办法先对大数据的子集进行聚类,然后再对类似的聚类进行一些合并?

我不知道这是否有帮助,但数据是固定长度的二进制字符串,所以我使用汉明距离(Distance=string1 XOR string2)计算它们的距离。

0 投票
1 回答
684 浏览

sql-server-2005 - 从 sql server 2005 中约 2 亿行的表中进行选择时,选择查询需要多长时间?

我在 SQL Server 2005 数据库中有一个包含 193,569,270 行的表。该表包含我们网站用户执行的活动。该表定义为:

我有以下索引:

这是我写的查询:

上次我运行查询时,它运行了超过 1 天,然后才杀死它。我错过了什么或者这只是需要那种时间吗?

感谢您的任何帮助,您可以提供。

韦恩·E·普费弗

0 投票
4 回答
36958 浏览

r - R可以处理多少数据?

“处理”是指操作多列数据行。R 如何与 Excel、SPSS、SAS 等工具相媲美?R 是查看“大数据”(数亿到数十亿行)的可行工具吗?如果不是,哪些统计编程工具最适合分析大型数据集?