问题标签 [large-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1448 浏览

python - 在 python 中处理大型数据池

我正在从事一个旨在研究人们行为的学术项目。

该项目将分为三个部分:

  1. 从一些远程源读取数据并用它构建本地数据池的程序。
  2. 验证此数据池并保持其一致性的程序
  3. 允许人们读取/操作数据的 Web 界面。

数据由一个人列表组成,所有人都有一个 ID #,并具有几个特征:身高、体重、年龄......

我需要轻松地从这些数据中分组(例如:所有具有给定年龄或高度范围的数据)并且数据有几个 TB 大(但可以减少为 2-3 gb 的较小子集)。

我对项目背后的理论知识有很强的背景,但我不是计算机科学家。我知道java、C和Matlab,现在我正在学习python。

我想使用 python,因为它看起来很简单,并且大大减少了 Java 的冗长。问题是我想知道如何处理数据池。

我不是数据库专家,但我想我在这里需要一个。你认为我应该使用什么工具?

请记住,目标是在数据集上实现非常高级的数学函数,因此我们希望降低源代码的复杂性。速度不是问题。

0 投票
5 回答
8677 浏览

python - 重复 NumPy 数组而不复制数据?

我想创建一个一维 NumPy 数组,该数组由另一个一维数组的 1000 次背靠背重复组成,而不复制数据 1000 次。

是否可以?

如果有帮助,我打算将这两个数组都视为不可变的。

0 投票
1 回答
1838 浏览

database - 几乎实时存储和导出点击流数据的最佳方式是什么

假设我有一个获得大量点击的网站。我需要将点击数据存储在某个数据库中,以便用于报告和监控目的。点击数据将包含诸如谁将用户引荐到该站点、用户来自哪里、他们什么时候来等信息。有没有一种方法可以存储并以 10 分钟的间隔分析这些数据,以便您可以每 10 分钟了解网站的运行情况。哪种类型的数据库最适合此目的,哪种分析工具可以从这些数据中快速生成有意义的信息。我正在考虑的一种分析选择是使用 map-reduce 的一些变体来运行对这些数据的查询。

0 投票
3 回答
3543 浏览

c - 如何在C中对一个非常大的数组进行排序

我想long long在 C 中按四百万的顺序排序。通常我只是malloc()一个缓冲区用作数组并调用qsort(),但四百万 * 8 字节是一大块连续内存。

最简单的方法是什么?为此,我将轻松程度置于纯粹的速度之上。我不想使用任何库,结果需要在 Windows 和 Linux 下的普通上网本上运行。

0 投票
3 回答
2911 浏览

php - 比较非常大的值php的有效方法

嗨,我要比较大量的值,我使用了数组,但内存不足。数组中的值大约为 5000000,并且对于每个值,将再次执行 5000000 的循环。简而言之,将执行 5000000 x 5000000 个周期。

我正在做的只是运行两个循环。请让我知道一些有效的方法来执行此操作,因为该程序由于内存而停止。

0 投票
2 回答
1914 浏览

mysql - 如何在具有大数据的表的 mysql 查询中有效地应用 MINUS

我有 2 个表如下 -

两者都有关于数百万的大量数据。

我想要的是高效地将 MINUS 应用于结果集。

例如,

我想获取 ID 为 Group1 的所有用户:1 减去 ID 为 2 的 Group2 和 ID 为 Group3 的所有用户:3

我怎样才能有效地做到这一点?尽可能快地运行查询。

更新

我想要的是这样的-

在成员表“nl_members”中,我保留了所有成员的列表,这些成员可能与一个或多个组相关联。

对于成员的每个组关联,“nl_member_group_xref”表中将有一行。

因此,如果一个成员与 3 个组相关联,则 member_group_xref 表中将有 3 个条目。

现在我想要的是让所有成员都包含在第 1 组中,但如果成员也属于第 2 组和第 3 组,则排除他们。

希望这可以帮助。

0 投票
2 回答
443 浏览

php - 大型数据集的服务器缓存和客户端缓存之间的区别?


我正在用 mysql 在 PHP 中实现一个项目。现在我没有太多数据,但我想知道将来当我有一个大数据集时。它会减慢我在表格中的搜索速度。所以为了减少搜索时间,我正在考虑缓存技术。哪个缓存(即客户端或服务器)适用于大型数据集?

谢谢,阿比

0 投票
1 回答
11915 浏览

database - 在 phpmyadmin 中导入/导出非常大的 mysql 数据库

我在 phpmyadmin 中有一个数据库,有 3000000 条记录。我想把它导出到另一台电脑。现在,当我将这仅 200000 个条目导出到 .sql 文件中时,也不会在另一台 PC 上导入。

0 投票
3 回答
328 浏览

php - 使用 PHP 限制可以发送到服务器的文本长度

我知道如何在使用 HTML 的用户表单上执行此操作。但是,恶意用户可以绕过该表单来调用服务器操作页面并发送异常大的文本。

无论如何要拒绝来自服务器的此类请求。或许,有一种机制可以让我们在实际到达之前提前知道到达的 POST 数据的大小,类似于上传大文件。

0 投票
1 回答
320 浏览

c# - 处理大数据?

我在我的应用程序中使用 WinForms 和 C#,我的数据主要是一些字符串、整数和许多列表。现在我将它们存储在 xml 和文本文件中,但我发现读取数据需要太长时间。我正在使用 XmlWriter 和 XmlReader。例如,我有 4 个 xml 文件,总计 2-3 mbs 我解析和 ~250 个文本,我一次读取它们的内容。加载需要 3-4 分钟,我没有使用线程。这是正常现象还是发生了其他事情?我应该使用其他方式来存储我的数据吗?我必须只使用一个线程吗?

编辑我发现了问题。这与阅读无关(我认为)。无论如何,假设我的数据不会超过几 MB,我应该使用数据库还是使用 xml?