问题标签 [large-data-volumes]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1851 浏览

.net - 在 SQL Server 中从一个非常大的表 (600M) 中获取子集 (200M) 的最快方法

我们正面临以下问题,我们正在努力提出最佳解决方案。

我们使用的是 SQL Server 2008。我们有一个包含 6 亿多条记录的表,大约有 25 列。其中一列是一个 ID,并已编入索引。我们需要从该表中获取记录的子集。主要有2种情况:

a) 子集包含 1000 到 2 亿行之间的任何地方;要获取的行的 ID 存储在 SQL Server 的索引表中;

b) 子集包含少于 100 万行;要获取的行的 ID 存储在应用程序的服务器内存(.NET Web 应用程序)中。

我们的挑战是尽快获得这个子集。我们确实需要这在几秒钟内发生。

到目前为止我们的解决方案:

a)我们在两个表之间进行连接。这行得通,但这还不够快。查询看起来像SELECT * FROM Big_Table JOIN IndexTable ON Big_Table.ID = IndexTable.ID.

b) 我们并没有真正的解决方案。我们尝试运行 WHERE IN 查询,但如果子集接近百万行 ( SELECT * FROM Big_Table WHERE ID IN (ID1, ID2, ID3...)),这将永远耗时。一种解决方案可能是将索引存储在临时表中,但随后又回到案例 a。

我们正在尝试尽可能地优化 SQL Server,特别是使用良好的索引和分区。我今天更多地询问您认为最好的方法是在两种情况下(a 和 b)提取子集。

任何想法或建议表示赞赏。

谢谢

0 投票
2 回答
95 浏览

php - 显示较少数据的大网站

我照顾一个大型网站,并一直在研究其他类似的网站。特别是,我看过 flickr 和 deviantart。我注意到虽然他们说他们有很多数据,但他们只显示了这么多。

我认为这是出于性能原因,但任何人都知道他们如何决定显示什么和不显示什么。经典示例,去 flickr,搜索标签。请注意页面链接下方列出的结果数量。现在计算将是哪个页面,转到该页面。您会发现该页面上没有数据。事实上,在我的测试中,flickr 说有 5,500,000 个结果,但只显示了 4,000 个。这是怎么回事?

大型网站是否变得如此之大以至于他们不得不开始将旧数据离线?Deviantart 有一个 Wayback 功能,但不太确定它是做什么的。

任何输入都会很棒!

0 投票
2 回答
688 浏览

opengl - 想法:如何使用基于 GPU 的直接体渲染交互式渲染大型图像系列

我正在寻找如何将 30+gb、2000+ 彩色 TIFF 图像系列转换为能够使用基于 GPU 的体积渲染(使用 OpenCL / OpenGL / GLSL)实时可视化的数据集(交互式帧速率)的想法。我想使用直接体积可视化方法而不是表面拟合(即光线投射而不是行进立方体)。

问题有两个方面,首先我需要将图像转换为 3D 数据集。我首先想到的是将所有图像视为 2D 纹理,然后简单地将它们堆叠以创建 3D 纹理。

第二个问题是交互式帧速率。为此,我可能需要某种下采样结合“按需细节”在缩放或其他东西时加载高分辨率数据集。

我发现的第一种逐点方法是:

  1. 通过逐层处理将完整的体数据多边形化,生成相应的图像纹理;
  2. 通过顶点处理器操作执行所有必要的转换;
  3. 将多边形切片分成更小的片段,记录相应的深度和纹理坐标;
  4. 在片段处理中,部署顶点着色器编程技术来增强片段的渲染。

但是我对如何开始实施这种方法没有具体的想法。

我很想看到一些关于如何开始实施上述方法的新想法或想法。

0 投票
8 回答
17254 浏览

r - 在 R 中绘制非常大的数据集

如何在 R 中绘制一个非常大的数据集?

我想使用箱线图、小提琴图或类似的图。所有数据都无法放入内存。我可以逐步阅读并计算制作这些图所需的摘要吗?如果有怎么办?

0 投票
4 回答
2200 浏览

java - NTFS 目录有 100K 条目。如果分布在 100 个子目录中,性能会提升多少?

上下文 我们有一个本地文件系统支持的缓存库。由于大量条目(例如多达 100,000 个),我们目前在一次安装时遇到性能问题。问题:我们将所有 fs 条目存储在一个“缓存目录”中。非常大的目录表现不佳。

我们正在考虑将这些条目分散到子目录中——就像 git 所做的那样,例如 100 个子目录,每个子目录大约 1,000 个条目。

问题

我知道较小的目录大小将有助于文件系统访问。

但是“传播到子目录”会加速遍历所有条目,例如枚举/读取所有 100,000 个条目吗?即当我们从 FS 存储初始化/预热缓存时,我们需要遍历所有 100,000 个条目(并删除旧条目)可能需要 10 多分钟。

“传播数据”会减少这种“遍历时间”。此外,这种“遍历”实际上可以/确实删除过时的条目(例如超过 N 天)“传播数据”会改善删除时间吗?

附加上下文 -NTFS -Windows 系列操作系统(Server 2003、2008)

-Java J2ee 应用程序。

我/我们将不胜感激任何关于文件系统可扩展性问题的教育。

提前致谢。

将要

ps 我应该评论说我有工具和能力来自己测试这个,但我想我会先选择蜂巢思维来获得理论和经验。

0 投票
5 回答
1303 浏览

java - 一个读取线程,一个写入线程,n 个工作线程

我正在尝试用 Java 开发一段代码,它将能够处理 JDBC 驱动程序从 SQL 数据库中获取的大量数据,然后持久化回 DB。

我想创建一个包含一个读取器线程、一个写入器线程和可定制数量的工作线程处理数据的管理器。读取器线程会将数据读取到 DTO 并将它们传递到标有“准备处理”的队列。工作线程将处理 DTO 并将处理过的对象放入另一个标记为“准备好持久化”的队列中。编写器线程会将数据持久化回数据库。这种方法是最优的吗?或者我应该允许更多的读者来获取数据?Java中是否有任何现成的库可以做我不知道的这种事情?

0 投票
0 回答
282 浏览

wcf - 将大型或复杂对象从 WCF 服务器发送到客户端

我的应用程序是近乎实时的数据缓冲应用程序。

我正在使用网络。用于发送复杂对象的 TCP 绑定。

通过不同的回调函数向客户端缓冲数据。

尽管我启用了某些事件,但应用程序会减慢并转换为非实时的。

任何人都可以帮助以最佳方式将实时数据缓冲到 WCF 中具有大型复杂对象的多个客户端???

0 投票
3 回答
3126 浏览

sql - SQL 2008 R2 独立服务器应在单个表中存储的最大推荐行数是多少?

我正在为实时 AJAX Web 应用程序的功能和性能设计我的数据库,我目前没有资源来添加数据库服务器冗余或负载平衡。

不幸的是,我的数据库中有一个表可能最终存储数亿行,并且需要快速读取和写入以防止滞后 Web 界面。

此表中的大多数(如果不是全部)列都是单独索引的,我很想知道在大型表上运行查询时是否有其他方法可以减轻服务器的负担。但是,在单个非集群 SQL 服务器开始阻塞之前,表的大小(以行GB 为单位)最终是否存在上限?

我的数据库只有十几个表,可能有几十个外键关系。我的表都没有超过 8 列左右,这些表中只有一两个最终会存储大量行。希望我的数据库的简单性能够弥补这对表中的大量数据......

0 投票
3 回答
188 浏览

python - 我应该怎么做才能适应大规模的数据存储和检索?

mysql 数据库中的表中有两列。第一列包含指纹,而第二列包含具有该指纹的文档列表。它很像搜索引擎构建的倒排索引。表内记录的一个实例如下所示;

指纹的数量非常大(可达数万亿)。数据库中基本上有以下操作:插入/更新记录和根据指纹匹配检索记录。表定义python片段是:

插入/更新操作的片段是:

到目前为止,我观察到的唯一瓶颈是 mysql 中的查询时间。我的整个应用程序是基于网络的。所以时间是一个关键因素。我也想过使用 cassandra,但对它的了解较少。请建议我一个更好的方法来解决这个问题。

0 投票
2 回答
1531 浏览

java - 通过套接字发送 5MB 数据?

嗨,我想使用 Java 编程语言通过 TCP 从服务器向 Android 客户端发送固定数量的数据(比如 5MB)。数据无关紧要,它会被丢弃在客户端我这样做只是为了在手机上进行性能测量。

任何人都可以推荐一个实现这一目标的好方法吗?如何让服务器不断发送大量数据?没有从文件中读取一行,然后发送这些字节的间歇性行为......然后读取另一行并发送这些字节。

想法?干杯。