问题标签 [high-volume]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
6450 浏览

data-structures - 时间日历数据结构

我们正在考虑更新(重写)我们的系统,该系统存储有关人们在白天何时可以预订房间等信息。现在,我们将房间可用的开始时间和日期存储在一个表中,而在另一个表中存储个人约会时间。

从表面上看,以这种方式存储信息似乎是一个合乎逻辑的想法,但随着时间的推移和系统负载过重,我们开始意识到这种数据结构似乎效率低下。(搜索所有房间的可用时间并计算房间何时可用成为一项密集操作。如果房间在给定时间内可用,那么它可用的时间是否足够长以适应所请求的时间)。

我们一直在讨论如何让系统更高效,我们认为必须有更好的方法来解决这个问题。有没有人有关于如何去做的建议,或者有任何地方可以寻找如何构建这样的东西?

0 投票
3 回答
14507 浏览

transactions - 如果消息在 MQ 中回滚,会发生什么?

我收到来自 WebSPhere MQ 队列的消息。我尝试处理,如果我收到一些异常,我想将消息回滚到 MQ 队列。

我做同样的事情没有问题。消息会发生什么?它会排到队列的底部吗?

如果我尝试从队列中提取消息,我会收到与回滚相同的消息吗?

可能的行为是什么?我想知道这种行为通常在大容量队列场景中吗?

感谢任何输入。

谢谢,芒卢

0 投票
1 回答
278 浏览

mysql - 数百万条目的数据库设计

假设有一个消息系统。这个系统有数以百万计的条目要发送和报告,并且这个数量每小时增长 100K。2个服务访问db,一个是sender,一个是reporter。那么,为了获得最佳性能,您有什么建议?如何设计数据库?

您还建议在 mysql、postgresql、mongodb 等中使用什么开源 RDBMS 来充实这个大容量数据库?

谢谢

0 投票
1 回答
825 浏览

logging - 记录大量基于 Java 的 API 服务请求的统计信息

我希望能够记录基于 Java 的 API 服务的使用统计信息。估计的请求率在每分钟 10 到 300 个之间,并且可能会增长到更高的数字。我不需要详细的分析,只需要一个简单的点击计数器,它会在指定的时间间隔内记录点击次数,这样我就可以绘制使用率与时间的关系图。

我知道一种可能性是 MySQL 中的日志命中或转储文件,但我认为这可能存在潜在的性能问题,因为 MySQL 请求似乎很昂贵。有更好的解决方案吗?我浏览了网络,但没有找到一个好的答案。

0 投票
1 回答
213 浏览

delphi - 大容量记录器应用程序使用什么分配方法?

我正在使用 Delphi 开发记录器/嗅探器。在操作期间,我获得了大量数据,在压力操作期间可以累积到大约 3 GB 的数据。在某些计算机上,当我们达到这些级别时,应用程序会停止运行,有时还会引发异常。

目前我正在使用 GetMem 函数将指针分配给每条消息。

有没有更好的方法来分配内存,这样我就可以最大限度地减少失败的机会?请记住,我不能将大小限制为硬限制。

您如何看待使用 HeapAlloc、VirtualAlloc 甚至映射文件?哪个会更好?

谢谢你。

0 投票
2 回答
2072 浏览

c - 主要用于编写哪个 NoSQL 数据库

我正在开发一个将生成大量数据并将其存储到磁盘的系统。该公司以前开发的系统使用普通文件来存储其数据,但由于多种原因,它变得非常难以管理。

我相信 NoSQL 数据库对我们来说是很好的解决方案。我们要存储的通常是带有一些元数据注释的文档(通常大约 100K,但有时可能更大或更小)。查询性能不是重中之重。优先级是以 I/O 变得尽可能少的方式编写。数据生成的速率约为 1Gbps,但我们可能会在未来达到 10Gbps(甚至更高)。

我的另一个要求是(最好是有据可查的)C API 的可用性。我目前正在测试 MongoDB。这是一个不错的选择吗?如果没有,我可以使用其他什么数据库系统?

0 投票
1 回答
2745 浏览

python - 使用多处理启动大量异步进程

如果我调用apply_async 10,000 次,假设OOM-killer 不干扰,多处理会同时启动它们,还是分批启动它们。例如.. 每 100 次启动,等待 90 次启动完成再启动?

达斯汀

0 投票
0 回答
215 浏览

performance - Cassandra 写入 500MB 数据失败

我正在尝试使用 Datastax 驱动程序将 2GB(这是 Cassandra 单个键/值的限制)数据写入单个(或多个)列,在一台机器 Windows 节点上使用 CQL3。我几乎无法写入像 100MB 这样的数据(在单列中) ,这也是通过面对几乎所有类型的异常和配置更改。如果我尝试写入 100MB 数据,我必须保留“commitlog_segment_size_in_mb: 200”,这有效;在那之后Cassandra自杀了。有什么方法可以将多达2GB的数据插入一个(至少)或多个列并找出时间?

0 投票
1 回答
264 浏览

excel - 报告海量数据

我们运行一个 SAAS 产品。我们的一位客户是企业客户,而其他客户为 6 个月的账单报告生成 8-10,000 行数据。它们生成大约 300,000 行数据。每行有 30 列。因此,当他们尝试转到我们的报告模块并导出他们 6 个月的报告时,我们的服务器会因为 CPU 跃升至 80% 而无响应,并且整个过程都会失败。在连接等之后从 SQL 数据库中获取 300K 需要 30 分钟,然后需要 3 小时在 excel 中写入 30 列的 300K 行。我担心只有 1 个客户会导致整个网站瘫痪,因为我们有 40 份报告,如果他们开始返回 6 个月并导出数据,其他用户的体验将会很糟糕。

在 SAAS 产品中处理如此大量数据导出的最佳方法是什么?

发送

0 投票
0 回答
452 浏览

antlr4 - 大容量文件的 Antlr4 性能问题

我们在解析 Oracle 文件时面临 antlr 性能问题。用于转换的 oracle 文件具有相当大的 17/24/38 mb 文件。在构建解析树时,它需要大量的时间和内存。它甚至提供核心 OOM 转储。我们尝试禁用解析树的构建,但这不起作用,因为 walker 不会通过文件并生成一个空白文件。我们尝试 使用BufferedInputStream. FileInoutStream我们甚至尝试使用 BufferedTokenStream, UnbufferedCharStream, UnbufferedTokenStream, 而不是解析器和词法分析器的其他相应或等效流。这些选项都不起作用,并且解析树需要大量的内存和时间来生成和遍历。我们也尝试使用 2 Gigs 的堆内存运行,但是它超出了这个范围并提供了核心 OOM 转储。

从在线论坛看来,当 Antlr 尝试解析大型输入文件时,这似乎是一个非常常见的问题。作为替代方案,它建议将输入文件分解为多个小文件。它还说我们可以将听众和访问者放在一边,直接在语法中创建对象并使用哈希图/向量。

setBuildParseTree = false 的引用有什么好的例子吗? ANTLR4 java解析器可以处理非常大的文件还是可以流式传输文件 可以用ANTLR解析大文件吗?

您过去是否遇到过任何此类 Antlr 问题,如果是,是如何处理的?有什么建议可以帮助减少内存占用并使 Antlr 的性能更快吗?

输入文件主要包含选择和插入语句。但这些文件体积很大。