问题标签 [large-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
database - 快速处理大量数据
我正在开发一个用户提供参数的 Web 应用程序,这些参数用于从多达 2000 万行的数据库中生成前 1000 项的列表。我需要一次所有前 1000 项,并且从用户的角度来看,我需要或多或少立即发生此排名。
目前,我正在使用带有用户定义函数的 MySQL 对数据进行评分和排名,然后 PHP 从那里获取它。在 1M 行的数据库上进行测试,这大约需要 8 秒,但我需要大约 2 秒的性能,即使对于高达 20M 行的数据库也是如此。最好,这个数字应该更低,这样可以保证多达 50 个同时用户的良好吞吐量。
我对任何可以尽可能高效地处理这些数据的软件的任何进程持开放态度,无论它是否是 MySQL。以下是该过程的特征和约束:
- 与评分过程相关的每一行的数据约为每项 50 个字节。
- 对数据库的插入和更新可以忽略不计。
- 每个分数都独立于其他分数,因此可以并行计算分数。
- 由于参数和参数值较多,无法预先计算分数。
- 该方法应该适用于多个同时用户
- 就服务器数量而言,这需要的计算资源越少越好。
谢谢
c# - Linq和添加大量数据
我需要向数据库插入大量数据sqlite
。
我用Linq to Entities
.
我在添加大量数据1M+时遇到问题。
内存不够或时间很长。
此代码 - 速度快,但需要大量内存:
这段代码 - 不是资源密集型,但非常慢:
我错过了 try-catch 构造和幽灵类型。
帮我找到最好的解决方案!
wcf - 如何将流与返回大型数据集的 WCF 服务一起使用?
我对 WCF 还很陌生,我正在尝试弄清楚流媒体是如何工作的。我基本上有一个 Web 服务应该从数据库返回一些信息。返回的数据可能非常大。我想知道是否有人可以指出这是如何完成的一个很好的例子。如果我理解正确,我的 Web 服务方法应该返回一个流对象。但是我实际上如何将数据传递给流?只是序列化每个对象并将其写入流吗?如果是这样,序列化将如何完成?再一次,一个简单的例子将不胜感激。
php - 在 PHP 中加密大量数据
我开发了一个软件,它必须先加密数据才能将其发送到同一软件的另一个实例(当然必须解密它)。我首先使用openssl_public_encrypt / openssl_private_decrypt,像这样
和
因为要加密的数据块不能大于密钥,但是解密部分需要太多时间(xdebug 告诉我这是对 openssl_private_decrypt() 的调用,这需要所有时间)。
我尝试使用对称算法 mcrypt_decrypt/MCRYPT_RIJNDAEL_256 (使用 openssl 加密密钥),但情况更糟。如何以安全的方式传输大量数据?文件是 CSV(文本)并放在 SSH/SFTP 服务器上,它们必须加密。
谢谢,
塞德里克
ruby - 计算大型字符串数据集的最快设置是什么?
对于我的日常工作,我的任务是建立一个计算机系统来对一个大型字符串数据库进行计算。我已经建立了概念验证,但没有优化硬件和软件环境的底层知识。我希望在这方面得到一些指导。
设置:
- 包含字符串的数据库中的 100,000 条记录
- 我将执行字符串相似度计算以查找近似重复项
- 即每个字符串对每个其他字符串,所以约 50 亿次计算
- 我使用 SQLite3 作为数据库,使用 1000 个样本行在 Ruby 中编写了概念证明
- 整个工作应该在几天内完成——越快越好,但收益会递减。这是一次性通行证,所以如果桌面设置可以在几天内完成,我不需要超级计算机
我在寻找什么:
- 如果我正在构建一个自定义盒子来运行这项工作(以及未来可能具有类似性质的工作),我应该专注于优化哪些硬件?即我应该把有限的预算花在速度非常快的 GPU 上吗?中央处理器?大量内存?我对 Ruby 的了解不够低,无法知道此类操作的瓶颈在哪里
- 我错过了更好的方法吗?至少在我能证明这种方法适用于这种运行方式之前,我不会批准购买任何主要的软件或昂贵的硬件。但是任何人都可以提出一种更有效的检测不精确重复的方法吗?
r - R 引导包:没有足够的内存来获得置信区间
我已经使用引导包在 R 中运行了一个相当大的引导程序。
当我第一次运行 boot() 时,我得到了这个:
因此,为了获得引导对象,我必须使用“simple=TRUE”,它告诉 boot() 在开始时不要分配所有内存(根据 ?boot)。这工作得很好,虽然花了几分钟。
现在我需要得到置信区间:
同样的问题!但根据 ?boot.ci,没有可以与此功能一起使用的“simple = TRUE”标志(我已经尝试过)。
那么,有没有办法使用 boot.ci() 来解决这个问题?
而且,如果没有,我该怎么做才能增加它可以使用的内存量?
java - 大型稀疏矩阵的奇异值分解的Java实现
我只是想知道是否有人知道大型稀疏矩阵的奇异值分解(SVD)的Java实现?我需要这个实现来进行潜在语义分析(LSA)。
我尝试了来自 UJMP 和 JAMA 的软件包,但是当行数 >= 1000 和 col >= 500 时它们会窒息。如果有人能指出我的伪代码或那里的东西,那将不胜感激。
c# - 通过 REST 发送大量数据 - 最佳实践
如何通过 REST 将 100,000 条记录从应用程序的一个部分发送到另一台服务器上该应用程序的另一部分。
我正在考虑在一个 POST 请求中发送 PKEY 数据,然后通过 PUT 批量填充每条记录。尽管如此,我仍然不清楚如何正确地做到这一点。
有3个问题:
a) 建议的方法好吗?最佳实践呢?b)做一个帖子然后放好?c)每个请求(意味着 100,000 个请求)或通过内容长度检查数据或......什么都可以?:D
提前致谢。巴特
data-visualization - 用于探索和分析大数据的架构
我们正计划为大量事件(以百万计)构建一个数据探索系统。事件由时间、纬度/经度坐标和其他一些具有域约束值的属性组成,例如类型和用户 ID。
目标是在三个面板上提供数据的可视化:
- 地图(事件聚集在标记或热图中)
- 时间直方图(事件按日期分布)
- 属性直方图(属性直方图:类型、用户、...)
用户将通过过滤属性(方面)、时间间隔或空间范围以交互方式深入数据。
我们正在考虑一个 OLAP 服务器,但不知道这是否是最合适的解决方案。
哪种架构/系统可以在如此大的数据集上处理此操作?对此有何经验或建议?最好使用开源组件。
谢谢
wcf - 使用 WCF 提供大型报表数据集
我需要一个应用程序来访问远程数据库中的报告数据。我们目前有一个 WCF 服务来处理这个数据库的 I/O。通常应用程序只是在 WCF 服务和它自己之间来回发送小消息,但是现在我们需要运行一些关于该活动的历史报告。结果可能是几百到几千条记录。我遇到了http://msdn.microsoft.com/en-us/library/ms733742.aspx,它谈到了流式传输,但它也提到了分段消息,我没有找到更多信息。从 WCF 服务发送大量数据的最佳方式是什么?