问题标签 [large-scale]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
61 浏览

java - 如何从 60GB 文件构建 NEO4j db?

我正在构建它的图形数据库,dbpedia - 2014它由大约60GB三重文本文件组成。什么是时间和内存有效的解决方案?我的机器有:

  1. 内存 - 8GB
  2. CPU - 2.20 GHz
  3. 高清 - 500 GB(硬盘)
0 投票
2 回答
624 浏览

algorithm - 如何使用多台机器扩展算法/服务/系统?

我最近接受了一些采访,被问到一些规模问题是很正常的。例如,您有一个很长的单词列表(dict)和字符列表作为输入,设计一个算法来找出 dict 中包含字符列表中所有字符的最短单词。然后面试官问如何将你的算法扩展到多台机器上。另一个例子是您为城市的一个十字路口设计了一个交通灯控制系统。您如何将此控制系统扩展到具有许多交叉路口的整个城市。我一直对这种“规模”问题一无所知,欢迎提出建议和意见。

0 投票
1 回答
76 浏览

matlab - 如何解析系统矩阵为 1187550*391275 的 ILP(积分线性规划)模型?

我尝试了 lingo 软件。100多个小时过去了,我还没有得到结果。

我尝试了 MATLAB 软件。当我运行此代码“A=zeros (1187550,391275)”时出现错误:程序允许的最大变量值

那么,有没有一些好的方法来解决这个大规模的矩阵模型呢?

0 投票
0 回答
166 浏览

firebase - 如何使用 Firebase 扇出/分发 500,000 条记录?

要求:

  • 用户可以自由注册公司和退订。
  • 用户应该只获得他们注册的公司的帖子。
  • 用户不应该看到他们已经喜欢/不喜欢的帖子

目前,我们正在做的是,当用户加入公司时,我们将相关帖子复制给用户User_Feed,客户端获取帖子。

现在假设我们有 40K 帖子和 500K 用户。每个加入公司的用户,我们需要将 40K 的数据复制到用户提要。或者当一个公司发布一个新帖子时,我们需要构建一个巨大的扇出对象来传递到 500K USER_FEEDs。

这是不可扩展的。

David East 在他的帖子中指出,扇出技术支持数百万条记录,但即使在他的示例中,他如何处理 100 万粉丝?

我们觉得我们走错了路。
我们的问题有更好的解决方案吗?

我们目前有以下结构:

这篇文章也在Firebase Google Group中打开

0 投票
1 回答
124 浏览

r - 大规模数据逻辑回归

我有以下输入数据:

VarA属于 类型POSIXct,VarD属于 类型chr,rests属于 类型num.

VarE是我的因变量。VarC, VarB, VarG, VarH and VarI是我的解释变量。数据集的总行数为7.4 million. 我想运行逻辑回归。我尝试bigglm使用. 但它是。因此,我没有得到正确的偏差值。所以我在计算相同的值时遇到问题。你能建议任何替代包装/方式吗?biglmbinomial familyfailing to convergeMcFadden's R-Sqr

提前致谢。

0 投票
0 回答
29 浏览

caching - 如何独立扩展 M 个 Web 应用服务器和 N 个缓存服务器?

我在负载均衡器后面有M 个 Web 应用程序服务器(上面有相同的应用程序,无共享)。运行的应用程序需要大量缓存,所以我希望后面有N 个缓存服务器(使用 Memcached)。

我想使用一致的散列,所以我可以轻松添加/删除缓存服务器。据我所知,一致性哈希是在 Memcache 客户端级别实现的(例如,在调用 addServer/removeServer 时,如果 Memcached 设置为一致性哈希模式,则在其余实例之间平衡键)。但是,在这种情况下,我有 M 个客户端(访问缓存实例的网络服务器)

我如何能够在不使用附加系统作为代理(在 Web 服务器和缓存服务器之间)的情况下处理 Web 服务器和缓存服务器之间的独立缩放,从而能够在给定初始密钥的情况下定位缓存服务器?我的任何 Web 服务器(配置相同)如何知道如何在给定密钥的情况下访问正确的缓存服务器?

对此的最佳做法是什么?

0 投票
1 回答
187 浏览

mysql - 一张表与多张表的 MySQL 性能

我知道 MySQL 通常可以很好地处理包含许多行的表。但是,我目前面临一个设置,一个表将由多个用户(大约 10 个)同时读取和写入,并且该表很可能包含 100 亿行。

我的设置是一个带有 InnoDB 存储引擎的 MySQL 数据库。

我有一些项目的心,在这些项目中,这种大小的表会变得效率降低和速度变慢,也涉及索引。

我不喜欢为了拆分行而拥有多个具有完全相同结构的表的想法。主要问题:但是,这不能解决由于如此多的行而导致性能下降的问题吗?

附加问题:我还能做些什么来处理这么大的桌子?行数本身不会减少。

0 投票
2 回答
17214 浏览

pyspark - 在大型 PySpark 数据帧的每一行中应用一个函数?

我有一个大数据框(~30M 行)。我有一个功能f。的业务f是遍历每一行,检查一些逻辑并将输出输入字典。该功能需要逐行执行。

我试过了:

dic = dict() for row in df.rdd.collect(): f(row, dic)

但我总是遇到错误OOM。我将 Docker 的内存设置为 8GB。

我怎样才能有效地开展业务?

0 投票
1 回答
534 浏览

modelica - 用于模型交换的大型模型和 FMU

我想将大型模型从 Openmodelica 导出到 FMU 以进行模型交换。

作为第一步,我将此模型用于测试目的:

改变“n”我们可以生成大模型。

根据 OpenModelica 版本和操作系统,最大方程数变化很大:

  • Windows 10 64 位 - OM 32 位 - 16 GB RAM - 4 CPU - i7) => n = 2600;方程 = 13000。
  • Windows 10 64 位 - OM 64 位 - 8 GB RAM - i5 => n = 100;方程式 = 500。
  • Windows 10 64 位 - OM 64 位 - 16 GB RAM - 4 CPU - i7) => n = 与前一个类似。
  • Ubuntu 17.10.1 64 位 - OM 64 位 - 虚拟机 - 8GB RAM - 1 CPU=> n = 22500;方程 = 112500

这对你有任何意义吗?

在 Windows 中是否可以达到 n = 22500?

谢谢!!!

0 投票
2 回答
182 浏览

html - 在 laravel 中处理前端大型项目

我们的团队,与 laravel 合作,我们想开始一个大型项目。前端项目将使用 Html Css Bootstrap jquery Sass 编写,我们的 task runner 是 Gulp


我们的项目目录将如何?sass 目录以及我的文件和图像它们去哪里了?