问题标签 [bigdata]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
4383 浏览

r - 使用 combn() 和 bigmemory 包生成一个非常大的字符串组合矩阵

我有一个包含 1,344 个唯一字符串的向量 x。我想生成一个矩阵,它为我提供所有可能的三个值组,无论顺序如何,并将其导出到 csv。

我在带有 64 位 Ubuntu 的 m1.large 实例上的 EC2 上运行 R。使用 combn(x, 3) 时出现内存不足错误:

结果矩阵的大小为 C1344,3 = 403,716,544 行和三列 - 这是 combn() 函数结果的转置。

我想使用 bigmemory 包创建一个支持 big.matrix 的文件,这样我就可以分配 combn() 函数的结果。我可以创建一个预先分配的大矩阵:

但是当我尝试分配值时,test <- combn(x, 3)我仍然得到相同的结果:Error: cannot allocate vector of size 9.0 Gb

我什至尝试强制执行结果,combn(x,3)但我认为因为 combn() 函数返回错误,所以 big.matrix 函数也不起作用。

有没有办法将这两个功能结合在一起以获得我需要的东西?有没有其他方法可以实现这一目标?谢谢。

0 投票
2 回答
3528 浏览

text-editor - 千兆字节大小文件的文本编辑器

可能重复:
文本编辑器打开大(巨型,巨大,大)文本文件

我看到文本编辑器可以打开大文本文件,但该问题涉及兆字节大小的文件。我使用 7GB 的 csv 文件,发现即使 vim 和 gedit 也需要很长时间才能打开。

你用什么文本编辑器来处理千兆字节大小的文件?

感谢我能得到的任何建议。

0 投票
3 回答
8509 浏览

c# - 以编程方式设置 MaxItemsInObjectGraph

我有一个在客户端和服务器端使用 WCF 的应用程序。返回大量数据时出现错误:

尝试序列化参数http://tempuri.org/:GetCurrentDatabaseObjectsResult时出错。InnerException 消息是“对象图中可以序列化或反序列化的最大项目数是 '65535'。更改对象图或增加 MaxItemsInObjectGraph 配额。'。有关更多详细信息,请参阅 InnerException。

(主要重要的是我必须增加 MaxItemsInObjectGraph)。

我在这里找到了这篇文章:如何从 Silverlight 应用程序以编程方式设置 maxItemsInObjectGraph 属性?但似乎这仅适用于客户端,我需要在服务器上执行此操作。

0 投票
2 回答
194 浏览

hadoop - What approximate amount of semistructured data is enough for setting up Hadoop cluster?

I know, Hadoop is not only alternative for semistructured data processing in general — I can do many things with plain tab-separated data and a bunch of unix tools (cut, grep, sed, ...) and hand-written python scripts. But sometimes I get really big amounts of data and processing time goes up to 20-30 minutes. It's unacceptable to me, because I want experiment with dataset dynamically, running some semi-ad-hoc queries and etc.

So, what amount of data do you consider enough to setting Hadoop cluster in terms of cost-results of this approach?

0 投票
2 回答
483 浏览

database - 我应该使用什么数据库来存储大量潜在的大型嵌套哈希结构?

我想存储大量(数亿到数千亿)任意嵌套的哈希结构(通常为 4-6 级),其中一些属性位于顶层。我不需要在嵌套哈希内部查询,只需要在顶级属性上查询。在不编写代码的情况下必须可以进行查询,通常是针对顶级属性的完全匹配。更新记录时,我希望能够仅更新已更改的子哈希结构部分,而不必读取/写入整个记录。db 必须具有 C、Ruby 和 Python 的绑定/驱动程序。

Mongodb 似乎是理想的,除了个别项目有 4MB(很快将是 8MB 或 16MB)限制。这些项目中的大多数都很小,但其中一些可能是 100-200MB 甚至更大。

是否有其他符合这些条件的数据库?

0 投票
1 回答
1430 浏览

database - 创建非常大的哈希数据库的技巧

问题:您需要什么解决方案或技巧来处理一个非常大(数 TB)的数据库,该数据库以高冗余的强哈希为索引?

某种倒置存储?

Postgres有什么可以做的吗?

如果需要,我准备推出自己的存储空间。

(提示:必须是开源的,没有Java,必须在Linux上运行,必须是基于磁盘的,C/C++/Python优先)

细节:

我需要创建一个非常大的数据库,其中每条记录都有:

  • 一些任意元数据(一些文本字段),包括一些主键
  • 一个哈希(128 位哈希,类似 MD5 的强)

记录的数量是我认为相当大的:几十到上百亿)。跨行的散列存在显着冗余(超过 40% 的记录的散列至少与另一条记录共享,一些散列存在于 100K 记录中)

主要用途是通过哈希查找,然后检索元数据。次要用途是通过主键查找,然后检索元数据。

这是一个分析型数据库,因此整体负载中等,主要是读取,很少写入,主要是批量写入。

当前的方法是使用 Postgres,在主键上有一个索引,在哈希列上有一个索引。该表是在关闭散列索引的情况下批量加载的。

所有索引都是 btree。哈希列上的索引越来越大,与表本身一样大或更大。在一个 120 GB 的表上,重新创建索引大约需要一天时间。虽然查询性能相当不错。

问题在于,根据测试,目标数据库的预计大小将超过 4TB,其中 400GB 的较小数据集约占总目标的 10%。一旦加载到 Postgres 中,不幸的是超过 50% 的存储被散列列上的 SQL 索引使用。

这太大了。而且我觉得散列中的冗余是一个减少存储的机会。

另请注意,虽然这描述了问题,但需要创建其中一些表。

0 投票
3 回答
3435 浏览

amazon-web-services - 在 Amazon S3 中逐行读取文件?

是否可以使用 Amazon S3 逐行读取文件?我希望让人们在某处上传大文件,然后让一些代码(可能在亚马逊上运行)逐行读取他们的文件并对其进行处理,可能是以减少地图的多线程方式。或者也许只能一次加载 1000 行......有什么建议吗?

0 投票
3 回答
216 浏览

database - 打印所有 18 岁以上的人的名字?

这是最近向我提出的一个很好的问题。假设我们有一个假设的(在此处插入您最喜欢的数据存储工具)数据库,其中包含居住在这个星球上的所有人的姓名、年龄和地址。您的任务是在 HTML 表格中打印出所有年龄大于 18 岁的人的姓名。你会怎么做呢?假设人口以每秒 1200 人的速度增长,并且数据库相应地更新(不要问如何)。在 HTML 表格上打印所有这些人的姓名及其地址的策略是什么?

0 投票
2 回答
4815 浏览

mysql - 在 MATLAB 中处理一个大的 CSV 文件

我必须使用最大 2GB 的大 CSV 文件。更具体地说,我必须将所有这些数据上传到 mySQL 数据库,但在我必须对此进行一些计算之前,所以我需要在 MATLAB 中做所有这些事情(我的主管也想在 MATLAB 中做,因为他只熟悉MATLAB:()。

知道如何处理这些大文件吗?

0 投票
3 回答
454 浏览

c++ - 没有互斥锁的基于模的负载平衡?

我可能会做错这一切,但这是我的问题和建议的解决方案:

您有一个 50+ GB 的文件,其中包含数亿条需要非常快速处理的独立记录。我目前的解决方案是每小时获得 7400 万条记录。我为 I/O 线程使用了一个阻塞队列,每个工作线程都试图从这个队列中获取数据块。

由于 I/O 和工作线程之间的互斥争用,上述内容非常缓慢。

有没有办法在没有锁的情况下做这种风格的生产者/消费者?