“bigdata”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

169 浏览

file - 非常大的 Jar 文件和 FAT32

我正在对我们正在开发的一大块桌面应用程序进行一些分析。

一个要求是它能够对一些传统文件格式进行 i/o，实际上每个文件格式运行高达 800Mb。可以合理地预期导入的大小约为 5Gb。

理想情况下，我只需将我想要的任何文件粘贴到 jar 文件中，签署该文件，然后将其发送出去以便稍后重新导入。

但据我所知，我们的应用程序必须支持 XP Pro (FAT32)，其最大文件大小限制约为 4Gb。

我必须将我的数据分成多个块吗？（因此承担跟踪正在发生的事情的复杂性？）

2009-04-15T14:01:41.003

0 投票

4 回答

2937 浏览

sql-server - 数据库规模巨大

我有以下问题。我们有一个在数据库中存储二进制文件的数据库。我们知道数据库的大小可能很大，因此我们从数据库中删除了所有二进制文件并对其使用了“缩小”任务。这样，我们希望数据库会小得多。这些是结果：

删除前的大小为：20 GB 删除后的大小为：25 GB（包括日志文件）缩小后的大小为：13 GB

现在我不知道这 13 gig 是从哪里来的，数据库中最大的表是一个 logtable，它是 1.3 gig，其余的加起来不需要 200 mb ...

会不会是日志文件中还有一些数据是收缩任务无法删除的？这个问题有解决方案吗？

sql-server database size bigdata shrink

anon

2009-08-11T10:00:24.507

0 投票

3 回答

798 浏览

unix - 如何修改从网络驱动器读取 5G 日志文件的 Scala 脚本以读取最后 x 行（如 Unix 中的“tail”）？

如何修改从网络驱动器读取 5G 日志文件的 Scala 脚本以读取最后 x 行（如 Unix 中的“tail”）？

unix scala scripting bigdata

2009-11-03T18:31:16.453

0 投票

3 回答

382 浏览

mysql - 数据库缓慢检索/更新/插入问题，每个表中有超过 500 万条记录

如何构建数据库以避免减速？（引擎：MyISAM）

目前，我在一个表中有超过 500 万条记录的数据库，这会导致数据检索缓慢。我目前正在寻找构建数据库的方法以避免这种数据库。（数据库引擎 MyISAM）

导致问题的表是每个具有超过 500 万条记录的帖子和评论。

在按日期保存记录时，我有一个想法，当使用文本文件作为存储时，每个文件都包含足够的数据，不会减慢检索和保存过程，但是对于数据库我不知道该怎么做:(

有什么方法可以在 MySQL 数据库中保存数据（每个大约 500 万条记录），以免导致检索、插入或更新数据缓慢？

“帖子”结构

询问：

mysql database-design performance database bigdata

2009-12-25T15:30:45.250

0 投票

2 回答

13849 浏览

mysql - 实现 MySQL NDB Cluster 的限制是什么？

我想为 MySQL Cluster 6 实现 NDB Cluster。我想为具有至少 200 万条记录的非常庞大的数据结构执行此操作。

我想知道实现 NDB 集群是否有任何限制。例如，NDB 集群的 RAM 大小、数据库数量或数据库大小。

mysql cluster-computing bigdata mysql6

2009-12-30T14:34:07.900

0 投票

3 回答

497 浏览

matlab - 在 MATLAB 中存储 16 × (2^20) 矩阵的最佳方法是什么？

我正在考虑将数据写入文件。有没有人有如何将大量数据写入文件的示例？

编辑：矩阵中的大多数元素都是零，其他元素是uint32. 正如@Jonas 建议的那样，我猜是最简单的save()并且会起作用。load()

matlab matrix file-io bigdata

2010-05-24T19:44:08.257

0 投票

4 回答

34485 浏览

postgresql - 在 PostgreSQL 中计算和节省空间

我在 pg 中有一个表格，如下所示：

以上加起来每行最多 50 个字节。我的经验是，我需要另外 40% 到 50% 的系统开销，甚至没有任何用户创建的上述索引。因此，每行大约 75 个字节。我将在表中有很多很多行，可能超过 1450 亿行，因此该表将推送 13-14 TB。如果有的话，我可以使用什么技巧来压缩这张桌子？我可能的想法如下......

将real值转换为integer. 如果它们可以存储为smallint，则每个字段节省 2 个字节。

将列 b .. m 转换为数组。我不需要搜索这些列，但我确实需要能够一次返回一列的值。所以，如果我需要 g 列，我可以做类似的事情

我会使用数组选项节省空间吗？会不会有超速处罚？

还有其他想法吗？

postgresql database-design storage bigdata

2010-06-03T13:44:57.080

0 投票

6 回答

2907 浏览

sql - 关于使用大型数据库，我需要了解什么？

我想知道在使用大型数据库时会出现哪些具体问题/解决方案/建议/最佳实践[不要因为这个词而惩罚我]。

在巨大的情况下，我暗示数据库，其中包含具有数百万行的表和/或具有 PB 级数据的数据库。

面向平台的答案也会很棒。

sql database database-design bigdata

2010-09-14T18:06:07.903

0 投票

3 回答

1338 浏览

sorting - 大数据排序和搜索

我有两个数据文件，每个文件 100 个字符行。文件 A：10 ⁸行，文件 B：10 ⁶行。而且我需要从文件 B 中找到不在文件 A 中的所有字符串。
起初我想将这两个文件都提供给 mysql，但看起来它永远不会完成在 10 ⁸条记录上创建唯一键。

我正在等待您对此的建议。

sorting search bigdata

2010-10-13T18:15:25.620

0 投票

2 回答

18193 浏览

python - 如何开始使用大数据分析

我是 R 的长期用户，最近开始使用 Python。使用传统的 RDBMS 系统进行数据仓库，使用 R/Python 进行数字运算，我觉得现在有必要亲自动手进行大数据分析。

我想知道如何开始使用大数据处理。- 如何从 Map/Reduce 和 Hadoop 的使用开始简单

如何利用我在 R 和 Python 方面的技能开始大数据分析。以 Python Disco 项目为例。
使用 RHIPE 包并查找玩具数据集和问题区域。
找到正确的信息，让我决定是否需要从 RDBMS 类型的数据库迁移到 NoSQL

总而言之，我想知道如何从小处着手，逐步建立我在大数据分析方面的技能和专业知识。

感谢您的建议和建议。对于此查询的一般性质，我深表歉意，但我希望获得有关此主题的更多观点。

残酷的

python r hadoop bigdata

2010-12-01T08:45:49.970

问题标签 [bigdata]

Reference