问题标签 [bigdata]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
file - 非常大的 Jar 文件和 FAT32
我正在对我们正在开发的一大块桌面应用程序进行一些分析。
一个要求是它能够对一些传统文件格式进行 i/o,实际上每个文件格式运行高达 800Mb。可以合理地预期导入的大小约为 5Gb。
理想情况下,我只需将我想要的任何文件粘贴到 jar 文件中,签署该文件,然后将其发送出去以便稍后重新导入。
但据我所知,我们的应用程序必须支持 XP Pro (FAT32),其最大文件大小限制约为 4Gb。
我必须将我的数据分成多个块吗?(因此承担跟踪正在发生的事情的复杂性?)
sql-server - 数据库规模巨大
我有以下问题。我们有一个在数据库中存储二进制文件的数据库。我们知道数据库的大小可能很大,因此我们从数据库中删除了所有二进制文件并对其使用了“缩小”任务。这样,我们希望数据库会小得多。这些是结果:
删除前的大小为:20 GB 删除后的大小为:25 GB(包括日志文件) 缩小后的大小为:13 GB
现在我不知道这 13 gig 是从哪里来的,数据库中最大的表是一个 logtable,它是 1.3 gig,其余的加起来不需要 200 mb ...
会不会是日志文件中还有一些数据是收缩任务无法删除的?这个问题有解决方案吗?
unix - 如何修改从网络驱动器读取 5G 日志文件的 Scala 脚本以读取最后 x 行(如 Unix 中的“tail”)?
如何修改从网络驱动器读取 5G 日志文件的 Scala 脚本以读取最后 x 行(如 Unix 中的“tail”)?
mysql - 数据库缓慢检索/更新/插入问题,每个表中有超过 500 万条记录
如何构建数据库以避免减速?(引擎:MyISAM)
目前,我在一个表中有超过 500 万条记录的数据库,这会导致数据检索缓慢。我目前正在寻找构建数据库的方法以避免这种数据库。(数据库引擎 MyISAM)
导致问题的表是每个具有超过 500 万条记录的帖子和评论。
在按日期保存记录时,我有一个想法,当使用文本文件作为存储时,每个文件都包含足够的数据,不会减慢检索和保存过程,但是对于数据库我不知道该怎么做:(
有什么方法可以在 MySQL 数据库中保存数据(每个大约 500 万条记录),以免导致检索、插入或更新数据缓慢?
“帖子”结构
询问:
mysql - 实现 MySQL NDB Cluster 的限制是什么?
我想为 MySQL Cluster 6 实现 NDB Cluster。我想为具有至少 200 万条记录的非常庞大的数据结构执行此操作。
我想知道实现 NDB 集群是否有任何限制。例如,NDB 集群的 RAM 大小、数据库数量或数据库大小。
matlab - 在 MATLAB 中存储 16 × (2^20) 矩阵的最佳方法是什么?
我正在考虑将数据写入文件。有没有人有如何将大量数据写入文件的示例?
编辑:矩阵中的大多数元素都是零,其他元素是uint32
. 正如@Jonas 建议的那样,我猜是最简单的save()
并且会起作用。load()
postgresql - 在 PostgreSQL 中计算和节省空间
我在 pg 中有一个表格,如下所示:
以上加起来每行最多 50 个字节。我的经验是,我需要另外 40% 到 50% 的系统开销,甚至没有任何用户创建的上述索引。因此,每行大约 75 个字节。我将在表中有很多很多行,可能超过 1450 亿行,因此该表将推送 13-14 TB。如果有的话,我可以使用什么技巧来压缩这张桌子?我可能的想法如下......
将real
值转换为integer
. 如果它们可以存储为smallint
,则每个字段节省 2 个字节。
将列 b .. m 转换为数组。我不需要搜索这些列,但我确实需要能够一次返回一列的值。所以,如果我需要 g 列,我可以做类似的事情
我会使用数组选项节省空间吗?会不会有超速处罚?
还有其他想法吗?
sql - 关于使用大型数据库,我需要了解什么?
我想知道在使用大型数据库时会出现哪些具体问题/解决方案/建议/最佳实践[不要因为这个词而惩罚我]。
在巨大的情况下,我暗示数据库,其中包含具有数百万行的表和/或具有 PB 级数据的数据库。
面向平台的答案也会很棒。
sorting - 大数据排序和搜索
我有两个数据文件,每个文件 100 个字符行。文件 A:10 8行,文件 B:10 6行。而且我需要从文件 B 中找到不在文件 A 中的所有字符串。
起初我想将这两个文件都提供给 mysql,但看起来它永远不会完成在 10 8条记录上创建唯一键。
我正在等待您对此的建议。
python - 如何开始使用大数据分析
我是 R 的长期用户,最近开始使用 Python。使用传统的 RDBMS 系统进行数据仓库,使用 R/Python 进行数字运算,我觉得现在有必要亲自动手进行大数据分析。
我想知道如何开始使用大数据处理。- 如何从 Map/Reduce 和 Hadoop 的使用开始简单
- 如何利用我在 R 和 Python 方面的技能开始大数据分析。以 Python Disco 项目为例。
- 使用 RHIPE 包并查找玩具数据集和问题区域。
- 找到正确的信息,让我决定是否需要从 RDBMS 类型的数据库迁移到 NoSQL
总而言之,我想知道如何从小处着手,逐步建立我在大数据分析方面的技能和专业知识。
感谢您的建议和建议。对于此查询的一般性质,我深表歉意,但我希望获得有关此主题的更多观点。
- 残酷的