“bigdata”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

147 浏览

bigdata - 什么数据存储技术/解决方案允许非常快速的插入、查找和“选择”

这是我的问题。

我想摄取大量数据....现在有数百万行，后来有数十亿行。

我一直在使用 MySQL，现在我正在使用 PostgreSQL。

插入很容易，但在我插入之前，我想检查该特定记录是否存在，如果存在我不想插入。随着数据库的增长，这个操作（显然）需要越来越长的时间。

如果我的数据在 Hashmap 中，查找将是 o(1)，所以我想我会创建一个 Hash 索引来帮助查找。但后来我意识到，如果我每次都必须再次计算哈希，我会大大减慢这个过程（如果我不计算索引，我就没有 o(1) 查找）。

所以我很困惑，有没有简单的解决方案？还是复杂的？我很高兴尝试其他数据存储，但是我需要能够执行相当复杂的查询，例如类似于带有 WHERE 子句的 SELECT 语句的查询，所以我不确定 no-sql 解决方案是否适用。

我是一个新手，所以如果有一个简单的解决方案，我不会感到惊讶。

bigdata datastore

2011-07-09T05:09:46.493

0 投票

2 回答

3662 浏览

mongodb - 如何在 MongoDB 和 CouchDB 中取大数据的平均值？

我在看这个图表...

http://www.mongodb.org/display/DOCS/MongoDB,+CouchDB,+MySQL+Compare+Grid

...它说：

查询方法

CouchDB - 映射/减少 javascript 函数以延迟为每个查询构建索引

MongoDB——动态；基于对象的查询语言

这到底是什么意思？例如，如果我想平均取 1,000,000,000 个值，CouchDB 会自动以 MapReduce 的方式进行吗？

有人可以告诉我如何使用两个系统平均获取 1,000,000,000 个值...这将是一个非常有启发性的示例。

谢谢。

2011-07-13T05:40:31.607

0 投票

2 回答

198 浏览

mysql - 针对特定需求的 NoSQL 建议

我正在使用具有以下简单结构的 MySql 表：

ID_A : 整数 8

ID_B：整数 8

主键：ID_A，ID_B 索引：ID_B
这个 MySQL 表包含超过 5 亿行，权重为 20Go。
我需要能够执行这些查询：
/li>
我试过 innodb 和 MyIsam，但即使配置服务器很大，mysql 也无法回答 Group By 查询。我什至不能从脚本方面做到这一点，因为它会消耗很多内存。

所有数据都无法放入 RAM（今天是 20Go，但不久的将来会是 60Go）。

我们应该使用 NoSql 数据库吗？MongoDB？映射减少数据库？

谢谢你的帮助

mysql nosql bigdata

2011-07-13T08:09:52.690

0 投票

2 回答

585 浏览

qt - 渲染海量数据

我有一个 3D 浮点矩阵，在最坏的情况下，大小可能是（200000x1000000x100），我想使用 Qt/OpenGL 可视化这个矩阵。

由于元素的数量非常多，我想以一种方式渲染它们，当相机远离矩阵时，我只显示一些有趣的点，这些点给出了矩阵外观的近似值。当相机靠近时，我想获得更多细节，因此计算出更多元素。

我想知道是否有处理这种可视化的技术。

qt opengl visualization data-visualization bigdata

2011-07-14T11:13:36.897

0 投票

1 回答

686 浏览

memcached - Pyrocache 与 Memcached

我在一些项目中使用过 PyroCMS，我非常喜欢它。我目前正在基于它开发另一个网站。在我的网站中，我需要在一个大数据库上工作，它不是很大，但足够大，需要缓存模块。我正在犹豫是使用内置的 Pyrocache 库还是第三方缓存 memcached。那么我为什么要使用 memcached 呢？Pyrocache 也可以管理大数据吗？Pyrocache与memcached相比有哪些优势？

在我的网站上，它将显示超过 200.000 个位置的信息，数据长期处于静态。我想使用缓存来缓存所有位置数据，所以当用户请求时，它直接返回结果而不查询数据库。Pyrocache 可以适合我的场景吗？

提前感谢，狮子座

memcached pyrocms bigdata

2011-07-19T18:23:00.437

0 投票

4 回答

1849 浏览

bittorrent - bittorrent 对等点能否处理播种大量空闲种子

我正在考虑将 bittorrent 用于数据源为 PB 级且用户需要高达数 TB 的大型数据传播问题。一些细节

数以百万计的种子数量
种子大小从 100Mb 到 100Gb
世界各地的一组稳定的集群能够充当播种机，每个集群都拥有总种子的很大一部分（平均说 60%）
相对少量的同时用户（少于 100 个）希望平均下载几 TB 的数据。

我预计与可用种子总数相比，活动种子的数量会很小，但服务质量很重要，因此每个种子必须有几个播种机或启动新播种机的某种机制。

我的问题是，bittorrent 客户端能否处理大量种子种子，其中大部分是空闲的？我是否需要在集群中的播种机上对种子进行条带化，或者每个节点是否可以播种它可以访问的所有种子？哪个客户会做得最好？有没有管理播种机集群的工具？

我假设跟踪器可以扩展到这个级别。

bittorrent bigdata

2011-07-24T20:50:20.283

0 投票

1 回答

2735 浏览

mysql - 从Mysql切换到MongoDB 2亿行

我们正在尝试从 mysql 迁移到 mongodb。mysql 结构是 id_src int id_dest int 唯一键：id_src,id_dest

它们在mysql中大约有2亿行

数据示例：{id_src,id_dest} {1,2} {1,3} {1,10} {2,3} {2,10} {4,3}

我们需要检索数据：{id_dest,count} {3,3} {10,2} {2,1}

我开始在mongodb中重现mysql的结构。插入性能非常好（非常好）：插入 2 亿行大约需要 1 小时。

但我需要使用 map reduce 来获取分组。地图减少大约需要 1 小时。

所以我尝试创建另一个 mongodb 结构：{id_dest,{id_src1,id_src2}}

每个文档可以有十万个 id_src。

这是我的 insert.php 代码

但在那种情况下，性能非常糟糕，每秒只有很少的更新。

难道我做错了什么？

mysql mongodb bigdata

2011-07-26T15:53:15.167

0 投票

2 回答

662 浏览

r - 测试缓冲区是否已在 R 中刷新

我有一些非常大的文件要使用，我使用几个不同的 I/O 函数来访问它们。最常见的是bigmemory包。

在写入文件时，我已经学会了刷新输出缓冲区的艰难方法，否则所有关于数据是否已保存的赌注都将失败。但是，这可能会导致一些非常长的等待时间，同时bigmemory执行它的操作（很多分钟）。我不知道为什么会发生这种情况——它并不总是发生，也不容易复制。

是否有某种方法可以确定 R 中是否已刷新 I/O 缓冲区，尤其是对于bigmemory？如果操作系统很重要，那么请随意以这种方式限制答案。

如果可以将答案推广到之外bigmemory，那就太好了，因为我有时会依赖其他内存映射函数或 I/O 流。

如果没有好的解决方案来检查缓冲区是否已被刷新，是否存在可以假设缓冲区已被刷新的情况？即除了使用flush().

更新：我应该澄清这些都是二进制连接。@RichieCotton 指出isIncomplete()，虽然帮助文档只提到了文本连接。目前尚不清楚这是否可用于二进制连接。

r io memory-mapped-files buffer bigdata

2011-08-08T21:56:09.350

0 投票

1 回答

569 浏览

r - 用 R 绘制大数字，但并非所有数字都显示

我正在尝试使用 R 在图表上渲染 739455 数据点，但在 x 轴上我无法查看所有这些数字，有没有办法可以做到这一点？

我是 R 的新手。在此处输入图像描述

谢谢

r graphics data-visualization bigdata

2011-08-12T01:14:50.737

0 投票

6 回答

2319 浏览

java - 高级 Java 优化

关于如何使用 for、while 和 do-while 循环以及是否有必要进行低级 Java 优化，有很多问题、答案和意见。

我的问题更多是基于高级别的设计优化。假设我必须执行以下操作：

对于给定的字符串输入，计算字符串中每个字母的出现次数。

当字符串是几个句子时，这不是一个主要问题，但是如果我们想要计算每个单词在 900,000 个单词文件中的出现次数怎么办。建立循环只是浪费时间。

那么可以应用于此类问题的高级设计模式是什么。

我想我的主要观点是我倾向于使用循环来解决很多问题，并且我想摆脱使用循环的习惯。

提前致谢

山姆

ps 如果可能的话，您能否提供一些伪代码来解决 900,000 字的文件问题，我倾向于理解代码而不是理解英语，我认为对于本网站的大多数访问者来说都是一样的

java algorithm language-agnostic distributed bigdata

2011-08-13T04:25:15.353

问题标签 [bigdata]

Reference