java - 如何分析 ~13GB 的数据？

Question

我有大约 300 个文本文件，其中包含有关跟踪器、种子和对等点的数据。每个文件的组织方式如下：

跟踪器.txt

time torrent
    time peer
    time peer
    ...
time torrent
...

每个跟踪器有几个文件，并且大部分信息都是重复的（相同的信息，不同的时间）。

我希望能够分析我所拥有的并报告诸如此类的统计数据

每个跟踪器上有多少种子
列出了多少个跟踪器
种子有多少个同行
同行有多少洪流

庞大的数据量让我很难做到这一点。这是我尝试过的。

MySQL

我将所有内容都放入数据库；每个实体类型一个表和保存关系的表（例如这个种子在这个跟踪器上）。

将信息添加到数据库很慢（当我尝试这样做时，我没有 13GB 的数据），但事后分析关系是不行的。每个稍微复杂的查询都需要超过 24 小时才能完成（如果有的话）。

一个示例查询是：

SELECT COUNT(DISTINCT torrent) 
    FROM TorrentAtPeer, Peer 
    WHERE TorrentAtPeer.peer = Peer.id 
    GROUP BY Peer.ip;

我尝试增加my.cnf文件中的内存分配，但似乎没有帮助。我使用了my-innodb-heavy-4G.cnf设置文件。

编辑：添加表详细信息

这是我使用的：

Peer         Torrent                  Tracker        
-----------  -----------------------  ------------------  
id (bigint)  id (bigint)              id (bigint)
ip* (int)    infohash* (varchar(40))  url (varchar(255))
port (int)

TorrentAtPeer      TorrentAtTracker
-----------------  ----------------
id (bigint)        id (bigint)
torrent* (bigint)  torrent* (bigint)
peer* (bigint)     tracker* (bigint)
time (int)         time (int)

*indexed field. Navicat reports them as being of normal type and Btree method.
id - Always the primary key

没有外键。我对仅使用与现有实体相对应的 ID 的能力充满信心，添加外键检查似乎是不必要的延迟。这是幼稚的吗？

MATLAB

这似乎是一个为一些繁重的工作而设计的应用程序，但我无法分配足够的内存来一次性保存所有数据。

我没有数字数据，所以我使用单元格数组，我从这些数组中转移到尝试以减少占用空间。我无法让它工作。

爪哇

迄今为止我最成功的尝试。我找到了 Limewire 人员提供的 Patricia Tries 的实现。使用它，我能够读取数据并计算我拥有的唯一实体的数量：

13 个追踪器
170 万个种子
3200 万同行

我仍然发现很难计算出同龄人的种子数量的频率。我试图通过构建这样的尝试来做到这一点：

Trie<String, Trie<String, Object>> peers = new Trie<String, Trie<String, Object>>(...);
for (String line : file) {
    if (containsTorrent(line)) {
        infohash = getInfohash(line);
    }
    else if (containsPeer(line)) {
        Trie<String, Object> torrents = peers.get(getPeer(line));
        torrents.put(infohash, null);
    }
}

从我到目前为止所做的事情来看，如果我能peers建立这个 trie，那么我可以很容易地找出每个对等点有多少种子。我昨天运行了它，当我回来时，我注意到日志文件没有被写入，我^Z应用程序并time报告了以下内容：

real 565m41.479s
user 0m0.001s
sys  0m0.019s

这对我来说看起来不对，用户和系统应该这么低吗？我应该提一下，我还将 JVM 的堆大小增加到 7GB（最大和启动），否则我很快就会遇到内存不足的错误。

我不介意等待几个小时/几天，但看起来事情在大约 10 小时后就停止了。

我想我的问题是，我该如何分析这些数据？我尝试过的事情是正确的吗？有什么我想念的吗？Java 解决方案似乎是迄今为止最好的，我能做些什么来让它工作吗？

score 6 · Accepted Answer

您说您的 MySQL 查询花费了太长时间。您是否确保有适当的索引来支持您提交的请求类型？在您的示例中，这将是Peer.ip（甚至是嵌套索引(Peer.ip,Peer.id)）的索引和TorrentAtPeer.peer.

据我了解您的 Java 结果，您有很多数据，但没有那么多不同的字符串。因此，您或许可以通过为每个跟踪器、种子和对等点分配一个唯一编号来节省一些时间。每个表使用一个表，一些索引值保存字符串和一个数字主键作为 id。这样，与这些实体相关的所有表只需要处理这些数字，这可以节省大量空间并使您的操作更快。

score 5 · Accepted Answer

我会再试一次 MySQL，但使用不同的模式：

不要在此处使用 id 列
在这里使用自然主键：

Peer : ip, port
Torrent : infohash
Tracker : url
TorrentPeer : peer_ip, torrent_infohash, peer_port, time
TorrentTracker : tracker_url, torrent_infohash, time
对所有表使用 innoDB 引擎

这有几个优点：

InnoDB 使用聚集索引作为主键。意味着当您只从主键列请求数据时，可以直接从索引中检索所有数据，而无需额外查找。所以 InnoDB 表在某种程度上是索引组织的表。
尺寸更小，因为您不必存储代理键。-> 速度，因为相同结果的 IO 更少。
您现在可以在不使用（昂贵的）连接的情况下进行一些查询，因为您使用自然主键和外键。例如，链接表TorrentAtPeer直接包含peer ip对等表的外键。如果您需要查询子网中的对等方使用的种子，您现在可以在不使用连接的情况下执行此操作，因为所有相关数据都在链接表中。

如果您想要每个对等点的洪流计数，并且您也希望对等点的 ip 在结果中，那么我们在这里使用自然主/外键时再次具有优势。

使用您的架构，您必须加入以检索 IP：

SELECT Peer.ip, COUNT(DISTINCT torrent) 
    FROM TorrentAtPeer, Peer 
    WHERE TorrentAtPeer.peer = Peer.id 
    GROUP BY Peer.ip;

使用自然主键/外键：

SELECT peer_ip, COUNT(DISTINCT torrent) 
    FROM TorrentAtPeer 
    GROUP BY peer_ip;

编辑好吧，原始发布的架构不是真实的。现在Peer表格有一个port字段。我建议在这里使用主键（ip、端口）并仍然删除 id 列。这也意味着链接表需要有多列外键。调整答案...

score 0 · Accepted Answer

You most likely have a problem that can be solved by NOSQL and distributed technologies.

i) I would write a distributed system using Hadoop/HBase.

ii) Rent several tens / hundred AWS machines, but only for a few seconds (It'll still cost you less than a $0.50)

iii) Profit!!!

score 0 · Accepted Answer

如果你可以使用 C++，你应该看看Boost flyweight。

使用flyweight，您可以像编写字符串一样编写代码，但字符串的每个实例（您的跟踪器名称等）仅使用指针的大小。

不管是哪种语言，您都应该将 IP 地址转换为 int（看看这个问题）以节省更多内存。

java - 如何分析 ~13GB 的数据？

4 回答 4

Related

Reference