1

我有一个只抓取一个网站的爬虫。但是一个网站可以有上千页。每个页面都是一个顶点,我使用JGraphT它。

但是如果我抓取一个巨大的网站,我会StackOverflowError在片刻之后得到一个。

在这种情况下,我该如何处理大量数据?我必须使用数据库?有一个库可以在数据库中处理这种特定类型的数据(顶点、边……)?

谢谢

4

2 回答 2

2

You might wanna use Neo4j which is a high performance, NOSQL graph database.

于 2012-11-13T10:19:18.470 回答
0

您可以查看以下内容可能会有所帮助:

  1. 大数据®
  2. 泰坦
于 2012-11-13T10:25:42.420 回答