Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个只抓取一个网站的爬虫。但是一个网站可以有上千页。每个页面都是一个顶点,我使用JGraphT它。
JGraphT
但是如果我抓取一个巨大的网站,我会StackOverflowError在片刻之后得到一个。
StackOverflowError
在这种情况下,我该如何处理大量数据?我必须使用数据库?有一个库可以在数据库中处理这种特定类型的数据(顶点、边……)?
谢谢
You might wanna use Neo4j which is a high performance, NOSQL graph database.
您可以查看以下内容可能会有所帮助: