1

我必须解析 HTML 文件,最多可以有 500 000 个链接。其中 400 000 是我想要的。

我是否应该将所有满足条件的链接放入新列表,然后放入此列表的元素并将其放入数据库中。

或者当我找到满足条件的链接将其添加到数据库(sqlite)(并提交)时。大量提交不是问题吗?

我不想在断电等故障的情况下丢失数据。这就是为什么我要在插入数据库后提交。

如何最好地在数据库中放置大量项目?

4

3 回答 3

4

考虑在每 1000 条左右记录后进行一次提交

于 2012-04-27T06:33:13.337 回答
1

如果这些链接分布在多个文件中,那么在处理每个文件之后提交呢?然后你也可以记住你处理了哪些文件。

在单个文件的情况下,记录每次提交后的文件偏移量以保持干净的继续。

于 2012-04-27T06:42:45.957 回答
0

您可以尝试使用像 mongo 这样的 noSQL 数据库。使用 mongo,我添加了 500.000 个文档,每个文档添加了 6 个字段,每个添加了大约 15 秒(在我的旧笔记本电脑上),并且在不困难的查询中添加了大约 0.023 秒。

于 2012-04-27T07:42:00.467 回答