0

我想从 html 文件中提取文本以进行索引,并尽可能快地这样做。我不想从头开始创建东西,而是想看看我能找到多少已经为我完成的事情。

目前我只是在输出 html2text 的输出,它可以工作,但是在 python 和试图美化文本之间,我确信速度可以提高。

那么,以 Linux/unix 为优先,哪些 (c/c++) 库最适合此类任务?

4

1 回答 1

2

要提取文本,您可以使用 HTML 解析器,如htmlcxxlibxml。您还可以在整理HTML 后使用任何 XML 库。为了索引文本,您可以使用CLucene

于 2010-01-28T06:49:28.430 回答