我想从 html 文件中提取文本以进行索引,并尽可能快地这样做。我不想从头开始创建东西,而是想看看我能找到多少已经为我完成的事情。
目前我只是在输出 html2text 的输出,它可以工作,但是在 python 和试图美化文本之间,我确信速度可以提高。
那么,以 Linux/unix 为优先,哪些 (c/c++) 库最适合此类任务?
我想从 html 文件中提取文本以进行索引,并尽可能快地这样做。我不想从头开始创建东西,而是想看看我能找到多少已经为我完成的事情。
目前我只是在输出 html2text 的输出,它可以工作,但是在 python 和试图美化文本之间,我确信速度可以提高。
那么,以 Linux/unix 为优先,哪些 (c/c++) 库最适合此类任务?