latex - 如何从 LaTeX 文档中提取重要的文本内容

Question

我需要从我用 LaTeX 编写的论文文档中提取纯文本内容，以进行自动反抄袭检查。我只知道“草稿”选项，这还不够。

我应该省略：

删除所有引用也很好。输出应该是纯文本（UTF-8 编码）文本文件。

有没有直接的方法可以做到这一点？我真的不喜欢逐页手动复制它。

score 1 · Accepted Answer

1

是的：untex，一个简单的 C 脚本。你也可以看看detex。

于 2011-01-29T14:04:31.353 回答

score 1 · Accepted Answer

您可以尝试使用注释包（或十几种替代方案之一）将方程式、图形、表格等转换为注释环境，并使用 \renewcommand\footnote[1]{} 来删除脚注。\pagestyle{empty} 应该删除页面标题等，因此在结果上运行 pdftotext 应该接近你想要的。

score 1 · Accepted Answer

您可以使用pandoc之类的文档转换器，或者使用 Caliber之类的东西将输出 PDF 转换为纯文本。

score 1 · Accepted Answer

通常你想对文本进行一些 LaTeX 处理，比如说你有

\newcommand*{\SO}{StackOverflow\index{StackOverflow}\xspace}

...

我花了很多时间在\SO，等等等等....

当它包含任何宏时，仅在此处过滤掉文本段落不会给出与预期结果类似的文本。

因此，尝试直接从 *.tex 文件中提取内容通常会从结果中留下很多不足之处。因此，通常最好处理乳胶处理的输出。我建议将乳胶转换为 html，然后从 html 转换为文本。您可能需要一些手动清理，但我认为它应该相对接近。

score 1 · Accepted Answer

1

虽然提到了 detex，但还有另一个项目旨在改进它。它叫做opendetex，看看吧！

于 2011-02-04T03:03:28.467 回答

5 回答 5