4

我需要从我用 LaTeX 编写的论文文档中提取纯文本内容,以进行自动反抄袭检查。我只知道“草稿”选项,这还不够。

我应该省略:

  • 图片,
  • 表格和其他数字,
  • 方程,
  • 标题和脚注。

删除所有引用也很好。输出应该是纯文本(UTF-8 编码)文本文件。

有没有直接的方法可以做到这一点?我真的不喜欢逐页手动复制它。

4

5 回答 5

1

是的:untex,一个简单的 C 脚本。你也可以看看detex

于 2011-01-29T14:04:31.353 回答
1

您可以尝试使用注释包(或十几种替代方案之一)将方程式、图形、表格等转换为注释环境,并使用 \renewcommand\footnote[1]{} 来删除脚注。\pagestyle{empty} 应该删除页面标题等,因此在结果上运行 pdftotext 应该接近你想要的。

于 2011-01-29T14:07:47.500 回答
1

您可以使用pandoc之类的文档转换器,或者使用Caliber之类的东西将输出 PDF 转换为纯文本。

于 2011-02-01T20:42:34.127 回答
1

通常你想对文本进行一些 LaTeX 处理,比如说你有

\newcommand*{\SO}{StackOverflow\index{StackOverflow}\xspace}

...

我花了很多时间在\SO,等等等等....

当它包含任何宏时,仅在此处过滤掉文本段落不会给出与预期结果类似的文本。

因此,尝试直接从 *.tex 文件中提取内容通常会从结果中留下很多不足之处。因此,通常最好处理乳胶处理的输出。我建议将乳胶转换为 html,然后从 html 转换为文本。您可能需要一些手动清理,但我认为它应该相对接近。

于 2011-02-01T22:34:33.023 回答
1

虽然提到了 detex,但还有另一个项目旨在改进它。它叫做opendetex,看看吧!

于 2011-02-04T03:03:28.467 回答