我需要从我用 LaTeX 编写的论文文档中提取纯文本内容,以进行自动反抄袭检查。我只知道“草稿”选项,这还不够。
我应该省略:
- 图片,
- 表格和其他数字,
- 方程,
- 标题和脚注。
删除所有引用也很好。输出应该是纯文本(UTF-8 编码)文本文件。
有没有直接的方法可以做到这一点?我真的不喜欢逐页手动复制它。
我需要从我用 LaTeX 编写的论文文档中提取纯文本内容,以进行自动反抄袭检查。我只知道“草稿”选项,这还不够。
我应该省略:
删除所有引用也很好。输出应该是纯文本(UTF-8 编码)文本文件。
有没有直接的方法可以做到这一点?我真的不喜欢逐页手动复制它。
您可以尝试使用注释包(或十几种替代方案之一)将方程式、图形、表格等转换为注释环境,并使用 \renewcommand\footnote[1]{} 来删除脚注。\pagestyle{empty} 应该删除页面标题等,因此在结果上运行 pdftotext 应该接近你想要的。
您可以使用pandoc之类的文档转换器,或者使用Caliber之类的东西将输出 PDF 转换为纯文本。
通常你想对文本进行一些 LaTeX 处理,比如说你有
\newcommand*{\SO}{StackOverflow\index{StackOverflow}\xspace}
...
我花了很多时间在\SO,等等等等....
当它包含任何宏时,仅在此处过滤掉文本段落不会给出与预期结果类似的文本。
因此,尝试直接从 *.tex 文件中提取内容通常会从结果中留下很多不足之处。因此,通常最好处理乳胶处理的输出。我建议将乳胶转换为 html,然后从 html 转换为文本。您可能需要一些手动清理,但我认为它应该相对接近。
虽然提到了 detex,但还有另一个项目旨在改进它。它叫做opendetex,看看吧!