我有需要用作 Ruta 输入的 pdf 和 word 文件。我可以将它们转换为文本文件,但如果这样做会丢失所有表格和格式。无论如何我可以在不丢失任何信息的情况下使用它们吗?
谢谢!
您需要一个能够将 pdf (/doc/docx) 转换为 html 的附加程序。主要有两种不同类型的 PDF 转换器:一种是使用绝对位置来生成好看的 html,另一种是只依赖 html 元素和 css。对于处理表,我推荐后者。我个人用的是商业的方案,不过也有很多不错的开源软件,例如pdf2htmlEX
如果您有 html,则可以应用 HtmlAnnotator 和 HtmlConverter 来获取带有 html 标签注释的纯文本,如UIMA Ruta 文档中所述