pdf - PDF、PPT、DOC等转TEXT

Question

也许这些应该是单独的问题，每种格式一个，但是......

什么是最可靠的库（任何语言）、二进制文件（适用于任何平台）或web服务（免费或非免费），用于将各种“包含文本”的格式转换为纯文本？

可靠，我的意思是几乎 100% 能够提取所有人类可读的文本，而不是提取“代码”或“标记”。

包含文本的格式，我的意思是：所有最常见的东西，如 PDF、PPT、DOC、DOCX、RTF、HTML、“.PAGES”、“.KEYNOTE”、ODT 等

请建议支持其中许多格式的软件包/服务以及仅支持其中一种格式的软件包/服务。此外，是否有软件“堆栈”将许多包/服务“捆绑”在一起以转换为文本？

score 0 · Accepted Answer

http://www.filebuzz.com/files/Ascii_Convert/1.html <--此链接将带您到可以将 PDF 和其他类型的文件转换为 ASCII 格式（纯文本）的转换器列表。对于 Word 文档，您可以在没有软件的情况下执行此操作。例如，对于 Word 文档，当您单击“另存为”时，它将打开一个对话框，其中包含“另存为类型”下拉列表。选择“纯文本 *.txt”，它将以纯文本格式保存您的文件。祝你好运！

score 0 · Accepted Answer

您可以尝试提取文本。

从描述中：“从 PDF 和 Microsoft Word 文件等文档中提取文本。它将提取的文本保存在文件中。适用于 .pdf、.doc、.docx、.xls、.xlsx、.ppt 等等。” 需要 Microsoft.NET Framework 4.0。

score 0 · Accepted Answer

如果您使用 Ruby，请查看Yomu。它是Apache TIKA的包装器，支持多种文档格式，其中包括：

Microsoft Office OLE 2 和 Office Open XML 格式（.doc、.docx、.xls、.xlsx、.ppt、.pptx）
OpenOffice.org OpenDocument 格式（.odt、.ods、.odp）
苹果 iWorks 格式
富文本格式 (.rtf)
可移植文档格式 (.pdf)

score 0 · Accepted Answer

在 Java 中，Apache Tika 工具包使用现有的解析器库从各种文档中检测和提取元数据和结构化文本内容。

pdf - PDF、PPT、DOC等转TEXT

4 回答 4

Related

Reference