也许这些应该是单独的问题,每种格式一个,但是......
什么是最可靠的库(任何语言)、二进制文件(适用于任何平台)或web服务(免费或非免费),用于将各种“包含文本”的格式转换为纯文本?
可靠,我的意思是几乎 100% 能够提取所有人类可读的文本,而不是提取“代码”或“标记”。
包含文本的格式,我的意思是:所有最常见的东西,如 PDF、PPT、DOC、DOCX、RTF、HTML、“.PAGES”、“.KEYNOTE”、ODT 等
请建议支持其中许多格式的软件包/服务以及仅支持其中一种格式的软件包/服务。此外,是否有软件“堆栈”将许多包/服务“捆绑”在一起以转换为文本?