0

我想知道从 Microsoft Word(.doc 和 .docx)文档中解析和获取文本内容的过程。使用的编程语言应该是普通的“C”(应该是 gcc)。

是否有任何图书馆已经完成这项工作,

扩展名:我也可以使用相同的程序来解析 Microsoft power point 文件中的文本吗?

4

4 回答 4

1

我不知道存在的库,但格式规范可从Microsoft免费获得,并且承诺不会因使用它们而起诉您。

于 2008-11-19T06:10:47.233 回答
1

Microsoft Word 文档是一个巨大的野兽——您绝对不想自己编写此代码。考虑使用现有的免费 Word 库,例如antiwordwvWare

于 2008-11-19T06:24:03.743 回答
1

在 Windows 上,让 word 完成这项工作并与 COM 对象交互,在 linux 上,这项工作是在antiword中完成的。或者,您可以使用UNO对象模型在任何平台上自动化OpenOffice.org 。

于 2008-11-19T06:26:36.437 回答
1

如果您愿意在 C 语言中使用 COM 接口,您可以使用自 Windows 2000 以来每个版本的 Windows 中内置的IFilter接口。您可以使用它从任何办公文档(Word、Excel、等)、PDF 文件或任何安装了 IFilter 支持的文件类型。

几年前我写了一篇关于它的博客文章。都是 C++,但你可以使用 C 中的 COM 对象。

于 2014-05-19T13:33:34.367 回答