3

如何从消除所有图像或表格或图形的文档中获取纯字符串。我将操作并创建这些文档的单词列表。所以我只需要使用 C# 的文档的文本部分

4

2 回答 2

1

您可能需要查看IFilters。它们是大多数搜索索引器从 Windows 上的文档中访问纯文本的方式。这是一个教程和示例项目,其中包含可用于从 Office 文档和 PDF 等中提取文本的源代码。

您只需要确保您的机器上安装了正确的 IFilter。Microsoft为 Office 文档提供了一组免费的过滤器Adobe还提供了一个过滤器,但它完全是垃圾。如果可以,请尝试FoxIt IFilter,它会好得多。

于 2010-11-23T18:26:20.690 回答
0

您必须支持每个文档的特定格式;没有读取所有文档格式的通用方法。
例如,Microsoft Office Word 文档文件需要由它们自己的库来解释,而不是 OpenOffice 文档文件。

于 2010-11-23T18:25:56.673 回答