如何从消除所有图像或表格或图形的文档中获取纯字符串。我将操作并创建这些文档的单词列表。所以我只需要使用 C# 的文档的文本部分
问问题
230 次
2 回答
1
您可能需要查看IFilters。它们是大多数搜索索引器从 Windows 上的文档中访问纯文本的方式。这是一个教程和示例项目,其中包含可用于从 Office 文档和 PDF 等中提取文本的源代码。
您只需要确保您的机器上安装了正确的 IFilter。Microsoft为 Office 文档提供了一组免费的过滤器。Adobe还提供了一个过滤器,但它完全是垃圾。如果可以,请尝试FoxIt IFilter,它会好得多。
于 2010-11-23T18:26:20.690 回答
0
您必须支持每个文档的特定格式;没有读取所有文档格式的通用方法。
例如,Microsoft Office Word 文档文件需要由它们自己的库来解释,而不是 OpenOffice 文档文件。
于 2010-11-23T18:25:56.673 回答