3

我正在尝试找到一种方法来将 word 文档的文本解析为项目中的字符串。我有 600 多个 word(.doc) 文件需要获取文本内容(如果可能,使用新行和制表符)和将其分配给每个字符串。

我一直在阅读有关 Open XML SDK 的内容,但对于看起来如此简单的东西来说,它看起来相当复杂。

4

2 回答 2

4

Open XML SDK 仅适用于 2007 和更新的格式,使用起来并不简单。

如果性能不是问题,您可以使用 Word 自动化并让 Word 为您执行此操作。它看起来像这样:

var app = new Application();
var doc = app.Documents.Open(documentLocation);

string rangeText = doc.Range().Text;

doc.Save();
doc.Close();

Marshal.ReleaseComObject(doc);    
Marshal.ReleaseComObject(app);

查看http://www.codeproject.com/Articles/18703/Word-2007-Automationhttp://www.codeproject.com/Articles/21247/Word-Automation以获得更完整的示例和说明。请注意,如果您的文档很复杂(脚注、文本框、表格...),这可能会变得更加棘手。

另一种选择是让 word 将文档保存为文本,然后读取文本文件。看看这个 - http://msdn.microsoft.com/en-us/library/microsoft.office.tools.word.document.saveas(v=vs.80).aspx

于 2013-07-21T05:51:42.070 回答
0

你可以看看NPOI

该项目是位于 http://poi.apache.org/的 POI Java 项目的 .NET 版本。POI是一个开源项目,可以帮助你读/写xls、doc、ppt文件。它有广泛的应用。

查看这个先前的 SO 线程以获取更多信息。

于 2013-07-16T12:56:02.220 回答