有什么方法可以从.doc 中提取超链接。我在文档中有一堆超链接,我需要在我的数据库中导入这些超链接。
我尝试将 doc 转换为 HTML,但未传输超链接。
Regardz,姆拉登
我们遇到了类似的问题,最终使用了一个名为 Aspose.Words 的第三方组件。你可以在这里找到它:http ://www.aspose.com
它适用于 .NET 和 Java。
您可以尝试将文件导入 OpenOffice 并查看是否传输了超链接。OpenDocument 只是一个包含 XML 的 ZIP 文件,一旦掌握了它就很容易解析。
我做了以下事情。我已经用 officeXP 打开了 .doc 文件,然后将其发布为博客,之后我以过滤网页的形式保存了该博客。这为您提供了可以轻松解析的漂亮 HTML。
我意识到这是在您最初提出问题几个月后,但是,您也可以通过 Word 自动化提取 .doc 文件中的超链接。API 中有您可以轻松提取的超链接对象。