0

我有一个特殊的问题,我必须从 word 文件中提取信息。比如说我有一份简历,需要提取name, email address, phone no., address,universityExperience

每个其他人的简历可能都采用不同的格式。那么有什么方法可以通过编程方式提取我需要的信息吗?

我需要这些信息来填写注册表格。

4

2 回答 2

1

使用 aspose .net 将 word 文档转换为 html。
然后,您可以使用正则表达式来搜索 word 和/或 pdf 文档。
或者您可以使用 HTMLAgilityPack 解析创建的 HTML 文档,并搜索特定的部分/路径。

PS:
如果您有一个小于一页的电子邮件正则表达式,则该正则表达式不正确。
只要您只需要支持一个国家/地区,电话就应该易于管理。
至于姓名和地址,祝你好运。

编辑:
像这样

VB.NET:

Dim doc As New Aspose.Words.Document("filename.docORdocx")
doc.Save("filename.html", Aspose.Words.SaveFormat.Html)

C#:

Aspose.Words.Document doc = new Aspose.Words.Document("filename.docORdocx");
doc.Save("filename.html", Aspose.Words.SaveFormat.Html);

组件在这里:
http ://www.aspose.com/.net/word-component.aspx

要了解有效的电子邮件地址是什么,请阅读 RFC 822: http:
//www.faqs.org/rfcs/rfc822.html

于 2013-07-01T07:18:48.747 回答
1

即使一开始您可能会被使用 Com Interop 和 Asp.net 的想法所吸引,也不要这样做。

http://support.microsoft.com/kb/257757

也就是说,重要的是要知道我们在谈论哪个版本的单词。较新的格式允许将它们视为包含 xml 文件的 zip,并且有很好的免费库。

http://docx.codeplex.com/

于 2013-07-01T07:26:28.467 回答