我有一个特殊的问题,我必须从 word 文件中提取信息。比如说我有一份简历,需要提取name
, email address
, phone no.
, address
,university
等Experience
。
每个其他人的简历可能都采用不同的格式。那么有什么方法可以通过编程方式提取我需要的信息吗?
我需要这些信息来填写注册表格。
使用 aspose .net 将 word 文档转换为 html。
然后,您可以使用正则表达式来搜索 word 和/或 pdf 文档。
或者您可以使用 HTMLAgilityPack 解析创建的 HTML 文档,并搜索特定的部分/路径。
PS:
如果您有一个小于一页的电子邮件正则表达式,则该正则表达式不正确。
只要您只需要支持一个国家/地区,电话就应该易于管理。
至于姓名和地址,祝你好运。
编辑:
像这样
VB.NET:
Dim doc As New Aspose.Words.Document("filename.docORdocx")
doc.Save("filename.html", Aspose.Words.SaveFormat.Html)
C#:
Aspose.Words.Document doc = new Aspose.Words.Document("filename.docORdocx");
doc.Save("filename.html", Aspose.Words.SaveFormat.Html);
组件在这里:
http ://www.aspose.com/.net/word-component.aspx
要了解有效的电子邮件地址是什么,请阅读 RFC 822: http:
//www.faqs.org/rfcs/rfc822.html
即使一开始您可能会被使用 Com Interop 和 Asp.net 的想法所吸引,也不要这样做。
http://support.microsoft.com/kb/257757
也就是说,重要的是要知道我们在谈论哪个版本的单词。较新的格式允许将它们视为包含 xml 文件的 zip,并且有很好的免费库。