我有大约 30 个 .docx 文档(简历),其中包含有关人员姓名、技能等的数据。我需要使用其中的一些信息填充电子表格,并且为了减少手动工作,我认为我可以使用文本挖掘方法。
是否有任何工具或方法可用于从这些文档中挖掘(某种半结构化)信息?
我有大约 30 个 .docx 文档(简历),其中包含有关人员姓名、技能等的数据。我需要使用其中的一些信息填充电子表格,并且为了减少手动工作,我认为我可以使用文本挖掘方法。
是否有任何工具或方法可用于从这些文档中挖掘(某种半结构化)信息?
您可以尝试使用catdoc
http://www.wagner.pp.ru/~vitus/software/catdoc/工具,该工具将从 MS Word 文件中提取文本内容,然后执行您想要的任何文本处理。我可能只是grep
因为简历中存在某些单词而不是 catdoc 的输出。过度设计解决方案毫无意义。
我能想到的最好的方法是使用 perl,因为我知道您可以从 word 文档中提取(尽管这本身可能很棘手)并使用 perl 模块填充 xml 电子表格。
好久没生气写perl了,所以我不能提供怎么做的例子,但是如果我把一些东西放在一起做这个,我会推荐perl。我相信有人会说在 python 中,甚至在 Ruby 中也有等价的函数,但是我使用的是 perl,而且我发现它对于操作/匹配/解析/处理文本非常有效。
在 docx 或 doc 中有多种读取 word 文件的方法,docx 文件只是一个花哨的容器。但是 doc 文件很难提取。
我会告诉你一些从word中提取文本的方法