-2

我有大约 30 个 .docx 文档(简历),其中包含有关人员姓名、技能等的数据。我需要使用其中的一些信息填充电子表格,并且为了减少手动工作,我认为我可以使用文本挖掘方法。

是否有任何工具或方法可用于从这些文档中挖掘(某种半结构化)信息?

4

3 回答 3

0

您可以尝试使用catdoc http://www.wagner.pp.ru/~vitus/software/catdoc/工具,该工具将从 MS Word 文件中提取文本内容,然后执行您想要的任何文本处理。我可能只是grep因为简历中存在某些单词而不是 catdoc 的输出。过度设计解决方案毫无意义。

于 2012-05-08T05:14:00.987 回答
0

我能想到的最好的方法是使用 perl,因为我知道您可以从 word 文档中提取(尽管这本身可能很棘手)并使用 perl 模块填充 xml 电子表格。

好久没生气写perl了,所以我不能提供怎么做的例子,但是如果我把一些东西放在一起做这个,我会推荐perl。我相信有人会说在 python 中,甚至在 Ruby 中也有等价的函数,但是我使用的是 perl,而且我发现它对于操作/匹配/解析/处理文本非常有效。

于 2012-04-27T18:22:48.937 回答
0

在 docx 或 doc 中有多种读取 word 文件的方法,docx 文件只是一个花哨的容器。但是 doc 文件很难提取。

我会告诉你一些从word中提取文本的方法

  1. .doc/docx >> open with open suit >> 使用 python 的用户 pyUNO 并获取您的数据。
  2. .doc/docx >> 使用 python .docx 模块和 Textract 和提取数据。
  3. .doc/docx >> 使用 R 编程,其中有许多模块,如officer 和 ReporterRS >> 提取数据。
  4. 使用文本挖掘将文本从一种形式转换为另一种形式。
于 2018-08-09T17:12:50.713 回答