text - 文本挖掘 MS Word 文档？

Question

我有大约 30 个 .docx 文档（简历），其中包含有关人员姓名、技能等的数据。我需要使用其中的一些信息填充电子表格，并且为了减少手动工作，我认为我可以使用文本挖掘方法。

是否有任何工具或方法可用于从这些文档中挖掘（某种半结构化）信息？

score 0 · Accepted Answer

您可以尝试使用catdoc http://www.wagner.pp.ru/~vitus/software/catdoc/工具，该工具将从 MS Word 文件中提取文本内容，然后执行您想要的任何文本处理。我可能只是grep因为简历中存在某些单词而不是 catdoc 的输出。过度设计解决方案毫无意义。

score 0 · Accepted Answer

我能想到的最好的方法是使用 perl，因为我知道您可以从 word 文档中提取（尽管这本身可能很棘手）并使用 perl 模块填充 xml 电子表格。

好久没生气写perl了，所以我不能提供怎么做的例子，但是如果我把一些东西放在一起做这个，我会推荐perl。我相信有人会说在 python 中，甚至在 Ruby 中也有等价的函数，但是我使用的是 perl，而且我发现它对于操作/匹配/解析/处理文本非常有效。

score 0 · Accepted Answer

在 docx 或 doc 中有多种读取 word 文件的方法，docx 文件只是一个花哨的容器。但是 doc 文件很难提取。

我会告诉你一些从word中提取文本的方法

.doc/docx >> open with open suit >> 使用 python 的用户 pyUNO 并获取您的数据。
.doc/docx >> 使用 python .docx 模块和 Textract 和提取数据。
.doc/docx >> 使用 R 编程，其中有许多模块，如officer 和 ReporterRS >> 提取数据。
使用文本挖掘将文本从一种形式转换为另一种形式。

text - 文本挖掘 MS Word 文档？

3 回答 3

Related

Reference