r - TM，Quanteda，text2vec。根据正则表达式模式获取单词列表中术语左侧的字符串

Question

我想分析一个包含多种语言的姓名、地址和电话号码的大文本文件夹。

这些通常会以“地址”、“电话号码”、“姓名”、“公司”、“医院”、“送货人”一词开头。我会有一本这些词的字典。

我想知道文本挖掘工具是否适合这项工作。我想为所有这些文档创建一个语料库，然后在给定字典条目的右侧或下方找到满足特定（我正在考虑正则表达式标准）的文本。

R中的数据挖掘包中是否有这样的语法，即。获取单词列表条目右侧或下方的字符串，满足特定模式的字符串？

如果不是，R中的工具会更适合做这项工作吗？

score 1 · Accepted Answer

我想到了quanteda的两个选项：

与您的目标模式列表一起使用kwic，窗口大到足以捕获您想要的术语之后的大小。这将返回一个 data.frame，您可以使用其中的keyword和post列进行分析。您也可以直接从这个对象 ( corpus(mykwic)) 构建一个语料库，然后专注于post包含您想要的文本的新 docvar。
使用corpus_segment你使用目标词列表的地方来创建一个"tag"类型，这个标签之后的任何东西，直到下一个标签，都将被重新塑造成一个新的文档。这很好用，但配置起来有点棘手，因为您需要为标签获取正确的正则表达式。

1 回答 1