0

我想分析一个包含多种语言的姓名、地址和电话号码的大文本文件夹。

这些通常会以“地址”、“电话号码”、“姓名”、“公司”、“医院”、“送货人”一词开头。我会有一本这些词的字典。

我想知道文本挖掘工具是否适合这项工作。我想为所有这些文档创建一个语料库,然后在给定字典条目的右侧或下方找到满足特定(我正在考虑正则表达式标准)的文本。

R中的数据挖掘包中是否有这样的语法,即。获取单词列表条目右侧或下方的字符串,满足特定模式的字符串?

如果不是,R中的工具会更适合做这项工作吗?

4

1 回答 1

1

我想到了quanteda的两个选项:

  1. 与您的目标模式列表一起使用kwic,窗口大到足以捕获您想要的术语之后的大小。这将返回一个 data.frame,您可以使用其中的keywordpost列进行分析。您也可以直接从这个对象 ( corpus(mykwic)) 构建一个语料库,然后专注于post包含您想要的文本的新 docvar。

  2. 使用corpus_segment你使用目标词列表的地方来创建一个"tag"类型,这个标签之后的任何东西,直到下一个标签,都将被重新塑造成一个新的文档。这很好用,但配置起来有点棘手,因为您需要为标签获取正确的正则表达式。

于 2017-07-31T08:46:47.120 回答