我想分析一个包含多种语言的姓名、地址和电话号码的大文本文件夹。
这些通常会以“地址”、“电话号码”、“姓名”、“公司”、“医院”、“送货人”一词开头。我会有一本这些词的字典。
我想知道文本挖掘工具是否适合这项工作。我想为所有这些文档创建一个语料库,然后在给定字典条目的右侧或下方找到满足特定(我正在考虑正则表达式标准)的文本。
R中的数据挖掘包中是否有这样的语法,即。获取单词列表条目右侧或下方的字符串,满足特定模式的字符串?
如果不是,R中的工具会更适合做这项工作吗?
我想到了quanteda的两个选项:
与您的目标模式列表一起使用kwic
,窗口大到足以捕获您想要的术语之后的大小。这将返回一个 data.frame,您可以使用其中的keyword
和post
列进行分析。您也可以直接从这个对象 ( corpus(mykwic)
) 构建一个语料库,然后专注于post
包含您想要的文本的新 docvar。
使用corpus_segment
你使用目标词列表的地方来创建一个"tag"
类型,这个标签之后的任何东西,直到下一个标签,都将被重新塑造成一个新的文档。这很好用,但配置起来有点棘手,因为您需要为标签获取正确的正则表达式。