我正在使用 R 进行文本挖掘,并拥有从不同文本列连接的数据。在某些情况下,单词被“functi oning”之类的空格分隔。我想通过字典检查来检测所有这些情况并删除它们之间的空格。我知道 aspell 中的 splitWords 函数,我想要一个与它完全相反的函数。
问问题
335 次
1 回答
1
这是一种基于我找到的一些代码的方法,但是您需要提供一些示例文本甚至只是伪代码来帮助其他人做出响应。
首先创建一个包含大量拼写正确的单词的对象。然后你将你的词向量与那个集合进行比较,adist
并将一个参数设置为一个差异——理想情况下,你想要删除的内部空间。我怀疑这会解决所有问题,但它可能会有所帮助。
sorted_words <- comments(sort(table(strsplit(tolower(paste(readLines("http://www.norvig.com/big.txt"), collapse = " ")), "[^a-z]+")), decreasing = TRUE))
correct <- function(*your vector*) { c(sorted_words[adist(*your vector*, sorted_words) <= min(adist(word, sorted_words), 2)], word)[1] }
然后使用该correct
功能。
于 2015-03-04T13:02:45.693 回答