我正在尝试使用 R 脚本过滤掉诸如“ffff”和“fdaljfdlksajf”之类的糟糕的开放答案(字符串变量)。我希望 R 中有某种可用的字典包,我可以用它来做到这一点,但我似乎找不到它。
另一种选择是上传荷兰语(这是我需要的字典)单词列表并将其与输入进行比较,但这并不容易找到。
你们中有人曾经尝试过这个并找到解决方案吗?
我正在尝试使用 R 脚本过滤掉诸如“ffff”和“fdaljfdlksajf”之类的糟糕的开放答案(字符串变量)。我希望 R 中有某种可用的字典包,我可以用它来做到这一点,但我似乎找不到它。
另一种选择是上传荷兰语(这是我需要的字典)单词列表并将其与输入进行比较,但这并不容易找到。
你们中有人曾经尝试过这个并找到解决方案吗?
尝试包SnowballC。它是一种词干算法,但支持包括荷兰语在内的语言,并包含每种语言的词汇表。
library(SnowballC)
load(system.file("words", "dutch.RData", package = "SnowballC"))
voc[[1]] # Dutch words
voc[[2]] # Stemmed dutch words
现在您有了词汇表,您可以比较每个开放响应中与荷兰语词汇匹配的单词百分比,设置一个阈值来过滤掉“坏”的答案。