r - Datacheck：将字符串值（输入）与 R 中的现有语言（荷兰语词典）进行比较

Question

我正在尝试使用 R 脚本过滤掉诸如“ffff”和“fdaljfdlksajf”之类的糟糕的开放答案（字符串变量）。我希望 R 中有某种可用的字典包，我可以用它来做到这一点，但我似乎找不到它。

另一种选择是上传荷兰语（这是我需要的字典）单词列表并将其与输入进行比较，但这并不容易找到。

你们中有人曾经尝试过这个并找到解决方案吗？

score 0 · Accepted Answer

尝试包SnowballC。它是一种词干算法，但支持包括荷兰语在内的语言，并包含每种语言的词汇表。

library(SnowballC)
load(system.file("words", "dutch.RData", package = "SnowballC"))
voc[[1]] # Dutch words
voc[[2]] # Stemmed dutch words

现在您有了词汇表，您可以比较每个开放响应中与荷兰语词汇匹配的单词百分比，设置一个阈值来过滤掉“坏”的答案。

1 回答 1