这是我在 StackOverflow 上的第一篇文章,如果我违反任何规则,我深表歉意。
我正在使用 R 包qdap
对非常混乱的病历文本进行拼写检查。这项工作的目标是识别药物副作用的拼写错误,以建立副作用拼写错误字典。我正在处理的文本包含许多拼写错误、缩写和其他使简单拼写检查变得困难的东西。在我对一张医生的小便条进行拼写检查后,拼写检查程序会返回数百个单词。这使得搜索我关心的副作用拼写错误变得困难。
我尝试使用以下代码创建一个仅包含正确拼写的副作用的字典,这样qdap
会触发严重拼写错误的单词属于该字典。问题在于,几乎文本中的每个单词,无论拼写是否正确,都不会返回为不正确的(即“notable”拼写错误,而“nausea”是我字典中建议的替换)。
dictionary <- readLines("dictionary.txt")
check_spelling(text$NOTE_TEXT[3379],range = 0, dictionary = dictionary,
assume.first.correct=FALSE)
这里的术语“字典”是我自己构建的副作用字典,并且check_spelling
正在对包含在 csv 文件中的文本运行。有什么办法可以忽略与字典中包含的单词相距很远的单词不会出现在拼写检查功能中(例如我之前的示例)?这样我可以减少我在 spell_check 输出中看到的单词数量,并且只识别拼写错误的副作用。
作为一个小提示,更改assume.first.correct
为TRUE
不会改变任何内容,因为字典不会以这种方式运行。