1

假设我有一个药物名称列表(crocin、seroflo、oxitab 等)。这个列表很长。现在假设我需要查找列表中是否存在特定药物,但也可能存在拼写错误。假设我打算在列表中找到 crocin,但我输入的是 crosin。我希望机器学习算法能够克服我的这个印刷错误以及像crocin和crosin这样的小差异,它应该返回匹配找到

4

2 回答 2

5

我认为您不需要机器学习,一个简单的编辑距离算法应该可以做到这一点。

https://en.wikipedia.org/wiki/Edit_distance

于 2013-08-20T08:04:35.200 回答
1

我同意使用 ML 方法的必要性值得怀疑。但是如果你真的想使用基于学习的方法进行“拼写校正”(我不确定这是否适用于药物名称),你可以参考以下论文:

一种基于 Winnow 的上下文相关拼写校正方法

一种改进的噪声通道拼写校正错误模型

用于搜索查询拼写校正的大规模基于排序器的系统

具有潜在结构支持向量机的查询拼写校正判别模型

以域为中心的搜索中拼写校正的图形方法。

这篇论文是关于人名的更正:

基于散列的个人姓名拼写更正方法

于 2013-08-30T03:25:33.947 回答