我想理解“颜色”这个特征。问题在于它有超过 15.000 种规格,其中有很多拼写问题(例如 brwon <-> brown、oliv <-> olive),但也存在差异(浅蓝色 <-> blue)。
怎么可能理解这样的特征?是否有任何资源、R 包或 python 模块?
我想理解“颜色”这个特征。问题在于它有超过 15.000 种规格,其中有很多拼写问题(例如 brwon <-> brown、oliv <-> olive),但也存在差异(浅蓝色 <-> blue)。
怎么可能理解这样的特征?是否有任何资源、R 包或 python 模块?
R 可以使用 aspell(命令可用)。但是你需要在你的机器上安装 aspell,甚至可能是 hunspell。例如,在 chrome / firefox 和 Rstudio 中,Hunspell 被用作拼写检查。
阅读此期刊以获取有关 R 中 aspell 和 hunspell 的更多信息。
但这只会处理拼写错误。您可以使用正则表达式来查找主要颜色。