我正在寻找以下问题的可能简单的解决方案:
给定一个句子的输入,例如
"Absence makes the heart grow fonder."
生成一个基本单词列表,然后是它们的难度/复杂性
[["absence", 0.5], ["make", 0.05], ["the", 0.01"], ["grow", 0.1"], ["fond", 0.5]]
让我们假设:
- 句子中的所有单词都是有效的英语单词
- 受欢迎程度是一种可接受的难度/复杂性衡量标准
- 可以以任何建设性方式理解基本词(见下文)
- 难度/复杂性从 0 分到 1 分 - 令人难以置信
- 难度偏差是可以的,最好被误认为是容易而不是其他方式
- 工作简单的解决方案优于完美但复杂的东西
- [编辑]没有与用户的交互
- [编辑]我们可以处理任何正确的英文输入
- [编辑]一个词并不比它的基本形式更难(因为作为聪明的人,如果我们知道快乐,我们就会不快乐地创造出来),除非它创造了一个新词(不太可能和喜欢不一样)
总体思路:
我考虑使用 Google 搜索或Wordcount 之类的网站来估计可能表明其难度的单词流行度。但是,两种解决方案都会根据输入单词的形式给出不同的结果。谷歌给出了 316m 的结果,但 11m 的结果是foder ,而Wordcount给出了 6k 和 54k 的排名。
将单词转换为其基本形式不是必须的,但可以解决歧义问题(并且可以轻松创建字典链接),但这不是一项简单的任务,我觉得它的意义值得商榷。显然应该采用喜欢而不是喜欢,但是调查相信而不是难以置信似乎是一种矫枉过正([编辑]这可能不是最好的例子,但有一段时间在修改基本词时我们会创建一个新词,例如->可能) 和门卫之类的词不应该一分为二。
一些关于什么应该被认为是基本词的想法可以在维基百科上找到,但也许更简单的确定它的方法是使用字典。例如,根据dictionary.reference.com,难以置信是一个基本词,而喜爱来自喜爱,但成长与成长不同
解决方案的想法:
在我看来,处理该问题的最佳方法是使用字典查找基本单词,应用一些 Wikipedia 规则,然后使用 Wordcount(可能与 Google 搜索次数相结合)来估计难度。
尽管如此,可能(可能是更简单和更好的)方法或准备使用算法。我将不胜感激任何解决此问题且易于实施的解决方案。也许我只是想重新发明轮子(或者你知道我的方法会很好用,我在浪费时间思考而不是编写我所拥有的东西)。但是,我宁愿避免实施频率分析算法或准备文本语料库。