我正在研究一种估计句子难度的算法,但我发现的方法似乎太老了,无法利用现代计算机的功能。
今天使用的算法大多是在 40 到 60 年前开发的。Flesch-Kincaid是最受欢迎的,并且仍然被国防部和许多州和企业用作文件标准。我查看了 Flesch-Kincaid Grade Level、Gunning Fog Index、SMOG Index、Fry Readability Formula 和 Coleman-Liau Index。
我决定使用自动可读性索引:
ARI = 4.71 * (characters / words) + .5 * (words / sentences) - 21.43;
在我看来,根据基于语料库的词频列表为每个词分配一个值,然后将这些值放入旧的可读性公式中并不难。
这可以对前 1000 到 5000 个最常用的词进行。此外,为某些不同类型的单词和词性制作单独的列表可能会很有效。连词的存在肯定是句子复杂性的标志。
有没有这样做的公式?