python - 测量语法文本质量的模型

Question

我通过转换器模型生成文本，我正在寻找一种测量语法文本质量的方法。喜欢文字："Today is a good day. I slept well and got up good in the morning." 应该被评为高于："Yesterday I went into bed and. got Breakfast son."

是否有任何模型可以完成我以前没有找到的这项工作，或者有没有其他方法可以衡量文本语法输出的质量？

我发现，spacy可以选择显示文本是否有语法错误，但我更感兴趣的是包含文本长度和错误数量的分数。我还研究了 NLTK 的可读性，但这旨在了解文本的理解程度，这不仅仅取决于语法。

谢谢！

score 1 · Accepted Answer

所以我找到了我正在寻找的东西：在这篇论文中，研究人员测试了他们在没有参考文献的情况下检查语法错误的能力（GLEU-Score 可以用于什么）。他们还测试了Python 语言工具，该工具也用于开放式办公室中的拼写检查。该工具能够测量文本中语法错误的数量。出于我的目的，我将错误的数量除以文本中的单词数量，这给了我一个错误度量。

也许这可以帮助有同样问题的人。这里是基于 pypi 的示例代码：

import language_tool_python
tool = language_tool_python.LanguageTool('en-US')
text = "this is a test tsentence, to check if all erors are found"
matches = tool.check(text)
len(matches)
>>>3

python - 测量语法文本质量的模型

1 回答 1

Related

Reference