我正在对 GitHub 评论进行一些分析。但为此,我需要从大量注释中自动排除代码示例和错误消息。
另一种更简单的说法是,我只能保留评论的英文部分。虽然检测句子语言的库很少,但在我的案例中也没有什么挑战。1)注释部分并不总是遵循正确的英语语法,2)代码示例和错误消息也主要由英语单词组成。
那么什么应该是我最好的方法。结果不需要100%准确,我只想知道至少能给我一个满意结果的最佳方法。任何想法?
我正在对 GitHub 评论进行一些分析。但为此,我需要从大量注释中自动排除代码示例和错误消息。
另一种更简单的说法是,我只能保留评论的英文部分。虽然检测句子语言的库很少,但在我的案例中也没有什么挑战。1)注释部分并不总是遵循正确的英语语法,2)代码示例和错误消息也主要由英语单词组成。
那么什么应该是我最好的方法。结果不需要100%准确,我只想知道至少能给我一个满意结果的最佳方法。任何想法?