1

我正在对 GitHub 评论进行一些分析。但为此,我需要从大量注释中自动排除代码示例和错误消息。

另一种更简单的说法是,我只能保留评论的英文部分。虽然检测句子语言的库很少,但在我的案例中也没有什么挑战。1)注释部分并不总是遵循正确的英语语法,2)代码示例和错误消息也主要由英语单词组成。

那么什么应该是我最好的方法。结果不需要100%准确,我只想知道至少能给我一个满意结果的最佳方法。任何想法?

4

1 回答 1

2

这个问题很老,但我的谷歌搜索让我想到了这个问题;因此,如果有人也遇到这个问题,请提供这个答案。

于 2020-10-02T07:14:53.217 回答