我正在尝试分析在线代码并想使用贝叶斯分类。但是,我需要大量预分类代码作为示例数据。
也许是二十种左右的顶级语言?
有人知道这样的语料库吗?
Kaggle 上有一个数据集,其中包含来自 StackOverflow 的问题,其目的是猜测与问题相关的标签。这可能需要猜测代码示例的语言(或只是寻找关键字) https://www.kaggle.com/c/facebook-recruiting-iii-keyword-extraction
通过 Github 搜索的其他可能性 - 因为所有代码都是免费和开放的。
StackOverflow 本身共享所有用户贡献的帖子的自己的数据(匿名)