1

由于 StackOverflow 带有大量问题和用户提供的标签,我将其视为用于 NLP(自然语言处理)任务的有趣、丰富注释的文本语料库。

基本上,我想根据问题 body 自动预测问题标签。我相信这可以在一定程度上做到这一点,并且有许多很好的用例,例如标签建议(例如,使标签使用更加一致),仅举一个例子。

为此,我需要很多 - 甚至更好: - 所有问题以及它们的正文和用户标签来训练带有机器学习算法的标签预测器。

我知道有 StackOverflow API,但我可以通过它获取的数据量似乎非常有限 - 当然有充分的理由。

所以问题是:有没有办法从 StackOverflow 获取/下载所有问题及其用户标签?

4

1 回答 1

1

您可以在http://www.clearbits.net/torrents/2076-aug-2012获取数据转储,没有元站点,这是一个小疏忽,已通过替代版本修复,但不适用于您的请求。

于 2012-12-19T21:17:30.447 回答