3

我一直在网上搜索,发现 CNN 和 NPR 等媒体提供了访问其成绩单的链接。要获得它们需要编写一些不太方便的爬虫之类的东西。原因是我试图在我的自然语言处理项目中使用一些电视节目、采访、广播、电影的成绩单作为训练数据。所以我想知道网络上是否有任何免费的集合或数据库,以便我可以一次下载所有这些而无需自己编写爬虫?

4

1 回答 1

2

我会推荐英国国家语料库。我还要提到美国国家语料库,但那里的成绩单只有电话或面对面的谈话——没有新闻、电视节目等。

你还提到了 CNN 和 NPR。这里有 1996 年作为LDC 语料库的成绩单。

于 2013-08-28T20:31:42.690 回答