3

我认为有大量与 reddit、digg 或 news.google.com 等网站相关的自然语言数据。

我对文本挖掘进行了一些研究,但找不到如何使用这些工具来解析 reddit 之类的东西。

你能想出什么样的应用程序?

4

3 回答 3

3

我过去发现,在 Reddit 或 Digg 等网站上挖掘数据的最佳方法是首先使用他们提供的开发人员 API。通常,您对某个主题或趋势都非常感兴趣,而获取该数据的唯一方法是通过已建立的公共界面。您还可以解析提要,并将它们结合起来以发现您想知道的 90% 的内容。如果您想对无法通过 API 获得的数据进行深入研究,那么您应该准备好花费大量时间围绕 cURL 之类的工具编写自定义包装器。如果你有预算,你也可以打电话给他们,询问他们是否提供关于用户的付费研究数据。

于 2008-10-23T00:56:35.010 回答
1

我会从RSS开始,然后我可能会使用Nutch;实际如何处理数据更多的是您的电话。

于 2008-10-23T00:55:32.653 回答
0

这些都是好主意。我可以获取数据,但是可以围绕它构建哪些应用程序?

于 2008-10-23T15:00:47.160 回答