1

以下场景的任何示例、提示和指导?

我从几个不同的新闻网站检索了更新。然后我分析这些信息以预测世界当前的趋势。

我在搜索上述想法时只能找到有关数据挖掘的信息,但它是针对数据库系统的。虽然数据挖掘与我正在尝试做的类似,但数据库信息中的数据挖掘比我从网站上检索到的更具体。那么有人可以在这方面指导我吗?我非常感谢您对此提供的任何帮助。

谢谢。

4

2 回答 2

0

首先,你需要一些过去的训练数据。含义,收集旧新闻和趋势状态,以便在不同时间点进行分析。

然后,您必须决定如何量化这些信息。如果趋势类似于“已售出的手机”,您可以只计算已售出的手机数量。新闻更难量化。例如,您可以测量训练新闻中的词频,并将出现频率最低的 n 个词作为特征(类似于垃圾邮件过滤器)。

之后,您根据这些特征和过去的趋势训练分类器。一个很好的算法是“随机森林”算法,因为它实际上是无参数的。

您将需要大量背景知识才能实际实施此计划。Hastie、Tibshirani 和 Friedmann 的《统计学习要素》是一本值得学习的好书。可以在作者主页上免费下载。

于 2009-11-28T22:43:31.353 回答
0

如果您正在寻找数据提取算法,您应该查看聚类分析和“非负矩阵分解”。
您可以使用它提取一般主题。从中获得当前趋势相对容易。
但是其他主题中的哪些(如果有的话)将成为下一个趋势,需要魔术或神经网络。

于 2009-11-28T22:49:53.303 回答