我被困在对我得到的数据集应用分类或聚类的决定之间。我想得越多,我就越困惑。这就是我所面临的。
我有新闻文件(大约 3000 份,并且还在不断增加),其中包含有关公司、投资、股票、经济、季度收入等的新闻。我的目标是对新闻进行排序,以便我知道哪些新闻对应于哪家公司。例如,对于新闻项目“Apple 推出新的 iphone”,我需要将 Apple 公司与它关联起来。一个特定的新闻项目/文档只包含“标题”和“描述”,所以我必须分析文本以找出新闻所指的公司。也可能是多家公司。
为了解决这个问题,我求助于 Mahout。
我从集群开始。我希望将“Apple”、“Google”、“Intel”等作为集群中的首要术语,从那里我会知道集群中的新闻与其集群标签相对应,但情况有点不同。我得到了“投资”、“股票”、“通信”、“绿色能源”、“终端”、“股票”、“街道”、“奥林匹克”和许多其他术语作为最重要的术语(这对于聚类算法是有意义的' 寻找常用术语)。虽然有一些“Apple”集群,但与之相关的新闻项目很少。我认为集群可能不是针对这类问题,因为许多公司新闻进入更一般的集群(投资、利润)而不是特定的公司集群(Apple)。
我开始阅读需要训练数据的分类,这个名字也很有说服力,因为我实际上想将我的新闻项目“分类”为“公司名称”。当我继续阅读时,我的印象是名称分类有点欺骗性,与分类相比,该技术更多地用于预测目的。我遇到的另一个困惑是如何为新闻文档准备训练数据?假设我有一个我感兴趣的公司列表。我编写了一个程序来为分类器生成训练数据。该程序将查看新闻标题或描述是否包含公司名称“Apple”,然后它是关于苹果的新闻报道。这是我准备训练数据的方式吗?(当然,我读到训练数据实际上是一组预测变量和目标变量)。如果是这样,那么我为什么要首先使用 mahout 分类呢?我应该放弃 mahout,而是使用我为训练数据编写的这个小程序(它实际上进行了分类)
你可以看到我对如何解决这个问题有多么困惑。另一个让我担心的事情是,如果可以让一个系统变得如此智能,如果新闻说“iphone 销量创历史新高”而不使用“Apple”这个词,那么系统可以将其归类为与苹果相关的新闻吗?
提前感谢您为我指明正确的方向。