-1

我有一个与城市经济高度相关的分类问题。我有自由文本中的非结构化数据,例如人口、收入中位数、就业等。是否可以使用文本挖掘来理解文本中的值并进行分类。大多数文本挖掘文章如果已阅读,则使用关键字或短语计数来进行分类。我希望能够根据文本的含义与文本的频率进行分类。这可能吗?

顺便说一句,我目前使用 RapidMiner 和 R。不确定这是否适用于其中任何一个?

在此先感谢,约翰

4

2 回答 2

0

您可以将这些视为两个独立的问题。

  1. 从非结构化数据中提取信息。
  2. 分类

有几种方法可以从文本中挖掘特定特征。另一方面,您也可以直接使用词袋方法直接进行分类并查看结果。根据您的问题,分类器可能仅从文本特征中学习。

您还可以使用 PCA 或类似的工具来查找所有重要特征,然后运行挖掘过程来提取这些特征。

所有这些都取决于您的问题过于广泛和模糊。

于 2013-09-27T00:12:00.697 回答
0

是的,这可能是可能的。

但是不,我不能给你一个简单的解决方案,你必须收集很多经验并自己进行实验。没有适用于所有人的按钮式魔术解决方案。

由于您的问题过于宽泛,我认为没有比“是的,这可能是可能的”更好的答案了,抱歉。

于 2013-09-17T21:45:32.520 回答