假设我下载了“n”条推文并从中删除长度 <= 2 的单词,然后将每条推文标记为“否定”或“非否定”,这样就形成了我的训练集。
但是,在我的数据集中,没有像 Iris 数据集如何具有萼片长度、萼片宽度、花瓣长度和花瓣宽度那样定义明确的属性,而是每个单词都成为一个属性,不同的示例推文将具有不同数量的属性。
我可以使用这个数据集并将我的问题视为分类问题吗?并尝试预测一条新推文是负面的还是非负面的?
或者你会建议什么作为预测推文是否负面的最佳方法?
假设我下载了“n”条推文并从中删除长度 <= 2 的单词,然后将每条推文标记为“否定”或“非否定”,这样就形成了我的训练集。
但是,在我的数据集中,没有像 Iris 数据集如何具有萼片长度、萼片宽度、花瓣长度和花瓣宽度那样定义明确的属性,而是每个单词都成为一个属性,不同的示例推文将具有不同数量的属性。
我可以使用这个数据集并将我的问题视为分类问题吗?并尝试预测一条新推文是负面的还是非负面的?
或者你会建议什么作为预测推文是否负面的最佳方法?
您正在描述标准文本分类问题。在此设置中,特征集是(有限)单词集,而不是萼片长度、宽度、...
结果,每个文档都针对所有此类特征表示(所有文档具有相同数量的特征),但大多数值将为零,从而创建了一个非常稀疏的向量。
这是预测极性/情绪的最佳方法,但您应该进一步提高对该主题的了解。我建议阅读Sebastiani 关于文本分类的调查。
问候,