machine-learning - 机器学习基于文本字段预测文本字段

Question

我在机器学习和预测方面工作了大约一个月。我尝试过 IBM watson 与 bluemix、amazon 机器学习和 predictionIO。我想要做的是根据其他字段预测一个文本字段。我的 csv 文件有四个text fields命名Question,Summary,Description,Answer和大约 4500 行/Recrods。上传的数据集中没有数字字段。典型记录如下所示。

{'Question':'sys down','Summary':'does not boot after OS update','Description':'Desktop does not boot','Answer':'Switch to safemode and rollback last update'}

在 IBM watson 上，我在他们的论坛中发现了一个问题，并且回复说现在无法上传自定义语料库。然后我转向亚马逊机器学习。我遵循了他们的文档，并能够使用 api 在自定义应用程序中实现预测。我对movielens数据进行了测试，一切都是数字的。我使用他们的python-boto库成功上传了数据并获得了电影推荐。当我尝试上传我的 csv 文件时，我遇到的问题是no text field can be selected as target. 然后我添加了对应于csv中每个值的数值。这个方法使预测成功，但准确性不对。可能是 csv 必须以更好的方式格式化。

下面粘贴了来自movielens 数据的记录。它说用户 ID 196 在时间（unix 时间戳）881250949 时给了电影 ID 242 两星评级。

196 242 3   881250949

目前我正在尝试predictionIO。如使用推荐模板的文档中所述，movielens 数据库的测试成功运行，没有出现问题。但是仍然不清楚基于其他文本字段预测文本字段的可能性。

预测是仅在数字字段上运行，还是可以根据其他文本字段预测文本字段？

score 2 · Accepted Answer

不，预测不仅仅在数值字段上运行。它可以是任何东西，包括文本。我的猜测是 MovieLens 数据使用 ID 而不是实际的用户和电影名称，因为

这节省了存储空间（这个数据集已经存在了很长时间，然后存储肯定是一个问题），并且
无需知道实际用户名（隐私问题）

对于您的情况，您可能需要查看文本分类模板https://docs.prediction.io/demo/textclassification/。您将需要建模您希望如何对每条记录进行分类。

machine-learning - 机器学习基于文本字段预测文本字段

1 回答 1

Related

Reference