0

我的数据集如下所示。

在此处输入图像描述

主题栏是指电子邮件主题和问题描述,问题详细信息栏是指电子邮件正文。

基于主题和电子邮件正文关键字,我需要分类它应该属于哪个队列。

以前的队列列包含 25 多个不同的类别。

我的数据框形状为 (60697, 4)。

请就我需要遵循的分类方法提出建议。我需要使用哪些 ML 模型来训练数据和测试数据。

我知道一点使用自然语言标记化概念。

分类更像是 gmail 收件箱分类:主要、社交和促销。但是,在这里我必须归类为 25+。

4

2 回答 2

2

我会尝试以下方法:

  1. 使用 CountVectorizer 或 TfidfVectorizer 对您的主题和电子邮件正文进行矢量化,这样您就拥有了X矩阵。您可能需要测试不同ngram_range的 ' 以提高预测性能
  2. 分解你的类,所以每个类都应该有一个整数 - 这将是你的y向量
  3. 分裂你的X进入X_train和进入X_testyy_trainy_test
  4. X_test使用和训练一个 LogisticRegression 模型y_test
  5. 测试它X_testy_test ...
于 2018-02-22T12:08:41.970 回答
0

你可以试试 FastText。这是教程的链接。

Fasttext在监督分类的上下文中使用词嵌入的概念。使用 fasttext 的主要优点是,正如它的名字所说,它非常快。它可以轻松处理 1000 多个类别/标签。

于 2018-02-23T12:09:01.483 回答