0

我有一组训练数据,包含 20 个多项选择题(A/B/C/D),由一百名受访者回答。答案纯粹是分类的,不能缩放为数值。其中 50 名受访者被选中免费试用产品。选择过程未知。从这些信息中可以挖掘出哪些有趣的知识?

以下是我迄今为止提出的清单 -

  • 百分比研究(示例 - 在 Qs.5 中回答 B 并被选为免费产品试用的人的百分比)
  • 条件概率(示例 - 如果一个人在 Qs.5 中回答 B,他将被选中参加免费产品试用的概率是多少)
  • 朴素贝叶斯分类器(这可用于预测是否会为任何问题子集的给定值集选择一个人)。

您能想到可以执行的任何其他有趣的分析或数据挖掘活动吗?

由于响应不可量化/不可评分,因此可以消除通常的疑点,例如相关性。

我的方法正确吗?

4

2 回答 2

2

这是一种逆向工程。

对于每个受访者,您有 20 个答案和一个标签,表明该受访者是否获得产品试用。

您想知道 20 个问题中的哪一个对give trial or not决策至关重要。我建议您首先在训练数据上建立一个决策树模型。并仔细研究树以获得一些见解,例如低级决策节点包含大多数判别性问题。

于 2010-05-24T13:19:59.247 回答
1

出于分析目的,可以将答案设为数字,例如:

RespondentID  IsSelected  Q1AnsA  Q1AnsB  Q1AnsC  Q1AnsD  Q2AnsA...
12345         1           0       0       1       0       0
  1. 使用关联分析来查看答案中是否存在模式。

Q3AnsC + Q8AnsB -> IsSelected

  1. 使用分类(例如逻辑回归或决策树)来模拟如何选择用户。

  2. 使用聚类。是否有不同的受访者群体?它们在哪些方面不同?使用“弯头”或碎石方法来确定集群的数量。

  3. 您是否有其他关于受访者的信息,例如人口统计数据?在这种情况下,数据透视表会很好。

  4. 是否缺少数据?人们跳过问题的方式有规律吗?

于 2010-05-25T04:13:40.113 回答