1

我每季度都在做一个持续的调查。我们让人们注册(他们提供广泛的人口统计信息)。

然后我们让他们回答六个简短的问题,其中有 5 个可能的值更糟、更糟、相同、更好、更好。

当然,随着时间的推移,我们不会有相同的参与者,有些人会退出,有些新人会注册,所以我正在尝试决定如何最好地构建数据库和代码(希望使用 Python、Numpy?)以最好地允许按初始人口统计数据定义的各种类别进行持续收集和分析。截至目前,我们有 700 名左右的参与者,因此数据集并不太大。IE; 人口统计、UID、北、南、住宅。商业 然后回答 Q1 的 6 个问题 Q2 相同,依此类推,然后需要能够切骰子并根据各种人口统计数据对季度答案的值进行平均,以查看随时间推移的趋势。

由于每个季度都有不同的参与者,因此平均、分组等会稍微复杂一些

任何指向此类数据库设计模式的指针?和分析?这是一个稀疏矩阵吗?

4

3 回答 3

2

关于您问题的调查分析部分,我强烈建议您查看R的调查包(其中包括许多有用的小插曲,包括“调查分析示例”)。您可以在网页“R 中的调查分析”中详细了解它。特别是,您可能希望查看标题为数据库支持的调查对象的页面,该页面涵盖了处理非常大的调查数据的主题。

您可以根据需要使用 RPy2将此分析集成到 Python中。

于 2010-02-08T22:28:14.033 回答
1

这是一个数据仓库。小,但是一个数据仓库。

你有一个Star Schema

你有事实:

  • 响应值是度量

你有维度:

  • 时间段。这有许多属性(年、季度、月、日、周等)。此维度允许您累积对调查的无限响应。

  • 问题。这有一些属性。通常,您的问题属于类别或产品线或焦点或其他任何内容。您可以在此维度中有很多问题“类别”列。

  • 参与者。每个参与者都有独特的属性和对人口统计类别的引用。您的人口统计类别可以非常简单地列举您的人口统计组合。此维度允许您随时关注受访者或其人口统计类别。

但是 Ralph Kimball 的 The Data Warehouse Toolkit 并遵循这些设计模式。 http://www.amazon.com/Data-Warehouse-Toolkit-Complete-Dimensional/dp/0471200247
买这本书。在开始走错路之前,完全理解这一切是绝对必要的。

另外,因为您正在做数据仓库。查看 Stack Overflow 上的所有 [数据仓库] 问题。阅读您可以找到的每个数据仓库博客。

只有一种相关的设计模式——星型模式。如果你明白这一点,你就会明白一切。

于 2010-02-08T18:16:36.660 回答
0

在分析中,如果您的六个问题的提出方式让您相信答案是相关的,请考虑首先对原始分数进行因子分析。通常比较跨地区或客户类型的因素比单独跨问题比较具有更大的统计能力。此外,因子得分更可能呈正态分布(它们是 6 个观察值的加权和),而单独的六个问题则不会。这允许您在比较因子得分时基于正态分布应用 t 检验。

不过要小心。如果您为答案分配数值 - 1 = 更差,2 = 更差,等等。您暗示更差和更差之间的距离与更差和相同之间的距离相同。这通常是不正确的——你可能真的必须搞砸才能获得“更糟糕”的投票,而只是被动搞砸可能会让你得到“更糟糕”的分数。因此,将基数(数字)分配给序数(排序)有其自身的偏差。

每个季度的参与者数量不相等不是问题 - 有统计 t 检验可以处理不相等的样本量。

于 2010-02-08T18:56:57.863 回答