1

我在主题调查和图表中有一些家庭作业。第一项任务是规范化调查的输入,因为数据的结构不时发生变化。因此,调查分为三种类型:

  • 存储文本的静态字段
  • 动态的,用户可以选择一个选项
  • 和多选字段,用户可以在其中选择多个选项

所以我不是一个真正的统计专家,所以我真的不知道我能用这些传入的数据做什么。

所以我拥有的数据存储在一个巨大的 XML 文件中,我可以很容易地得到一个调查被填充了多少次,以及一个字段被填充了多少次,所以我可以(例如在饼图上显示填充的关系或未填写)。第二个想法是使用条形图左右显示多选项元素的内容之间的关系。

在多选项元素的情况下,我的想法是显示包含一个选项的数据。但问题是,可以展示什么?

另一个问题是静态元素(文本字段等)。单个字段可以表示哪些数据?

XML 字段中的数据是从 2001 年到 2005 年收集的,所以也许我可以处理调查的日期,但正如我所说,我真的不知道如何处理数据,尽可能多地收集,创建大量的图表。

4

2 回答 2

0

我不推荐饼图。请改用条形图或点图。区分其中不同类别的相似频率要容易得多。按频率对类别进行排序也几乎总是一个好主意。在这里你可以找到一篇关于饼图为什么不好的短文。

3D 图表可能看起来不错,并且是一种简洁的方式,可以给对数据可视化知之甚少的人留下深刻印象(这可能是您需要的 ;-))。但大多数专家认为它们是不好的做法,因为使用并非绝对需要的额外维度会分散读者对实际数据的注意力。

就我个人而言,我认为交叉表和散点图是显示二维数据之间关系的不言自明的方式。

将一些基本统计数据与图表一起报告通常是一个好主意,但请确保仅在适当的时候才这样做。如果您想了解哪些单变量统计数据(例如平均值)适用于哪些数据,请参阅此Wikipedia 文章。

如果你真的想了解数据可视化,我可以强烈推荐Edward Tufte 所著的有关该主题的书籍。他们真的很高兴阅读。虽然它们立足于坚实的科学基础,但即使在该领域几乎没有或没有背景的情况下,它们也很容易理解。

祝你好运,亚历克斯

于 2011-01-09T18:34:32.930 回答
0

在规范化您的数据(这可能比您的工作的可视化部分更困难)之后,您可以执行以下操作:

  • 要显示包含文本的静态字段,您可以将这些文本重新编码为包含较少类别的新变量,这可能适合图形/绘图。另一种方法是在wordle.net上制作文本的词云。
  • 每个仅包含一个回答者的动态字段可能是最容易显示的。你可以制作一个饼图来显示属性的百分比,或者更确切地说是一个条形图,它也可以显示百分比/密度或频率(例如,参见 R 中的ggplot2包)。
  • 要显示多选字段,您应该将日期重组为适当的格式(我不知道它现在看起来如何)。这可以通过不同的表格来完成,这些表格显示所有变量中每个类别的计数(频率)。例如:昨天有 187 人吃巧克力,160 人吃面包,50 人吃披萨。然后,您可以轻松地通过条形图显示值。注意:这些值的总和不等于样本量,因为任何人都可以选择多个值,所以饼图将是一个非常糟糕的选择。

我希望我能帮上忙。

于 2011-01-08T20:39:18.263 回答