我有数以千计的调查回复,这些回复已根据回复的内容进行了标记。每个响应可以有一个或多个标签(最多 20 个),并且标签彼此独立,而不是被构造成类别子类别或其他东西。
我希望能够进行如下分析:
- 给定标签有多少个实例?
- 哪些标签总体上出现频率最高?
- 标签 X 出现在哪里,还有哪些其他标签最常出现?
- 所有标签的列表及其旁边的每个标签的计数
- 选择数据子集进行类似分析(例如按国家/地区)
与我一起工作的人传统上在 Excel 中处理所有事情(一般业务战略咨询工作),而在这种情况下则行不通。他们的反应是将项目框架更改为 Excel 可以在数据透视表中处理的东西,但如果我们可以使用更强大的工具来支持更复杂的关系,那就更好了。
我一直在学习 SQLite,但开始担心我想做的事情会非常复杂。
我也一直在学习 Python(出于不相关的原因),我想知道 ORM 工具和一些 Python 代码是否是更好的选择。
然后有类似 Access 的东西(我没有,但如果它是这种东西的最佳选择,我可能愿意获得)。
总而言之,我很想知道这些分析总体上会有多难,以及哪些工具最适合这项工作。我完全接受这样一种想法,即我正在以一种倒退的方式思考部分或全部问题,并欢迎就我在这里所写内容的任何方面提出任何建议。