6

我是一个学生团队的“程序员”,旨在调查我的文法学校的满意度和一般问题。我们有一个建立在 1-6 范围内的问题,我们通过我用 python 编写的图表软件来解释这些答案。

现在<textarea>在我们问题的末尾有一个可以随意使用的。我目前正在考虑使这些数据可用的方法(我们不想阅读超过 800 多个答案)。

如何使用 Python 中的文本分析来调查学生的写作内容?我在想一种方法来“标记”任何写下来的句子,比如:

I don't like being in school. [wellbeing][negative]
I have way too much homework. [homework][much]
I think there should be more interesting projects. [projects][more]

是否有任何可用的方法来获得它?使用现有的分词器有意义吗?

谢谢你的帮助!

4

4 回答 4

2

好吧,我只是在这里提出想法..但我能想到的一种方法是,

  1. 首先使用聚类算法对响应进行聚类。诸如 K-means 之类的东西,或者您可以使用诸如 LDA 之类的东西进行主题建模。

  2. 然后,您可以通过进行文本分析来使用您的标记方法,在您从第 1 步获得的每个集群/主题中生成频繁/相关的关键字。

为什么第 1 步是个好主意?好吧,在我看来——在进行文本分析时,如果你随意标记句子,你可以生成很多标签——其中很多标签在上下文中是相似的。因此,您的可用性可能会下降,您仍然必须分析每个句子的标签负载。

使用聚类/主题建模也可以帮助将上下文问题减少到一定程度。因此,我认为更有用。

于 2012-12-09T10:40:13.360 回答
1

“NLTK 情绪分析”是开始搜索的好地方。Natural Language Toolkit是用于在 Python 中进行文本分析的软件包,但它并不简单,因为任务非常复杂。前几个结果有一些引人注目的演示,但我没有详细查看它们。

于 2012-12-09T12:35:23.650 回答
1

我不会完全回答你的问题。但是,如果我了解您有一个经典调查(带有复选框,......),最后有一个小文本区域问题......

因此,您将有大约 800 多个答案。但我想答案不会太长。通常它会是几行甚至几句话......我认为手动QDA软件会比不完美的算法更好。例如,您可以使用开源 RQDA(R 项目包)或 Nvivio 等商业软件...

谢谢

于 2012-12-10T13:59:36.293 回答
0

这听起来很像人工智能编程,只是因为它们“标记”问题和响应的方式。也许看看http://pyaiml.sourceforge.net/和人工智能标记语言。我对它没有太多经验,但是您可以根据需要对其进行调整,而不是从头开始。

于 2012-12-09T10:40:39.577 回答