4

我正在创建一个软件,用于转储用户在其 Twitter 个人资料上评论和发布的关于某些化妆品“XYZ”的纯文本。我已经解析了从 Twitter API 接收到的 JSON 对象,并将原始数据转储到 MySql 数据库中。

现在,我必须对这些纯文本进行分析,以获取关于化妆品“XYZ”的好评论或坏评论等模式,并将这些信息提供给单独的 API,以在 HTML 中创建动态可视图表。

我在数据挖掘和基于文本的模式识别领域是全新的。如果有人能建议如何从我的数据库中的纯文本继续使用模式识别算法,为我的单独的可视化图表 API 提供提要,我将不胜感激。

4

6 回答 6

11

我真的鼓励你观看以下NLP 斯坦福讲座,尤其是:

  • 第 3 周 - 情绪分析(这是您想要实现的目标)
  • 第 4 周 - 关系提取(赫斯特模式等...)
  • 我想你会发现它们是非常宝贵的资源。

    于 2012-06-23T06:39:14.697 回答
    3

    如果您了解模式识别的基础知识:

    1. 为您的产品手动创建两组(正面和负面)Twitter 帖子。
    2. 为发布定义度量、内核或相似性度量。您可以使用高维二进制向量,每个分量代表一个单词,值为 1 表示存在,0 表示不存在该单词。您还可以为否定词添加特殊权重,例如“不”。
    3. 使用机器学习算法在手动创建的集合(类)上训练分类器。您可以使用 SVM、神经网络、最近邻分类器...
    4. 使用经过训练的分类器对新的 Twitter 帖子进行分类。

    这是高层次的基本思想。当然,有许多细节需要注意,但解释它们超出了 SO 答案的范围。

    于 2012-06-23T06:36:18.800 回答
    2

    这个子域称为情感分析。关于这个主题有大量的讲座和文章。不幸的是,到目前为止,我所看到的真实结果对我来说并没有那么令人信服。

    这一挑战的关键是拥有良好的训练数据。让自己成为一个工具,让您可以快速浏览数据并手动将其标记为正面/中性/负面,以快速获得大量训练集。

    有关整个过程以及一些最先进的方法和技巧的详细信息,请参阅斯坦福 NLP 讲座,特别是第 3 周。

    于 2012-06-23T10:17:47.797 回答
    0

    您可能想看看 Mahout(在这种情况下,您可能希望将数据加载到 HDFS 中)。

    你对你的用例不是特别具体,文本分析不是一个简单的问题,但 Mahout 绝对是机器学习应用程序的一个很好的“开箱即用”工具。

    你也可以看看这本书,很不错:Taming Text

    于 2012-06-23T06:17:55.260 回答
    0

    我对您的问题的理解是,您需要一个分类器来区分评论的好坏。

    为了解决这类问题,统计方法被证明是有效的,就像垃圾邮件分类器一样。

    您可以查看与贝叶斯分类器相关的项目,例如cardmagic/classifier,看看它是否有帮助。

    于 2012-06-23T06:34:46.440 回答
    0

    您可能想了解 Frontline Systems 的产品 XLMiner: http: //www.solver.com/xlminer/

    它是用于 Excel 的数据挖掘插件,具有许多内置功能。

    于 2012-06-26T17:09:32.410 回答