所以,这个问题可能有点幼稚,但我认为问 Stackoverflow 的友好人士不会有什么坏处。
我现在的公司一段时间以来一直在使用第三方 API 进行 NLP。我们基本上是对一个字符串进行 URL 编码并将其发送过来,它们会为我们提取某些实体(我们有一个我们正在寻找的实体列表)并返回一个实体的 json 映射:sentiment。我们最近决定将这个项目引入内部。
在过去的两天里,我一直在研究 NLTK、Stanford NLP 和 lingpipe,但不知道我是否基本上是在重新发明轮子来做这个项目。
我们已经有包含原始非结构化文本的大量表格和另一个包含从该文本中提取的实体及其情绪的表格。实体是单个单词。例如:
非结构化文本:现在是床。这不是最好的。
实体:床
情绪:负面
我相信这意味着我们有训练数据(非结构化文本)以及实体和情感。现在,我如何在其中一个 NLP 框架上使用这些训练数据并获得我们想要的东西?没有线索。我有一些步骤,但不确定:
- 标记句子
- 分词
- 找出句子中的名词(词性标注)
- 找出那句话的情绪。
但这对于我上面提到的情况应该失败,因为它用两个不同的句子谈论床?
所以问题是 - 有没有人知道完成上述任务的最佳框架是什么,以及相同的任何教程(注意:我不是在寻求解决方案)。如果你以前做过这些事情,这个任务是否太大而无法承担?我查找了一些商业 API,但它们的使用成本高得离谱(我们是一家小型初创公司)。
感谢堆栈溢出!