0

我正在研究一个流程,该流程将在我们的一个(可能还有几个)内容丰富的网站上执行自然语言处理(NLP)。一旦 NLP 完成,我想做的是将输出(通常是一组术语,鉴于该隐喻的流行,您可能会认为是标签)到某种标准或普遍接受的组织结构中。

在一个完美的世界里,我真的很希望这是在民俗学概念(而不是分类学)下进行众包,因为最终目标是针对/吸引真实的人而不是“领域专家”,但我是开放的想法和最佳实践。出于可扩展性的明显目的,我想自动化这种税收/民间社会的人口,以便团队/组织中的“某些人”不负责查看一堆单词(有或没有上下文)和任意充实树的上下文组件。

我有一些想法需要一些研究来确定可行性,但我对这类事情的实践经验完全为零,所以这些想法实际上只是归结为我编造的可能在完成任务中发挥作用的东西。想象其他人在这种事情上的经验要多得多,我希望我能站在你的肩膀上。

感谢您的想法和见解。

实际例子

我针对我自己博客上的一篇文章运行了 NLP 。NLP 返回了具有足够相关性的以下术语:

  • 罗伯·威尔克森
  • 改变
  • 吉特

现在,我想在没有人为干预的情况下将这些术语纳入税收/民俗学。在这种情况下,“Git”和“Rob Wilkerson”是可以分类的术语——如果这些术语没有产生足够的牵引力值得跟踪,那么在这个过程中有/将会有一个额外的规定,将从结构中删除这些术语. 另一方面,“改变”可能太模糊/模棱两可,不值得麻烦。

4

1 回答 1

0

看起来Freebase,也许与DBpedia结合起来,可能正是我想要的。

于 2010-05-25T14:44:35.903 回答