text - 文本挖掘 - 从非结构化文本中提取波段名称

Question

我知道这是一个普遍的、开放式的问题。我基本上是在寻求帮助来决定前进的方向，也许是在寻求一些阅读材料。

我正在研究一种进行非结构化文本挖掘的算法，并试图从该文本中提取特定的东西——乐队的名称（单个艺术家、乐队等）。文本本身没有可预测的结构，但相对较小（1、2 行文本）。

一些例子可能是（不是真实事件）：

Concert Green Day At Wembley Stadium
Extraordinary representation - Norah Jones in Poland - at the Polish Opera

现在，我正在考虑尝试一个分类器，但文本似乎很小，无法为其提供任何真正的训练信息。可能还有其他几种文本挖掘技术、启发式或算法可以为这类问题产生良好的结果（或者可能没有算法会）。

score 2 · Accepted Answer

由于您的数据结构，预训练模型可能会表现不佳。此外，一般组织、位置和人员类别可能对您没有用处。

我不认为文本本身太小，大多数 NER 系统一次只处理一个句子。因此，为您自己的训练集提供 NER 库可能会很好，例如http://nlp.stanford.edu/ner/index.shtml

如果您不想创建训练集，则需要包含所有乐队/艺术家的字典。那么你显然找不到未知的乐队/艺术家。

score 0 · Accepted Answer

有一个简单的 NER 算法可以稍微简化任务：获取可能是（或不是）命名实体的单词，并在 Google 或 Yahoo（通过 API）中搜索它们两次：作为单独的单词和确切的短语（即引号）。将结果数相除。有一个阈值（<30）确定单词是否形成命名实体。

2 回答 2