我知道这是一个普遍的、开放式的问题。我基本上是在寻求帮助来决定前进的方向,也许是在寻求一些阅读材料。
我正在研究一种进行非结构化文本挖掘的算法,并试图从该文本中提取特定的东西——乐队的名称(单个艺术家、乐队等)。文本本身没有可预测的结构,但相对较小(1、2 行文本)。
一些例子可能是(不是真实事件):
Concert Green Day At Wembley Stadium
Extraordinary representation - Norah Jones in Poland - at the Polish Opera
现在,我正在考虑尝试一个分类器,但文本似乎很小,无法为其提供任何真正的训练信息。可能还有其他几种文本挖掘技术、启发式或算法可以为这类问题产生良好的结果(或者可能没有算法会)。