1

我正在尝试对一组短语进行分析,但我不知道“自然语言处理”如何帮助我,或者是否有人可以与我分享他的知识。

目标是提取街道和本地化。这类信息通常不会以结构化的方式呈现给读者,而且很难找到解析它的方法。我有两个主要目标。

首先是街道本身的提取。据我所知,NLP 库可以帮助我对短语进行标记并执行分析,从而获得名词(例如)。但是一条街从哪里开始,又在哪里结束呢?我假设我需要将该分析与街道数据库进行比较,但我不知道哪种方法是最佳方法。

另外,我想扣除严重程度,例如在车祸中。我假设唯一的方法是通过短语中的当前单词来建立一些启发式(例如,如果已故单词出现 + 100)。我对么?

非常感谢一如既往!:)

4

1 回答 1

3

您想要做的第一部分(“首先提取街道本身。[...] 但是街道从哪里开始,在哪里结束?”)是 NLP 的一个子字段,称为Named Entity Recognition。有许多可用的库可以做到这一点。我自己喜欢 NLTK for Python。根据您的选择,我假设街道名称数据库对于训练识别器很有用,但您可能能够使用默认语料库获得合理的结果。为此,请阅读您的 NLP 库的文档。

第二部分,认识事故严重性,首先可以作为一个独立的问题来处理。您可以将原始单词或其词性标签作为特征,并在其上训练分类器(SVM、HMM、KNN,您的选择)。为此,您需要一个相当大的、正确标记的训练集;从你的描述我不确定你有吗?

“我假设唯一的方法是通过短语中的现在词来建立一些启发式”是非常模糊的,并且可能意味着很多事情。根据下一句话,听起来您认为扫描预定义的关键字列表是唯一的方法。在这种情况下,不,请参阅上面的段落。

一旦这两个部分都工作了,您可以将它们结合起来并计算每条街道的事故数量及其严重程度。使用一些地理编码库,您甚至可以推广到社区或城市。另一个挑战是检测同义词(“Smith Str”与“John Smith Street”)和同音词(伦敦的“Smith Street”与利兹的“Smith Street”)。

于 2012-09-17T16:27:25.517 回答