0

我正在尝试在 Ruby 中解析事件(音乐会、电影等)数据,但无法决定使用什么工具。

我认为 stanford 解析器最初是要走的路,但后来听说了 treetop。

我在这两个方面都在苦苦挣扎,因为让 stanford 解析器在 Windows 上与 Ruby 一起工作已经花费了两天多的搜索和挣扎,并且在安装它时没有结束错误。

Treetop 安装没问题,但是文档非常有限,而且据我所知,treetop 似乎比实际内容更擅长处理语法结构,但也许我只是不完全了解 Treetop 的功能。

一件好事(我认为)是我拥有一个包含乐队和电影名称的大型数据库/语料库(?),以及我想要检索的相当有限的数据部分。

例如,一个清单是

7 月 15 日星期五晚上 7 点 30 分,鹿湖公园与客人嘿罗塞塔的悲剧性嬉皮士!

另一个清单是

2011 年 7 月 8 日 - 塔科马穹顶,街区新孩子和后街男孩与马修莫里森,晚上 7:30,华盛顿州塔科马

对于每个列表,我都试图获取一组相当具体的细节,例如谁/什么、日期、时间、城市、地点。

鉴于我已经有一个乐队名称数据集,并且城市名称应该很容易获得列表,所以应该“相当”容易挑选出其他细节,我只是不确定我应该使用哪个工具时间,或者是否有更好的方法来做到这一点?

有什么建议么?

4

1 回答 1

2

不,treetop用于解析更多结构化语言(如计算机语言)。对于自然语言解析 (NLP),您最好使用斯坦福解析器或类似的东西。看看这个关于 NLP 与 Ruby 结合的博客文章:

http://mendicantbug.com/2009/09/13/nlp-resources-for-ruby/

于 2011-07-10T21:52:08.487 回答