我正在尝试在 Ruby 中解析事件(音乐会、电影等)数据,但无法决定使用什么工具。
我认为 stanford 解析器最初是要走的路,但后来听说了 treetop。
我在这两个方面都在苦苦挣扎,因为让 stanford 解析器在 Windows 上与 Ruby 一起工作已经花费了两天多的搜索和挣扎,并且在安装它时没有结束错误。
Treetop 安装没问题,但是文档非常有限,而且据我所知,treetop 似乎比实际内容更擅长处理语法结构,但也许我只是不完全了解 Treetop 的功能。
一件好事(我认为)是我拥有一个包含乐队和电影名称的大型数据库/语料库(?),以及我想要检索的相当有限的数据部分。
例如,一个清单是
7 月 15 日星期五晚上 7 点 30 分,鹿湖公园与客人嘿罗塞塔的悲剧性嬉皮士!
另一个清单是
2011 年 7 月 8 日 - 塔科马穹顶,街区新孩子和后街男孩与马修莫里森,晚上 7:30,华盛顿州塔科马
对于每个列表,我都试图获取一组相当具体的细节,例如谁/什么、日期、时间、城市、地点。
鉴于我已经有一个乐队名称数据集,并且城市名称应该很容易获得列表,所以应该“相当”容易挑选出其他细节,我只是不确定我应该使用哪个工具时间,或者是否有更好的方法来做到这一点?
有什么建议么?