我正在做一个爱好项目,我必须在其中爬取不同的网页,进行一些分析并回答一些查询。例如,一个网页可以包含如下数据:
1人在抢劫中受伤。
昨晚有两人在未遂抢劫案中受伤。
警方正在寻找因抢劫未遂而造成三人受伤的人。
我有兴趣回答诸如每起此类事件中有多少人受伤之类的问题。我的问题是我该怎么做。有没有可以帮助我完成这项任务的库?
看看Jena,似乎就是你要找的东西
我猜你正在涉足openNLP。您需要有自己的算法来获得问答系统所需的答案。以下内容可能对您有所帮助
Apache 打开 nlp --> http://opennlp.apache.org/
阿帕奇耶拿 --> http://jena.apache.org/
斯坦福打开 nlp --> http://nlp.stanford.edu/software/corenlp.shtml
我猜还有其他几个,但这些是非常受欢迎的。
试试斯坦福 CoreNLP演示。它用作语音标记器的一部分。它生成一个 XML 输出和漂亮的打印输出,并将“一个人在抢劫中受伤”中的“一个”显示为一个数字。试试看..这对你真的很有帮助。然后,您可以使用java中的DOM解析器来解析XML文件,您可以通过检查文件中的“NER”标签并查看它是否是数字来轻松分离出“one”。