问题标签 [stanford-nlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
lisp - 如何操作解析树?
我一直在玩自然语言解析树并以各种方式操纵它们。我一直在使用斯坦福大学的 Tregex 和 Turgeon 工具,但代码很乱,不适合我主要使用 Python 的环境(这些工具是 Java,不适合调整)。我想要一个工具集,当我需要更多功能时可以轻松破解。是否有任何其他工具非常适合在树上进行模式匹配然后操作那些匹配的分支?
例如,我想将以下树作为输入:
和(这是一个简化的例子):
- 查找具有标签 NP 的任何节点,该节点具有标签为 NP 的第一个子节点和一些名为“Bank”的后代,以及标签为 PP 的第二个子节点。
- 如果匹配,则取出 PP 节点的所有子节点并将它们移动到匹配的 NP 子节点的末尾。
例如,取树的这一部分:
并将其变成这样:
由于我的输入树是 S 表达式,因此我考虑过使用 Lisp(嵌入到我的 Python 程序中),但它已经很长时间了,以至于我在 Lisp 中编写了任何重要的东西,以至于我什至不知道从哪里开始。
什么是描述模式的好方法?什么是描述操作的好方法?考虑这个问题的好方法是什么?
nlp - 如何使用 Stanford Parser 获取 POS 标记
我正在使用斯坦福解析器来解析词对之间的依赖关系,但我还需要词的标记。但是,在 ParseDemo.java 中,程序只输出了标记树。我需要像这样的每个单词的标记:
不是这样的:
谁能帮我?多谢。
java - 如何使用斯坦福 NLP API 从 NL 查询中检索短语或标记?
我需要从斯坦福解析器返回的短语在我的程序中使用。
java - 斯坦福解析器 - 类型依赖
我需要处理 stanford parser 中的所有格依赖关系。我在邮件列表中读到使用输出格式
但我得到了这个例外。谁能给我链接到支持这种输出格式的斯坦福解析器?
我目前正在使用斯坦福解析器版本 9-07-2010。
java - 斯坦福解析器的非法参数异常
我尝试使用斯坦福解析器解析一个句子,但我得到了异常。下面指定了输入文件、代码和异常。
我认为问题是因为输入文件中的 penn 树不处理标点符号。如何生成一个也处理标点符号的 penn 树?
输入文件
代码
引发异常:
parsing - opennlp vs 斯坦福 nlptools vs 伯克利
嗨,我们的目标是解析像维基百科这样的大型语料库,以生成最可能的解析树,并进行命名实体识别。就性能和准确性而言,哪个是实现这一目标的最佳库?有没有人使用过上述库中的一个以上?
java - 在斯坦福解析器中查找名词和动词
我需要找出一个词是动词还是名词,或者两者都是
例如,单词是“搜索”,它既可以是名词也可以是动词,但斯坦福解析器会为其提供 NN 标记。
斯坦福解析器有什么办法可以让“搜索”既是名词又是动词?
我现在使用的代码
还是我应该使用任何其他软件来做到这一点?请建议我提前谢谢
java - 斯坦福 NER 工具包 - 小写实体识别
我是 NLP 的新手,并试图弄清楚命名实体识别器如何注释命名实体。我正在尝试使用斯坦福 NER 工具包。当我在标准更正式的数据集上使用 NER 时,其中所有命名约定都遵循以表示命名实体,例如在新闻专线或新闻博客中,NER 正确注释实体。但是,当我使用诸如 twitter 之类的非正式数据集运行 NER 时,命名实体可能未按应有的方式大写,NER 不会注释实体。我使用的分类器是一个 3-CRF 序列化分类器。谁能让我知道如何让 NER 也识别小写实体?非常感谢任何有关如何破解 NER 以及在何处进行改进的有用建议。提前感谢您的所有帮助。
java - 我应该用什么来抓取许多新闻文章?
我有一个自然语言处理项目,但为此我需要从雅虎新闻、谷歌新闻或博客等来源抓取许多网络文章......
我是一个java开发者(所以我宁愿使用java工具)。我想我可以自己解析每个源网站并使用 HttpClient / XPath 提取文章但我有点懒:) 有没有办法让我不必为每个源制作一个解析器?
(我不仅对新文章感兴趣,而且对 2000 年至今的文章也感兴趣)