问题标签 [stanford-nlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ruby - 我是否正确使用了 StanfordParser 包装器来处理 ruby?它返回不正确的结果
我已经为它安装了最新版本的 stanfordparser 和 ruby 包装库。尝试使用网站上的一个简单示例对其进行测试时:
vi test.rb:
红宝石-rubygems test.rb
这真的是一个健全性检查 - 我做错了什么,或者这是解析器或包装器中的错误?
java - 斯坦福 NER - 提取多词实体
如何在斯坦福 NER 中标记搭配?目前它标记Federal Reserve Bank of New York
为
我希望它被识别为
这可能吗?
stanford-nlp - 斯坦福 POS 标记器中的标记化是如何完成的?
我将使用斯坦福 POS 标记器来标记句子。我想将文档拆分为句子,然后将句子拆分为标记。当我第一次使用 java 时,我只想从命令行运行标记器。
当我运行标记器时,它会给出输出,但会给出“不可标记化”的警告。这个警告是什么意思?标记不是由标记器隐式完成的吗?
我已尝试运行将文本拆分为您指定的句子的命令,但它不起作用。标记器给出无法打开路径的错误。
我也想知道如何输入文本文件的数量并在相应的文件中获取它们的输出,这样所有的输出都不会混乱。
java - 运行斯坦福 NER 和斯坦福 POS 标记器时出现 IncompatibleClassChangeError
我正在尝试在一个应用程序中使用斯坦福 NER 和斯坦福 POS 标记器。IncompatibleClassChangeError
当我尝试运行 POS 标记器方法时,我得到了。
我在类路径中有 NER 和 POS 标记器的 jar 文件。如果我从我的类路径中删除 NER 罐子,那么这个错误就不会出现。我猜NER jar和POS jar中有一些常见的类,而java无法确定在运行时使用哪个类。
以下是堆栈跟踪:
我不知道为什么会出现这个错误。
nlp - 链接到包含所有英语单词的频率等级的列表
有没有人知道包含所有英语单词频率排名的列表的链接。大约六个月前,我在 'wiki' 上找到了一个包含此列表的列表,但不幸的是我没有将其添加为书签,现在我无法找到相同的链接或任何更好的链接。如果有人有这个链接或更好的东西,请发布它。
java - stanford 的 StaggerDemo 的 corenlp 包
我想让一个程序自动标记目录中的文本。这是我的第一步。我对 TaggerDemo.java 做了一点改动。但它没有按预期正常工作。
这是我得到的错误。
为什么说找不到文件?
当我尝试在终端下编译它时,它说 edu.stanford.nlp.ling.* 无法导入...
非常感谢。
java - 通过斯坦福解析器提取所有名词、形容词形式和文本
我正在尝试通过斯坦福解析器从给定文本中提取所有名词和形容词。
我目前的尝试是在 Tree-Object 的 getChildrenAsList() 中使用模式匹配来定位以下内容:
并将它们保存在一个数组中。
输入语句:
在本文中,我们提出了一种从任意文本中提取语义信息的算法。
结果 - 字符串:
我尝试使用模式匹配,因为我在斯坦福解析器中找不到返回所有单词类(例如名词)的方法。
有没有更好的方法来提取这些词类或者解析器是否提供特定的方法?
java - 如何减少斯坦福解析器的执行时间?
早上好,
我正在为我的应用程序使用斯坦福的词性,我需要解析许多文本文件(可以转到 20 个文件)。但是我注意到 stanford 需要很多时间(有时 30 分钟或更长时间),问题是 Stanford 会自动构建语法树,即使我不需要它。有没有人遇到过这个问题?我能做些什么来减少斯坦福的解析时间?
欢迎任何帮助,问候。
java - 强制 stanford 解析器接受未经解析器词典许可的 POS 标签
我有一个预先标记的句子文件,其中一些是祈使句(隐式主语、动词优先等)。在没有任何部分标记的情况下,stanford 解析器错误地将第一个单词(动词)标记为大多数(但不是全部)这些祈使句的主语中的名词。在这些句子的第一个单词上使用部分标记(我相当确定我做得正确 - 我已经编辑并重新编译了 LexicalizedParser 以确保相关的命令行选项被识别并最终出现在 lexicalizedParser.java 中的正确位置) (使用 _VB),它的行为与不存在标记时没有什么不同。
根据lexparser 包摘要(在页面下方大约 60% 处查看“对解释有一些限制......”),这是因为将 POS 标签 VB 放在其中一些单词上对于解析器相信。
如何让解析器读取并跟踪所有标签(最好从命令行)?更新词典?
使用 EnglishFactored.ser.gz 而不是 EnglishPCFG.ser.gz 可以减轻这个问题,但它并没有消失。
几年前有人向 stanford [parser-user] 邮件列表发布了一个类似的问题,但我似乎无法找到这篇文章的答案。
编辑:使用另一个版本的解析器(从 2010 年 8 月 20 日开始),这个问题似乎不会发生 //at all//。
python - 在 python 中使用管道
所以我想使用 stanford 解析器并使用 lexparser.csh 来解析这行文本。但是当我运行这段代码时,我得到了默认文本的输出。给出的实际文本没有被解析。那么我是否以正确的方式使用管道?而且我在很多示例中都看到过 - '-' 与命令一起使用。为什么要使用它?因为当我使用该脚本时,脚本只是停在 sub.stdout.readline()