问题标签 [stanford-nlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
529 浏览

java - Java,StanfordNLP Parser:如何停止将尖括号标记为标记/将尖括号标记为标点符号?

我正在解析一个数据集,其中人们仅使用尖括号作为标点符号,并且从未(曾经)发生实际标记。

有没有办法改变解析器的功能,而不是调用

一个令牌,我们可以得到

这似乎是一个相当简单的问题,但我无法在文档中或通过查看代码找到简单的修复。

提前致谢!

PS 还有其他我应该注意的以这种方式表现的角色吗?

0 投票
2 回答
7016 浏览

python - 将 stanford pos tagger 导入 nltk 时遇到问题

这可能是一个非常琐碎的问题。我正在尝试通过此处给出的 nltk 使用 stanford pos tagger问题是我的 nltk 库不包含 stanford 模块。因此,我将其复制到相应的文件夹中并进行了相同的编译。现在,当我尝试运行一个示例时,模块被检测到,而不是模块内的类。谁能告诉我哪里出错了??同样,这可能非常愚蠢。

我使用 py_compile 来编译 stanford.py 文件。我错过了什么吗

0 投票
4 回答
2527 浏览

java - 如何拆分句子?

所以,我发现并且目前正在使用斯坦福解析器,它非常适合分割句子。我们的大部分句子都来自 AP,因此它非常适合该任务。

以下是问题:

  • 它消耗大量内存(600M 很多)
  • 它真的搞砸了正文的格式,我必须在以后制作很多边缘案例。(文档预处理器 API 调用不允许指定 ascii/utf8 引号——它们立即转到乳胶样式,缩略词(显然)被分成不同的单词,并且虚假的空格被放在不同的地方)

为此,我已经编写了多个补丁来弥补我真正不应该做的事情。

基本上它的使用与拆分句子的问题一样大。

我还有哪些其他选择?任何其他 NLP 类型的框架可能会有所帮助?

我最初的问题是能够以很高的概率检测句子边缘。

0 投票
1 回答
1579 浏览

parsing - 在斯坦福解析器中添加一种语言

我想用另一种尚未实现的语言使用斯坦福解析器。

我查看了网站,但没有发现任何可以帮助我的东西。

我想我要做的就是“只是”创建一个新的语言PCFG.ser,但要做到这一点?

另外,如果有人知道是否应该发布法语和西班牙语?

0 投票
2 回答
1436 浏览

java - 关于在句子中查找单词的 Java 查询

我正在使用斯坦福的 NLP 解析器 (http://nlp.stanford.edu/software/lex-parser.shtml) 将一段文本拆分为句子,然后查看哪些句子包含给定的单词。

到目前为止,这是我的代码:

我使用“java TokenizerDemo testfile.txt wall”从命令行运行代码

testfile.txt 的内容是:

所以我希望程序检测第一句中的“墙”(“墙”作为命令行中的第二个参数输入)。但是该程序没有检测到“墙”,因为它从不打印“是!”。程序的输出是:

来自斯坦福解析器的 DocumentPreprocessor 正确地将文本拆分为两个句子。问题似乎与使用 equals 方法有关。每个单词都有类型“edu.stanford.nlp.ling.Word”。我已经尝试访问该单词的底层字符串,因此我可以检查该字符串是否等于“wall”,但我不知道如何访问它。

如果我将第二个 for 循环写为“for (Word word : sentence) {”,那么我会在编译时收到不兼容的类型错误消息。

0 投票
2 回答
652 浏览

java - 加载斯坦福 NLP 解析器时无法解决错误

使用斯坦福 NLP 解析器 JAR 文件时,我不断收到相同的错误。

代码:

错误:

用法:关系树库 numberRanges

这是一个错误还是有什么方法可以解决这个问题?谢谢!

0 投票
3 回答
3778 浏览

language-agnostic - POS标记等中的缩写是什么意思?

假设我有以下 Penn Tree:

诸如此类的缩写是什么VP意思SBAR?我在哪里可以找到这些定义?这些缩写叫什么?

0 投票
4 回答
4037 浏览

nlp - 使用 NLP 压缩句子

使用机器翻译,我可以获得一个非常压缩的句子版本,例如。我真的很想喝一杯美味可口的咖啡会被翻译成我想要咖啡 是否有任何 NLP 引擎提供这样的功能?

我得到了一些研究论文,这些论文进行了副相生成句子压缩。但是有没有任何图书馆已经实现了这一点?

0 投票
1 回答
947 浏览

java - 构建斯坦福 CoreNLP 时出错

当我自己构建 Core-NLP 时,我收到以下消息:

违规行:

违规功能:

我真的不知道如何解决这个问题。我正在尝试使用 Maven 构建 CoreNLP,以便可以在我的项目中轻松使用它。想法?

0 投票
1 回答
1416 浏览

nlp - 从 Penn Treebank 格式的文本中提取子句

说我有一句话:

在我的程序中,我得到以下输出:

我如何将不在一个子句中的东西合并成一个独立子句?像这样:

我很确定我不清楚,但基本上我想提取句子的独立子句和从属子句,以及这些子句的子句。