问题标签 [stanford-nlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
885 浏览

java - 限制 Java 方法调用的 CPU / 堆栈?

我正在使用一个 NLP 库 (Stanford NER),它会java.lang.OutOfMemoryError为罕见的输入文档引发错误。

我计划最终隔离这些文档并找出它们导致错误的原因,但这很难做到(我在 Hadoop 中运行,所以我只知道错误发生 17% 通过拆分 379/500 或类似的东西) . 作为临时解决方案,我希望能够对这个特定调用应用 CPU 和内存限制。我不确定最好的方法是什么。我的第一个想法是创建一个线程的固定线程池,并在 Future 上使用定时 get()。这至少会给我一个挂钟限制,这可能会有所帮助。

我的问题是,是否有任何方法可以通过合理的努力做得比这更好。

0 投票
1 回答
671 浏览

stanford-nlp - 斯坦福 NLP 工具包解析手册

我在哪里可以找到斯坦福 NLP 依赖手册?它可以在线获得吗?

0 投票
2 回答
3404 浏览

java - Java Stanford NLP:查找词频?

我正在使用斯坦福 NLP 解析工具包。给定词典中的一个词,我怎样才能找到它的频率*?或者,给定一个频率等级,我如何确定相应的单词?

*在整个语言中,而不仅仅是文本示例。

这是我正在使用的工具包的演示:

0 投票
10 回答
100845 浏览

java - Java 斯坦福 NLP:语音标签的一部分?

在这里演示的斯坦福 NLP给出了这样的输出:

词性标签是什么意思?我找不到正式的名单。是斯坦福自己的系统,还是他们使用通用标签?(JJ例如,什么是?)

此外,例如,当我遍历句子、寻找名词时,我最终会做一些事情,比如检查 tag 是否为.contains('N'). 这感觉很弱。有没有更好的方法来以编程方式搜索某个词性?

0 投票
2 回答
4323 浏览

java - Java 斯坦福 NLP:拼写检查

我正在尝试使用斯坦福 NLP 检查文本样本的拼写准确性。它只是文本的度量,而不是过滤器或任何东西,所以如果它稍微偏离一点也没关系,只要错误是统一的。

我的第一个想法是检查词典是否知道这个词:

但是,这会产生很多误报:

关于如何更好地做到这一点的任何想法?

0 投票
1 回答
466 浏览

java - Java Stanford NLP:加载第二个词典后的 ArrayIndexOutOfBounds

我正在使用斯坦福自然语言处理工具包。我一直在尝试使用Lexicon'isKnown方法查找拼写错误,但它会产生相当多的误报。所以我想我会加载第二个词典,并检查一下。但是,这会导致问题。

生成以下失败跟踪:

如果我注释掉这一行:(以及对 wsjLexParse 的其他引用)

然后一切正常。我在这里做错了什么?

0 投票
2 回答
4907 浏览

java - Java 中的斯坦福 POS 标记器

我正在尝试这个:

这给了我:

错误:\u\nlp\data\pos-tagger\wsj3t0-18-left3words\left3words-wsj-0-18.tagger(系统找不到指定的路径)

我正在使用斯坦福的POS tagger

我能做些什么来克服这个问题?

0 投票
2 回答
760 浏览

java - 在 java 中使用 Stanford postagger,得到 java.lang.IncompatibleClassChangeError

我正在尝试初始化斯坦福 NLP 语音标记器,但我不断收到 java.lang.IncompatibleClassChangeError。当我打印错误原因时,我得到空值,当我打印消息时,我得到实现类。

这是我的代码:

有谁知道如何解决这一问题?

0 投票
3 回答
8097 浏览

python - 使用特征频率训练分类器(朴素贝叶斯)的 Python NLTK 代码片段

我想知道是否有人可以通过一个代码片段来帮助我,该代码片段演示了如何使用特征频率方法而不是特征存在来训练朴素贝叶斯分类器。

我认为第 6 章链接文本中所示的以下内容是指使用特征存在 (FP) 创建特征集 -

请指教

0 投票
3 回答
11130 浏览

parallel-processing - 特征选择、特征提取、特征权重的区别

我对“特征选择/提取器/权重”的含义以及它们之间的区别感到有些困惑。当我阅读文献时,有时我会感到迷茫,因为我发现这个词使用得非常松散,我主要担心的是——

  1. 当人们谈论特征频率、特征存在时——是特征选择吗?

  2. 当人们谈论诸如信息增益、最大熵之类的算法时,它仍然是特征选择吗?

  3. 如果我训练分类器——以一个要求分类器记下文档中单词位置的特征集为例——人们还会称之为特征选择吗?

谢谢拉胡尔·迪赫