问题标签 [stanford-stanza]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
stanford-nlp - 我可以在不下载语言模块的情况下运行 stanza NER 吗?
我需要在没有任何外部网络访问权限的平台上运行 stanza ner。代码stanza.download('en')
失败。在没有下载功能的情况下运行,给了我一个例外
Exception: Resources file not found at: \home\stanza_resources\resources.json. Try to download the model again
有没有办法下载和缓存资源目录中的所有必需模块并将该目录指向节管道?
谢谢
python - 使用 Stanza 和 CoreNLPClient 提取名词短语
我正在尝试使用 Stanza(使用 Stanford CoreNLP)从句子中提取名词短语。这只能通过 Stanza 中的 CoreNLPClient 模块来完成。
这是一个句子的例子,我正在使用tregrex
客户端中的函数来获取所有的名词短语。Tregex
函数dict of dicts
在 python 中返回一个。因此,我需要在将输出tregrex
传递给Tree.fromstring
NLTK 中的函数之前对其进行处理,以正确地将名词短语提取为字符串。
因此,我想出了stanza_phrases
必须循环遍历NLTKdict of dicts
的输出tregrex
和正确格式的方法。Tree.fromstring
生成一棵树供 NLTK 使用
这是我的输出:
有没有一种方法可以用更少的行数(尤其是方法)来提高stanza_phrases
代码extract_phrase
效率
python - 如何在斯坦福的 Stanza (StanfordNLP) 中加载文档而不是字符串?
我正在使用斯坦福的 Stanza,但我找不到任何关于如何加载文档而不是字符串的文档。
例如,对于一个字符串,它的工作方式如下:
对于一个文件,我认为它会是这样的:
但它不起作用。什么是替代方案?
python-3.x - 理解和使用共指解析斯坦福 NLP 工具(在 Python 3.7 中)
我正在尝试了解 Coreference NLP Stanford 工具。 这是我的代码,它正在工作:
我尝试了三种算法:
- 统计(如上面的代码)。结果:
- 神经
确定性(我得到下面的错误)
问题:
为什么我会遇到确定性错误?
在 Python 中使用 NLP 斯坦福的任何代码似乎都比与 Spacy 或 NLTK 相关的代码慢得多。我知道这些其他库中没有共同引用。但是例如,当我
import nltk.parse.stanford import StanfordDependencyParser
用于依赖解析时,它比这个 StanfordNLP 库快得多。有什么方法可以在 Python 中加速这个 CoreNLPClient 吗?我将使用这个库来处理长文本。将较小的部分与整个文本一起使用会更好吗?长文本会导致共指解析的错误结果(当我使用长文本时,我发现这个共指库的结果非常奇怪)?有最佳尺寸吗?
结果:
统计算法的结果似乎更好。我预计最好的结果将来自神经算法。你是否同意我的观点?统计算法中有 4 个有效提及,而我使用神经算法时只有 2 个。
我错过了什么吗?