问题标签 [dependency-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 spacy 为 nsubj 元素提取子树(短语)
目的是如果给定句子中存在“nsubj”,则从句子中提取子树(短语)。
这是我正在使用的代码:
我们得到的输出是:clock NN is nsubj
['闹钟']
目的NN是nsubj
['谁的','目的']
谁 WP 是 nsubj
['谁']
但是在 nsubj 的情况下,我期望的输出是整个子树,即
目的NN是nsubj
['谁的','目的','是','要','折磨']
谁 WP 是 nsubj
['谁','是','睡眠不足']
python - 使用字符偏移将已知匹配添加到 Spacy 文档
我想使用不同的 Spacy 工具对文档进行一些分析,尽管我对依赖匹配器特别感兴趣。
碰巧的是,对于这些文档,我已经有了一些难以解析的实体的字符偏移量。一个有点做作的例子:
我想过做这样的事情:
这在技术上是可行的,它并不是世界上最糟糕的解决方案,但我仍然想知道是否可以nlp
直接将偏移量添加到对象中。据我所知,Matcher 文档没有显示这样的内容。我也明白这可能与典型的 Matcher 行为有点不同,其中一个模式可以应用于语料库中的所有文档——而在这里我只想为特定文档在特定偏移量处标记实体。一份文件的偏移量不适用于其他文件。
nlp - 开发集精度较低的 Pytorch 保存/加载模型?
这是问题:我在模型评估期间从检查点文件加载我的 pytorch 模型(训练时开发集上的最佳结果),记得做model.eval()和torch.no_grad(),我仍然得到较低的准确性与我在训练时得到的结果相比,开发集上的结果(下降了 1-2%)。
我努力了:
- 在 pytorch 之前打印状态字典在训练期间保存最佳结果模型,与加载时得到的模型相比,这是相同的。
- 检查我的代码,它使用了大量的 dropout 和 layernorm 层,并且没有错误。
- 在同一个 GPU 上加载模型,但没有任何帮助。
我的工作环境:
- Python 3.6.10、Pytorch 1.7.1(带有 cuda 11.1)
- 显卡:英伟达 2080Ti
- 在训练和评估期间使用相同的种子(numpy 和 pytorch)
- 在模型训练和评估期间,在开发集上使用model.eval()和torch.no_grad() 。
- 相同的开发集和相同的度量计算方法。
这是我在训练期间的伪代码(原来的太重了):
在trainer.py中,我保存最佳状态字典结果并返回:
在evaluation.py中,我只加载 checkpoint.pt 并进行预测:
我在谷歌上搜索了很长时间,但没有任何帮助。这完全困扰着我。有人可以帮我吗?提前致谢!
parsing - 如何设计依赖解析器来识别句子之间的依赖关系?
我想确定句子之间的依赖关系,而不是单词。依赖项可能如下所示:
A需要B
B评估C
D类似于A
其中 A、B、C 和 D 是句子,而requires、evaluates、similar是依赖项。
那么,应该如何设计依赖解析器来实现这样的功能呢?
python - 如何使用 spacy 查找句子是否包含名词?
目前在做一个 NLP 项目。我需要找出一个句子中是否有名词。如何使用 spacy 实现这一目标?
nlp - 在 spacy 的预初始化 doc 对象上运行依赖解析器
我正在尝试通过 web API 将 spacy 的依赖解析器合并到 java 中的遗留代码中。
所有其他组件标记器、标记器、merged_words、NER 都是从遗留 NLP 代码完成的。我只对应用依赖解析器以及 spacy 3 的依赖规则匹配器感兴趣。
我尝试了以下方法
- 使用https://spacy.io/api/doc#init创建一个新的文档对象。
- 仅使用解析器创建 NLP 管道
但是,我得到以下依赖树
其中每个单词都是与第一个单词的 nmod 关系。
我错过了什么?如果需要,我也可以使用 spacy 的标记器。我尝试使用上述类似方法包含标记器,但所有标记都标记为“NN”
allennlp - 依赖解析(allennlp.predictors.predictor)中有多少个“tags”和“predicted_dependencies”?
我正在使用“allennlp.predictors.predictor”来提取句子的依赖解析信息。我可以知道依赖解析中有多少个“标签”和“predicted_dependencies”吗?我找不到“标签”和“predicted_dependencies”的确切数量。有没有参考?