问题标签 [dependency-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 有没有办法在 spaCy 中使用根标记来检索整个名词块?
我对使用 spaCy 很陌生。我已经阅读了几个小时的文档,但我仍然很困惑是否可以做我的问题。反正...
正如标题所说,有没有一种方法可以使用包含它的标记来实际获取给定的名词块。例如,给定句子:
"autonomous cars"
当我只有"cars"
令牌时,是否有可能获得名词块?这是我正在尝试的场景的示例片段。
任何帮助将不胜感激。谢谢!
nlp - 使用 Spacy en_core_web_lg 模型的 POS 标记不一致
使用en_core_web_lg模型时,PROPN 的 POS 标记无法以预期的方式工作。
POS 标记使用_md模型更可预测。
给定(格式不正确的)句子: “CK7、CK-20、GATA 3、PSA,都是否定的。”
使用 _lg 模型时,“CK7”被标记为 NOUN(NNS)。
使用 _md 模型时,“CK7”被标记为 PROPN(NNP)。这是对的。
使用_lg模型时,将句子中的“CK7”替换为:
“CK1”标记为 PROPN
“CK2”标记为 PROPN
标记为 PROPN 的“CK3”、“CK4”
“CK5”标记为ADJ
“CK6”标记为 PROPN
“CK7”标记为名词
“CK8”标记为 PROPN
“CK9”标记为ADP
“CK22”,“CK222”,标记为 PROPN
当使用_md模型并如上所述替换“CK7”时,所有都被标记为 PROPN,正如预期的那样。
由于我将要分析的大多数句子的格式都不好,我认为_lg模型的“更深”的依赖解析会更好,只是发现了POS tagging的上述问题。
请就以下事项提出建议:
- 使用 en_core_web_lg 模型时如何处理反直觉的词性标注?
- 哪种模型最适合依赖解析格式不佳的句子?
非常感谢。
nlp - 如何判断两个自然语言查询是否具有相同的含义
我正在构建一个系统来将自然语言问题转换为 SQL 查询。现在我正在实施的是对自然语言问题的重构,使其更加结构化,以便我可以更轻松地将其转换为 sql 语句。
重组后的语言将遵循以下规则:
他们想做什么。“Find” “List” “Give” 他们希望我们检索的属性 ex。来自他们希望我们匹配的 sql 模式实体的表属性
这种重构的语言很棒,可以很容易地转换为 SQL,但问题是我正在创建所有名词块和实体的大型组合,这意味着很多句子。未来的发展将有助于最大限度地减少这些,但这是以后的事情。
因此,我需要从大量的句子中找到与原始查询最相似的句子。
所以我的问题是,你会推荐什么样的相似函数?前任。解析树结构、语义和句法相似度...
感谢您的帮助,我正在为开源构建这个,所以任何帮助都是好的
python - 使用 DisplaCy 将 SpaCy 渲染文件保存为 SVG
我有以下代码:
我正在尝试将渲染文件写入图像文件夹中的 svg 文件。但是,我收到错误:
回溯(最近一次通话最后):
文件“”,第 8 行,在 output_path.open("w", encoding="utf-8").write(svg)
文件“C:\Users****\AppData\Local\Continuum\miniconda3\lib\pathlib.py”,第 1183 行,在 open opener=self._opener 中)
文件“C:\Users****\AppData\Local\Continuum\miniconda3\lib\pathlib.py”,第 1037 行,在 _opener return self._accessor.open(self, flags, mode)
文件“C:\Users****\AppData\Local\Continuum\miniconda3\lib\pathlib.py”,第 387 行,包装返回 strfunc(str(pathobj), *args) FileNotFoundError: [Errno 2] No such文件或目录:'\images\dependency_plot.svg'
该目录确实存在,所以我不确定我做错了什么。我还查看了 spacy 使用页面https://spacy.io/usage/visualizers#jupyter并且无法弄清楚我做错了什么。我正在使用 spyder(如果需要此信息)。请协助。
nlp - StanfordNLP、CoreNLP、spaCy - 不同的依赖图
我正在尝试使用在依赖图上定义的简单规则/模式从句子中提取非常基本的信息(例如,三元组,例如主题->谓词->宾语)。我开始使用StanfordNLP是因为它很容易设置和利用 GPU 以获得更好的性能。但是,我注意到对于某些句子,生成的依赖关系图看起来不像我预期的那样——虽然我不是专家。因此,我尝试了另外两个解决方案:spaCy和Stanford CoreNLP(我知道这些是由不同的团体维护的?)
例如句子“Tom 让 Sam 相信 Alice 得了癌症”。我已经打印了所有三种方法的依赖关系。CoreNLP 和 spaCy 产生相同的依赖关系,但它们与 StanfordNLP 的依赖关系不同。因此,我倾向于切换到 CoreNLP 和 spaCy(另一个优势是它们带有开箱即用的 NER)。
有没有人有更多的经验或反馈可以帮助从这里去哪里?我不希望 CoreNLP 和 spaCy 总是在相同的依赖图中产生,但在例句中,考虑Sam
到obj
StandfordNLP 所做的与nsubj
(CoreNLP, spaCy) 相比似乎是一个显着的差异
stanford-nlp - 斯坦福大学后标记增量训练
我们使用斯坦福 CoreNLP 已经有一段时间了,而且大部分时间它都能提供正确的结果。
但是对于某些句子,依赖解析结果会混乱。正如我们所观察到的,其中一些错误是由 POS 标记问题引起的,例如单词like
inI really like this restaurant.
或单词ambient
inVery affordable and excellent ambient!
是的,我们正在处理用户评论,这些评论可能与斯坦福 CoreNLP 中的训练语料库的措辞略有不同,因此我们正在考虑自己注释一些文本并与现有模型混合。对于 NER,我们已经有了自己的特殊 NE 模型,但对于 POS 标记和依赖解析,我们一无所知。
任何人都可以提供任何建议吗?
python - Pattern-lib : 哪个词是句子的 ROOT(dependency parsing)?
在 spacy 中,依赖关系的开始是从 ROOT 开始的。
在pattern.en中,相同的动词被标记为 VP。如果有多个 VP,你怎么知道哪一个是 ROOT ?它总是标有“-1”的那个吗?
多个 OBJ 和 SUBJ 呢?
nlp - 将 Spacy 生成的依赖转换为 CoNLL 格式不能处理多个 ROOT?
我使用 SpaCy 库生成依赖项并使用以下代码将其保存为 CoNLL 格式。
这行得通,但是我的数据集中有一些句子被 Spacy 分成两部分,因为它们有两个根。这导致 CoNLL 格式的一个句子有两个字段。
示例:我的数据集中的一个随机句子是:“teanna trump 可能更干净 twitter hoe but”
以 CoNLL 格式保存为:
有没有办法将它全部保存在一个字段而不是两个字段中,即使它有两个根,以便“但是”成为字段编号 1 中的第 7 项?这意味着它看起来像这样
label - 依赖解析器图箭头上的标签是什么意思?
我在这里使用斯坦福在线的 coreNLP 模块演示:https ://corenlp.run 。所以,我正在尝试使用这里可用的依赖解析器来查看它们的句法结构。一个这样的例子是这句话:
“与以出口为导向的纽约工业相关的文件以及与阿克巴没有战斗的印度历史相关的文件”
我无法理解写在箭头上的标签的含义。我在这里得到了所有单词的标签列表:Java Stanford NLP: Part of Speech labels?
但是我在哪里可以获得箭头/依赖项上的标签列表及其解释?