问题标签 [conll]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
496 浏览

python - 如何从 CoNLL 格式更改为句子列表?

我有一个理论上是 CoNLL 格式的 txt 文件。像这样:

我需要将其转换为句子列表,但我没有找到办法。我尝试使用 conllu 库的解析器:

但他们给出了错误:ParseException:行格式无效,行必须包含制表符或两个空格。

我怎样才能得到这个?

谢谢

0 投票
1 回答
646 浏览

python-3.x - 将 .CSV 数据转换为 NER 的 CoNLL BIO 格式

我在 .csv 文件中有一些数据,看起来像这样

我想将该数据转换为 CoNLL 格式的文本文件,如下所示,其中每一列(文本和标签)由制表符分隔,每个句子(或文档)的结尾由空行指示。

我尝试过但未能奏效,它将空行计为有效数据,而不是句子的结尾。

我正在寻找一些帮助来修改或改进我拥有的代码。

0 投票
0 回答
411 浏览

python - TensorFlow:将 CRF 用于 NER(形状不匹配)[tensorflow_addons]

我正在尝试在 CoNLL-2003 数据集上为 NER 构建 Bi-LSTM CRF 模型

我已经使用 char 嵌入和 GloVe 嵌入对单词进行了编码,对于每个令牌,我都有一个大小为 341 的嵌入

这是我的模型:

型号总结:

输入形状:x 是((3250, 16, 341),y 是(3250, 16, 9)) 我正在训练 3250 个数据点,每个序列长度为 16,每个标记嵌入 341 个维度,并且可能有 9 个标签

现在我得到的错误是:

我相信这是因为 CRF 输出是[(None, 16), (None, 16, 9), (None,), (9, 9)]

有没有办法只获得输出的第二个元素?

或者任何其他方式可以解决这个问题?

我正在使用 tf 2.0 + 和 CRFfrom tensorflow_addons.layers import CRF

我已经使用 keras-contrib 的 CRF 在 tf 1.15 中实现了这个 [不想要那个]

根据 @MyStackRunnethOver 注释添加 Trace-Back:

最后,我将在上午 8 点到晚上 8 点 [IST] 之间检查和实施这个问题以及所有可能/建议的解决方案,直到解决,所以请帮忙!

0 投票
0 回答
138 浏览

curl - curl 错误:(18)传输关闭,剩余 427009569 字节要读取

我想在https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-2885中下载 conll 文件

使用以下命令,

我发现了这样的错误。

我想知道为什么

0 投票
1 回答
107 浏览

jsonlines - jsonl-to-conll转换工具应用错误

我需要将 jsonl 文件转换为 conll,我找到了这个工具https://pypi.org/project/jsonl-to-conll/ 但没有示例或详细文档

我在命令提示符下尝试了这个命令行

但它打印

我将 jsonl-to-conll 添加到变量环境中,但我仍然有同样的错误 在此处输入图像描述 ,所以我想知道我是以正确的方式使用它还是什么?如果有其他工具或脚本可以完成这项工作,请帮助我

0 投票
1 回答
156 浏览

python - 将数据集(CONLL 格式)拆分为开发、训练和测试

我有一个遵循 CONLL 格式的数据集,带有令牌级注释。

空行分隔文档的句子。每个句子都被视为机器学习模型中的实例。我想将数据集拆分为训练、测试和开发,但要确保数据集之间没有拆分任何句子。python中是否有任何库可用于拆分此类数据集,还是必须手动执行此操作?

提前致谢!

0 投票
0 回答
40 浏览

nlp - 您可以使用 Conll-U 格式的文件进行神经核训练吗?

指南展示了如何使用 Conll-2012 格式的文件训练neurocoref包。我使用spacy_conll包准备了 Conll-U 格式的文件。有谁知道是否可以使用 Conll-U 文件进行神经核训练?有人对上述包裹有任何经验吗?非常感谢。

0 投票
0 回答
37 浏览

converters - 如何将 IOB 转换为 Conll U?

我正在尝试将一个简单的 IOB 文件转换为 Conll U,因为我尝试使用的模型需要 Conll U 格式。有没有一种简单快捷的方法可以做到这一点?该文件如下所示:

在此处输入图像描述

提前致谢!

0 投票
1 回答
106 浏览

allennlp - AllenNLP BERT SRL 输入格式(“OntoNotes v. 5.0 formatted”)

目标是在另一个数据集上训练BERT SRL 。根据配置,需要conll-formatted-ontonotes-5.0

本机,我的数据采用 CoNLL 格式,我将其转换为 OntoNotes v.5.0 的 GitHub 版的conll-formatted-ontonotes-5.0 格式。读取数据工作和训练似乎工作,除了精度保持在 0。我怀疑 SRL 参数的编码(BOI 或短语?)或列结构(CoNLL 格式的其他 OntoNotes 版本在这里不同)与预期不同输入。或者,如果角色标签在代码中是硬连线的,则可能会出现错误。我在使用长格式( )时遵循了参考数据,但您经常在其他数据中ARGM-TMP看到短格式( )。AM-TMP

问题是这里需要哪种数据集和格式。我猜它是 OntoNotes 5.0 的 CoNLL/Skel 格式之一,带有恢复的 WORD 列,但是

  • CoNLL 版本似乎没有随OntoNotes 的 LDC 版本一起提供

  • 它似乎不是OntoNotes 创建者提供的GitHub 上OntoNotes v.5.0 的“conll-formatted-ontonotes-5.0”版本的格式。

  • 作为 PropBank 的一部分,至少还有一个其他 CoNLL/Skel 版本的 OntoNotes 5.0数据。这与另一个不同之处在于省略了 3 列和谓词的编码。(对于我的部分数据,这是本机格式。)

  • SrlReader文档提到了 BIO ( IOBES ) 编码。这确实已在 PropBank 数据的其他 CoNLL 版本中使用,但上述 OntoNotes 语料库中未使用。其他此类格式例如是 CoNLL-2008 和 CoNLL-2009 格式以及不同的变体。

在我开始对 SrlReader 进行逆向工程之前,是否有人手头有数据片段以便我可以相应地准备我的数据?

conll-formatted-ontonotes-5.0我的数据版本(来自 EWT 语料库的样本):

0 投票
1 回答
40 浏览

python-3.x - 用 Pandas 计算 IOB 语料库上的标签数量

来自我的 IOB 语料库,例如:

我尝试进行简单的统计,例如注释提及的总数、标签总数等。

用熊猫加载我的数据集后,我得到了这个:

输出 :

首先,我如何通过重新组合 IOB 前缀(例如(示例))获得类似的表示形式:

其次,如何从我的输出中排除“O”和空字符串标签,我用.mask().where()在我的系列上进行了测试,但它失败了。

谢谢你的线索。