问题标签 [conll]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何从 CoNLL 格式更改为句子列表?
我有一个理论上是 CoNLL 格式的 txt 文件。像这样:
我需要将其转换为句子列表,但我没有找到办法。我尝试使用 conllu 库的解析器:
但他们给出了错误:ParseException:行格式无效,行必须包含制表符或两个空格。
我怎样才能得到这个?
谢谢
python-3.x - 将 .CSV 数据转换为 NER 的 CoNLL BIO 格式
我在 .csv 文件中有一些数据,看起来像这样
我想将该数据转换为 CoNLL 格式的文本文件,如下所示,其中每一列(文本和标签)由制表符分隔,每个句子(或文档)的结尾由空行指示。
我尝试过但未能奏效,它将空行计为有效数据,而不是句子的结尾。
我正在寻找一些帮助来修改或改进我拥有的代码。
python - TensorFlow:将 CRF 用于 NER(形状不匹配)[tensorflow_addons]
我正在尝试在 CoNLL-2003 数据集上为 NER 构建 Bi-LSTM CRF 模型
我已经使用 char 嵌入和 GloVe 嵌入对单词进行了编码,对于每个令牌,我都有一个大小为 341 的嵌入
这是我的模型:
型号总结:
输入形状:x 是((3250, 16, 341)
,y 是(3250, 16, 9))
我正在训练 3250 个数据点,每个序列长度为 16,每个标记嵌入 341 个维度,并且可能有 9 个标签
现在我得到的错误是:
我相信这是因为 CRF 输出是[(None, 16), (None, 16, 9), (None,), (9, 9)]
有没有办法只获得输出的第二个元素?
或者任何其他方式可以解决这个问题?
我正在使用 tf 2.0 + 和 CRFfrom tensorflow_addons.layers import CRF
我已经使用 keras-contrib 的 CRF 在 tf 1.15 中实现了这个 [不想要那个]
根据 @MyStackRunnethOver 注释添加 Trace-Back:
最后,我将在上午 8 点到晚上 8 点 [IST] 之间检查和实施这个问题以及所有可能/建议的解决方案,直到解决,所以请帮忙!
curl - curl 错误:(18)传输关闭,剩余 427009569 字节要读取
我想在https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-2885中下载 conll 文件
使用以下命令,
我发现了这样的错误。
我想知道为什么
jsonlines - jsonl-to-conll转换工具应用错误
我需要将 jsonl 文件转换为 conll,我找到了这个工具https://pypi.org/project/jsonl-to-conll/ 但没有示例或详细文档
我在命令提示符下尝试了这个命令行
但它打印
我将 jsonl-to-conll 添加到变量环境中,但我仍然有同样的错误 ,所以我想知道我是以正确的方式使用它还是什么?如果有其他工具或脚本可以完成这项工作,请帮助我
python - 将数据集(CONLL 格式)拆分为开发、训练和测试
我有一个遵循 CONLL 格式的数据集,带有令牌级注释。
空行分隔文档的句子。每个句子都被视为机器学习模型中的实例。我想将数据集拆分为训练、测试和开发,但要确保数据集之间没有拆分任何句子。python中是否有任何库可用于拆分此类数据集,还是必须手动执行此操作?
提前致谢!
nlp - 您可以使用 Conll-U 格式的文件进行神经核训练吗?
本 指南展示了如何使用 Conll-2012 格式的文件训练neurocoref包。我使用spacy_conll包准备了 Conll-U 格式的文件。有谁知道是否可以使用 Conll-U 文件进行神经核训练?有人对上述包裹有任何经验吗?非常感谢。
allennlp - AllenNLP BERT SRL 输入格式(“OntoNotes v. 5.0 formatted”)
目标是在另一个数据集上训练BERT SRL 。根据配置,需要conll-formatted-ontonotes-5.0
。
本机,我的数据采用 CoNLL 格式,我将其转换为 OntoNotes v.5.0 的 GitHub 版的conll-formatted-ontonotes-5.0 格式。读取数据工作和训练似乎工作,除了精度保持在 0。我怀疑 SRL 参数的编码(BOI 或短语?)或列结构(CoNLL 格式的其他 OntoNotes 版本在这里不同)与预期不同输入。或者,如果角色标签在代码中是硬连线的,则可能会出现错误。我在使用长格式( )时遵循了参考数据,但您经常在其他数据中ARGM-TMP
看到短格式( )。AM-TMP
问题是这里需要哪种数据集和格式。我猜它是 OntoNotes 5.0 的 CoNLL/Skel 格式之一,带有恢复的 WORD 列,但是
CoNLL 版本似乎没有随OntoNotes 的 LDC 版本一起提供
它似乎不是OntoNotes 创建者提供的GitHub 上OntoNotes v.5.0 的“conll-formatted-ontonotes-5.0”版本的格式。
作为 PropBank 的一部分,至少还有一个其他 CoNLL/Skel 版本的 OntoNotes 5.0数据。这与另一个不同之处在于省略了 3 列和谓词的编码。(对于我的部分数据,这是本机格式。)
SrlReader文档提到了 BIO ( IOBES ) 编码。这确实已在 PropBank 数据的其他 CoNLL 版本中使用,但在上述 OntoNotes 语料库中未使用。其他此类格式例如是 CoNLL-2008 和 CoNLL-2009 格式以及不同的变体。
在我开始对 SrlReader 进行逆向工程之前,是否有人手头有数据片段以便我可以相应地准备我的数据?
conll-formatted-ontonotes-5.0
我的数据版本(来自 EWT 语料库的样本):
python-3.x - 用 Pandas 计算 IOB 语料库上的标签数量
来自我的 IOB 语料库,例如:
我尝试进行简单的统计,例如注释提及的总数、标签总数等。
用熊猫加载我的数据集后,我得到了这个:
输出 :
首先,我如何通过重新组合 IOB 前缀(例如(示例))获得类似的表示形式:
其次,如何从我的输出中排除“O”和空字符串标签,我用.mask()
和.where()
在我的系列上进行了测试,但它失败了。
谢谢你的线索。