问题标签 [conll]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
325 浏览

named-entity-recognition - 将命名实体识别格式从 ENAMEX 更改为 CoNLL

我有一个 ENAMEX 格式的数据集,如下所示:

我想把它改成 CoNLL 格式:

我怎样才能做到这一点?这种格式转换是否有标准脚本?

0 投票
1 回答
1001 浏览

python - 如何使用 conllu 库创建 TokenList?

我正在尝试使用 conllu 库创建一个 CoNLL-U 文件,作为我正在处理的通用依赖标记项目的一部分。

我在 python 列表中有很多句子。这些包含令牌、词条、POS 标签、特征等的子列表。例如:

我想自动化将这些转换为 CoNLL-U 解析句子的过程,所以我编写了以下函数:

当我尝试运行此代码时,出现以下错误:

问题是我正在尝试创建一个普通列表并在其serialize()上运行该方法。TokenListparse()函数在 CoNLL-U 文件格式的字符串上运行时,我不知道如何创建库创建的类型。

当您尝试打印该类型的列表时,您会得到以下输出:

在这种类型的列表上运行该serialize()方法会将其重新转换为 CoNLL-U 格式字符串data,如上例所示。但是,当您尝试在普通的 python 列表上运行它时,它会中断。

如何创建一个TokenList这样的而不是普通的 python 列表对象?

0 投票
1 回答
991 浏览

dependency-parsing - 如何将文本句子转换为 CoNLL-U 格式?

我正在研究使用 CoNLL-U 格式的依赖项解析。我可以找到如何处理 CoNLL-U 解析器或标记列表,但我找不到如何将文本句子转换为 CoNLL-U 格式。

我尝试从https://github.com/datquocnguyen/jPTDP转换代码

“test”文件是conllCoverter(path)函数的输入,是“_io Text10Wrapper”格式的文件,里面包含我要转换成CoNLL-U文件的文本语句,例如: 1. 完全令人沮丧的经历。2. 额外花钱买了有网的空调。

但是,在我尝试了上面定义的 conllConverter(path) 函数后,输出只显示了 10 个原始列(看起来像 CoNLL-U 格式)和原始文本,没有任何额外信息。

最后,我想问一下如何将文本句子转换为 CoNLL-U 格式。

0 投票
2 回答
737 浏览

python - 为什么我不能用 Python 读取 .conll 文件(混淆解析错误)?

我正在按照pyconll的文档读取.conll文件,但出现以下错误,我不明白它的含义。该数据集应该是可读的,因为它是一个基准数据集。而且我没有看到pyconll.load_from_file()可以在文档中指定的任何其他参数。有人可以帮我吗?

另外,有没有办法.conll通过包读取文件nltk

0 投票
0 回答
1313 浏览

python - 如何在 Python 中加载 .conll 文件?

我尝试了以下三种我在网上找到的.conll用 Python 读取文件的方法,但只得到了我不理解的错误报告。我还阅读了有关不同类型.conll文件的信息,但我不知道哪一个是我的数据集。我怎样才能知道?是否有必要根据特定类型来实现加载.conll?有没有简单的方法来处理.conll文件?

0 投票
0 回答
86 浏览

python - 从 .ConLL 文件中读取句子时,为什么会出现“ValueError: Inconsistent number of columns”?

.conll我正在从文件中提取句子作为字符串列表。上面的代码没有报任何错误,所以我认为是为每个句子提取了一些东西。然而,当我尝试打印出或为每个句子添加 POS 标签时,第 1007 个句子之后的每个句子都会出现下面的值错误。

  1. 发生了什么?有没有办法查看那些提取但结构不良的句子?
  2. 如何正确提取句子?我猜有些标记被表示为字符串和 OBI 的元组而不是字符串。但是对于许多句子有相同的错误报告是很奇怪的。
  3. 更糟糕的是,我只能提取结构良好的句子吗?
0 投票
1 回答
255 浏览

python - 如何解决 ValueError: [E177] Ill-formed IOB input detected: an?

我正在尝试将 conll 格式的数据转换为 spacy 的 json 格式来训练模型。

我正在使用 spacy 的转换。我试过这个命令

我收到一个值错误。

我删除了数据集中所有出现的“in”并再次尝试,然后我得到了同样的错误,只是略有变化。

帮我解决这个问题。我的数据集看起来像这样

我正在使用 spacy 2.3.2

0 投票
0 回答
511 浏览

python - 如何将 Conll 2003 格式转换为 json 格式?

我有一个句子列表,句子的每个单词都在嵌套列表中。如:

还有另一个列表,其中每个单词都对应一个实体标签。如:

这是基本的 ConLL2003 数据,但我实际上使用的是另一种语言的不同数据。我仅将这个作为示例表示。

我想将此列表列表转换为 JsonL 格式,其中格式为:

到目前为止,我已经设法将列表列表放入这种格式(json list of dicts):

但是,这样做的问题是我想将 IOB 格式合并在一起并创建一个从头到尾的单一实体。我需要这种格式才能在 doccano 注释工具上上传数据。我需要标记为一个的复合实体。

这是我为创建上述格式而编写的代码:

我尝试将上述格式转换为我想要的格式。IE。合并 IOB 标签。这是我迄今为止尝试过的但没有奏效的方法。

这段代码的问题是我无法确定连续序列的序列长度。所以对于列表中的每个元素 k 总是稳定的。我需要 k 更改同一列表中的下一个序列。

这是我得到的错误:

我需要确定每次我应该在哪里计算 k。这里的 K 是 B 跟随 I 的序列的长度,依此类推。

我也试过这个,但这只会将两个标签合并在一起:

输出:

但我需要 3 个“杂项”标签作为索引 11 到 43 的一个标签。

对于任何想知道的人:我尝试这样做的原因是,我已经标记了一些数据并测试了原型模型,它似乎给出了很好的结果。所以我想标记整个数据集并修复错误标签,而不是从头开始注释。我想这会为我节省很多时间。

ps:我知道doccano支持以ConLL格式上传。但是它坏了,所以我不能这样上传。

0 投票
1 回答
465 浏览

python - 将熊猫数据框转换为 CoNLL

我有一个经过处理的数据框,用作训练 NLP 模型的输入:

我需要将其转换为 ConLL 文本格式,如下所示:

CoNLL 格式是一个文本文件,每行一个单词,句子用空行分隔。一行中的第一个单词应该是单词,最后一个单词应该是标签。

有人知道该怎么做吗?

0 投票
1 回答
310 浏览

parsing - 使用 NLTK 解析 CoNLL-U 文件

我知道 Python 中有CoNLL-U解析器。我只是想确认NLTK没有本地例程来解析 CoNLL-U(或其他具有依赖语法的 CoNLL 格式)。

查看代码,似乎 HEAD 和 DEP 不在conll的允许列类型中。这是非常出乎意料的,因为 CoNLL-U 现在非常流行,从大约 15 年以来,依赖语法一直是许多 CoNLL 格式的核心特性,而这种差距在任何地方都没有记录,所以我很确定我忽略了一些东西。