问题标签 [conll]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
named-entity-recognition - 将命名实体识别格式从 ENAMEX 更改为 CoNLL
我有一个 ENAMEX 格式的数据集,如下所示:
我想把它改成 CoNLL 格式:
我怎样才能做到这一点?这种格式转换是否有标准脚本?
python - 如何使用 conllu 库创建 TokenList?
我正在尝试使用 conllu 库创建一个 CoNLL-U 文件,作为我正在处理的通用依赖标记项目的一部分。
我在 python 列表中有很多句子。这些包含令牌、词条、POS 标签、特征等的子列表。例如:
我想自动化将这些转换为 CoNLL-U 解析句子的过程,所以我编写了以下函数:
当我尝试运行此代码时,出现以下错误:
问题是我正在尝试创建一个普通列表并在其serialize()
上运行该方法。TokenList
当parse()
函数在 CoNLL-U 文件格式的字符串上运行时,我不知道如何创建库创建的类型。
当您尝试打印该类型的列表时,您会得到以下输出:
在这种类型的列表上运行该serialize()
方法会将其重新转换为 CoNLL-U 格式字符串data
,如上例所示。但是,当您尝试在普通的 python 列表上运行它时,它会中断。
如何创建一个TokenList
这样的而不是普通的 python 列表对象?
dependency-parsing - 如何将文本句子转换为 CoNLL-U 格式?
我正在研究使用 CoNLL-U 格式的依赖项解析。我可以找到如何处理 CoNLL-U 解析器或标记列表,但我找不到如何将文本句子转换为 CoNLL-U 格式。
我尝试从https://github.com/datquocnguyen/jPTDP转换代码
“test”文件是conllCoverter(path)函数的输入,是“_io Text10Wrapper”格式的文件,里面包含我要转换成CoNLL-U文件的文本语句,例如: 1. 完全令人沮丧的经历。2. 额外花钱买了有网的空调。
但是,在我尝试了上面定义的 conllConverter(path) 函数后,输出只显示了 10 个原始列(看起来像 CoNLL-U 格式)和原始文本,没有任何额外信息。
最后,我想问一下如何将文本句子转换为 CoNLL-U 格式。
python - 如何在 Python 中加载 .conll 文件?
我尝试了以下三种我在网上找到的.conll
用 Python 读取文件的方法,但只得到了我不理解的错误报告。我还阅读了有关不同类型.conll
文件的信息,但我不知道哪一个是我的数据集。我怎样才能知道?是否有必要根据特定类型来实现加载.conll
?有没有简单的方法来处理.conll
文件?
python - 从 .ConLL 文件中读取句子时,为什么会出现“ValueError: Inconsistent number of columns”?
.conll
我正在从文件中提取句子作为字符串列表。上面的代码没有报任何错误,所以我认为是为每个句子提取了一些东西。然而,当我尝试打印出或为每个句子添加 POS 标签时,第 1007 个句子之后的每个句子都会出现下面的值错误。
- 发生了什么?有没有办法查看那些提取但结构不良的句子?
- 如何正确提取句子?我猜有些标记被表示为字符串和 OBI 的元组而不是字符串。但是对于许多句子有相同的错误报告是很奇怪的。
- 更糟糕的是,我只能提取结构良好的句子吗?
python - 如何解决 ValueError: [E177] Ill-formed IOB input detected: an?
我正在尝试将 conll 格式的数据转换为 spacy 的 json 格式来训练模型。
我正在使用 spacy 的转换。我试过这个命令
我收到一个值错误。
我删除了数据集中所有出现的“in”并再次尝试,然后我得到了同样的错误,只是略有变化。
帮我解决这个问题。我的数据集看起来像这样
我正在使用 spacy 2.3.2
python - 如何将 Conll 2003 格式转换为 json 格式?
我有一个句子列表,句子的每个单词都在嵌套列表中。如:
还有另一个列表,其中每个单词都对应一个实体标签。如:
这是基本的 ConLL2003 数据,但我实际上使用的是另一种语言的不同数据。我仅将这个作为示例表示。
我想将此列表列表转换为 JsonL 格式,其中格式为:
到目前为止,我已经设法将列表列表放入这种格式(json list of dicts):
但是,这样做的问题是我想将 IOB 格式合并在一起并创建一个从头到尾的单一实体。我需要这种格式才能在 doccano 注释工具上上传数据。我需要标记为一个的复合实体。
这是我为创建上述格式而编写的代码:
我尝试将上述格式转换为我想要的格式。IE。合并 IOB 标签。这是我迄今为止尝试过的但没有奏效的方法。
这段代码的问题是我无法确定连续序列的序列长度。所以对于列表中的每个元素 k 总是稳定的。我需要 k 更改同一列表中的下一个序列。
这是我得到的错误:
我需要确定每次我应该在哪里计算 k。这里的 K 是 B 跟随 I 的序列的长度,依此类推。
我也试过这个,但这只会将两个标签合并在一起:
输出:
但我需要 3 个“杂项”标签作为索引 11 到 43 的一个标签。
对于任何想知道的人:我尝试这样做的原因是,我已经标记了一些数据并测试了原型模型,它似乎给出了很好的结果。所以我想标记整个数据集并修复错误标签,而不是从头开始注释。我想这会为我节省很多时间。
ps:我知道doccano支持以ConLL格式上传。但是它坏了,所以我不能这样上传。
python - 将熊猫数据框转换为 CoNLL
我有一个经过处理的数据框,用作训练 NLP 模型的输入:
我需要将其转换为 ConLL 文本格式,如下所示:
CoNLL 格式是一个文本文件,每行一个单词,句子用空行分隔。一行中的第一个单词应该是单词,最后一个单词应该是标签。
有人知道该怎么做吗?