问题标签 [conll]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1072 浏览

python - Spacy 将空格识别为实体

我刚刚开始使用 Spacy 并通过文本来测试它如何处理我使用 AntFileConverter 进行 OCR 处理的 pdf。

txt 文件(下面的示例 - 将附加但不确定如何)看起来不错,采用 UTF-8 格式。但是,当我以 CONLL 格式输出文件时,由于某种原因,出现了各种明显的空白,这些空白没有原始单词,但似乎已经被识别出来。这发生在结尾和句子中。

“北半球许多水域的物种。在该地区的大多数国家,梭子鱼具有商业和娱乐价值(Crossman & Casselman 1987;Raat 1988)。梭子鱼是典型的坐等捕食者,通常通过伏击来捕食猎物(韦伯和斯卡德森 1980)。”

我们的输出如下:

我也尝试过不打印 NER,但这些差距继续被标记。我认为这可能与换行符有关,所以我也尝试了 Linux 风格的 EOL,但这并没有任何区别。

这是我正在使用的代码:

有没有其他人有这个问题?如果是这样,您知道我该如何解决吗?

0 投票
1 回答
736 浏览

tags - 带有 CoNLL 2003 NER 任务描述的可能标签列表是什么?

我需要做一些NER。我找到了可以做到这一点的DeepPavlov库。

这是来自docs的示例:

我不明白所有这些标签的含义。正如我从文档中了解到的,它们采用 CoNLL 2003 NER 任务格式。

有人可以指出带有 CoNLL 2003 NER 任务描述的可能标签列表吗?

0 投票
1 回答
111 浏览

python - 如何使用 Spacy 的转换来保留 conllu 文件中的段落信息?

我正在尝试将 conllu 文件转换为 Spacy 的 jsonl 格式。这些 conllu 文件包含Universal Dependencies 网站中指定的段落信息。问题是段落信息没有传递到每个段落都包含一个句子的 jasonl 转换文件中。

我正在运行 Spacy 版本 2.1.3 并且仅使用spacy convert 命令中的强制性参数,基本上python -m spacy input.conllu output_dir

这是我的一个 conllu 文件中的前几句话(也许它们不符合规范?)。为了可读性,我只粘贴每个句子的前几个标记。

我希望 convert 的输出是一个包含 2 行的文件,每个段落一个。我得到4行,每个句子一个。

如果可能的话,我真的很想避免构建自己的转换器。

提前致谢

0 投票
2 回答
481 浏览

python - 如何从 Doc 对象生成 .conllu?

我在哪里可以找到 Spacy 接受的示例 .conllu 文件?或示例如何生成它?与 IOB ?

尝试将我生成的 .conllu 文件转换为 .json 以进行模型训练,这样:

(你有这样做的正确例子吗)

这是错误:

然后用这个:

错误是这样的:

0 投票
1 回答
1346 浏览

python - 将文本句子转换为 CONLL 格式

我想将普通英文文本转换为 CONLL-U 格式供 maltparser 查找 Python 文本中的依赖项。我在java中试过但没有这样做,下面是我正在寻找的格式 -

我在java中尝试过,但我不能使用standford API,我想在python中也一样。

//这是java代码的例子,但是这里创建的令牌需要通过代码而不是手动解析-

0 投票
1 回答
551 浏览

nlp - 将 Spacy 生成的依赖转换为 CoNLL 格式不能处理多个 ROOT?

我使用 SpaCy 库生成依赖项并使用以下代码将其保存为 CoNLL 格式。

这行得通,但是我的数据集中有一些句子被 Spacy 分成两部分,因为它们有两个根。这导致 CoNLL 格式的一个句子有两个字段。

示例:我的数据集中的一个随机句子是:“teanna trump 可能更干净 twitter hoe but”

以 CoNLL 格式保存为:

有没有办法将它全部保存在一个字段而不是两个字段中,即使它有两个根,以便“但是”成为字段编号 1 中的第 7 项?这意味着它看起来像这样

0 投票
1 回答
2642 浏览

python - 如何将带有命名实体的 CoNNL 格式的文本导入 spaCy,用我的模型推断实体并将它们写入同一个数据集(使用 Python)?

我有一个 CoNLL NER 格式的数据集,它基本上是一个包含两个字段的 TSV 文件。第一个字段包含来自某些文本的标记 - 每行一个标记(每个标点符号也被视为一个标记),第二个字段包含 BIO 格式标记的命名实体标签。

我想将此数据集加载到 spaCy 中,使用我的模型为文本推断新的命名实体标签,并将这些标签写入与新的第三列相同的 TSV 文件中。我所知道的是,我可以通过以下方式推断命名实体:

我还设法使用这个 CLI 命令将 CoNLL 数据集转换为 spaCy 的 json 格式:

python -m spacy convert conll_dataset.tsv /Users/user/docs -t json -c ner

但我不知道从这里去哪里。找不到如何将此json文件加载到 spaCyDoc格式。我尝试了这段代码(在 spaCy 的文档中找到):

但它会抛出一个错误说ExtraData: unpack(b) received extra data.

此外,我不知道如何将doc对象中的 ners 写回到同一个 TSV 文件中,使标记和 NER 标记与 TSV 文件的现有行对齐。

以下是 TSV 文件的摘录,作为我正在处理的数据的示例:

0 投票
1 回答
149 浏览

python - 如何将三个 Conllu 文件与 Conllu python 库合并?

这是我第一次使用 conllu 文件。我无法找到任何方法将这些文件合并到 Conllu python 库中。任何线索都会有所帮助。谢谢。

0 投票
1 回答
187 浏览

python - 附加在 for 循环中不适用于存储令牌列表

在下面的 for 循环中,我从文件夹中读取 .dat 文件并解析每个文件以提取令牌列表,然后将其存储在列表中。我的代码执行此操作,但针对单个文件。我有 1187 个文件,但是 ud_file.append() 只是添加了最新文件中的标记,并忽略了它在早期迭代中附加的标记。因此,该列表仅包含最新的令牌,而不是 1187 文件中的所有令牌。我应该如何解决这个问题?

这是示例 .dat 文件。我有 1187 个这样的文件:

0 投票
1 回答
111 浏览

python - 解析 CoNLL-U 缺少注释 (misc)

我正在尝试从此github Repo解析 .ConLL 文件,这是我的解析代码示例:

输出 :

这似乎缺少原始 .conll 文件中的一些注释(I-PERMISSION、B-PERMISSION 等 ..):

关于如何获取所有注释的任何想法?