“conll”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1072 浏览

python - Spacy 将空格识别为实体

我刚刚开始使用 Spacy 并通过文本来测试它如何处理我使用 AntFileConverter 进行 OCR 处理的 pdf。

txt 文件（下面的示例 - 将附加但不确定如何）看起来不错，采用 UTF-8 格式。但是，当我以 CONLL 格式输出文件时，由于某种原因，出现了各种明显的空白，这些空白没有原始单词，但似乎已经被识别出来。这发生在结尾和句子中。

“北半球许多水域的物种。在该地区的大多数国家，梭子鱼具有商业和娱乐价值（Crossman & Casselman 1987；Raat 1988）。梭子鱼是典型的坐等捕食者，通常通过伏击来捕食猎物（韦伯和斯卡德森 1980)。”

我们的输出如下：

我也尝试过不打印 NER，但这些差距继续被标记。我认为这可能与换行符有关，所以我也尝试了 Linux 风格的 EOL，但这并没有任何区别。

这是我正在使用的代码：

有没有其他人有这个问题？如果是这样，您知道我该如何解决吗？

2018-10-17T16:07:05.530

0 投票

1 回答

736 浏览

tags - 带有 CoNLL 2003 NER 任务描述的可能标签列表是什么？

我需要做一些NER。我找到了可以做到这一点的DeepPavlov库。

这是来自docs的示例：

我不明白所有这些标签的含义。正如我从文档中了解到的，它们采用 CoNLL 2003 NER 任务格式。

有人可以指出带有 CoNLL 2003 NER 任务描述的可能标签列表吗？

tags named-entity-recognition conll

2018-12-26T15:16:37.403

0 投票

1 回答

111 浏览

python - 如何使用 Spacy 的转换来保留 conllu 文件中的段落信息？

我正在尝试将 conllu 文件转换为 Spacy 的 jsonl 格式。这些 conllu 文件包含Universal Dependencies 网站中指定的段落信息。问题是段落信息没有传递到每个段落都包含一个句子的 jasonl 转换文件中。

我正在运行 Spacy 版本 2.1.3 并且仅使用spacy convert 命令中的强制性参数，基本上python -m spacy input.conllu output_dir

这是我的一个 conllu 文件中的前几句话（也许它们不符合规范？）。为了可读性，我只粘贴每个句子的前几个标记。

我希望 convert 的输出是一个包含 2 行的文件，每个段落一个。我得到4行，每个句子一个。

如果可能的话，我真的很想避免构建自己的转换器。

提前致谢

python spacy conll

2019-07-08T16:44:52.943

0 投票

2 回答

481 浏览

python - 如何从 Doc 对象生成 .conllu？

我在哪里可以找到 Spacy 接受的示例 .conllu 文件？或示例如何生成它？与 IOB ？

尝试将我生成的 .conllu 文件转换为 .json 以进行模型训练，这样：

（你有这样做的正确例子吗）

这是错误：

然后用这个：

错误是这样的：

python json spacy converters conll

2019-08-12T16:44:35.220

0 投票

1 回答

1346 浏览

python - 将文本句子转换为 CONLL 格式

我想将普通英文文本转换为 CONLL-U 格式供 maltparser 查找 Python 文本中的依赖项。我在java中试过但没有这样做，下面是我正在寻找的格式 -

我在java中尝试过，但我不能使用standford API，我想在python中也一样。

//这是java代码的例子，但是这里创建的令牌需要通过代码而不是手动解析-

python conll malt-parser

2019-09-03T12:18:31.417

0 投票

1 回答

551 浏览

nlp - 将 Spacy 生成的依赖转换为 CoNLL 格式不能处理多个 ROOT？

我使用 SpaCy 库生成依赖项并使用以下代码将其保存为 CoNLL 格式。

这行得通，但是我的数据集中有一些句子被 Spacy 分成两部分，因为它们有两个根。这导致 CoNLL 格式的一个句子有两个字段。

示例：我的数据集中的一个随机句子是：“teanna trump 可能更干净 twitter hoe but”

以 CoNLL 格式保存为：

有没有办法将它全部保存在一个字段而不是两个字段中，即使它有两个根，以便“但是”成为字段编号 1 中的第 7 项？这意味着它看起来像这样

nlp spacy dependency-parsing conll

2019-09-03T22:50:13.203

0 投票

1 回答

2642 浏览

python - 如何将带有命名实体的 CoNNL 格式的文本导入 spaCy，用我的模型推断实体并将它们写入同一个数据集（使用 Python）？

我有一个 CoNLL NER 格式的数据集，它基本上是一个包含两个字段的 TSV 文件。第一个字段包含来自某些文本的标记 - 每行一个标记（每个标点符号也被视为一个标记），第二个字段包含 BIO 格式标记的命名实体标签。

我想将此数据集加载到 spaCy 中，使用我的模型为文本推断新的命名实体标签，并将这些标签写入与新的第三列相同的 TSV 文件中。我所知道的是，我可以通过以下方式推断命名实体：

我还设法使用这个 CLI 命令将 CoNLL 数据集转换为 spaCy 的 json 格式：

python -m spacy convert conll_dataset.tsv /Users/user/docs -t json -c ner

但我不知道从这里去哪里。找不到如何将此json文件加载到 spaCyDoc格式。我尝试了这段代码（在 spaCy 的文档中找到）：

但它会抛出一个错误说ExtraData: unpack(b) received extra data.。

此外，我不知道如何将doc对象中的 ners 写回到同一个 TSV 文件中，使标记和 NER 标记与 TSV 文件的现有行对齐。

以下是 TSV 文件的摘录，作为我正在处理的数据的示例：

python json spacy named-entity-recognition conll

2019-10-09T08:08:50.913

0 投票

1 回答

149 浏览

python - 如何将三个 Conllu 文件与 Conllu python 库合并？

这是我第一次使用 conllu 文件。我无法找到任何方法将这些文件合并到 Conllu python 库中。任何线索都会有所帮助。谢谢。

python text conll

2020-03-19T18:32:06.470

0 投票

1 回答

187 浏览

python - 附加在 for 循环中不适用于存储令牌列表

在下面的 for 循环中，我从文件夹中读取 .dat 文件并解析每个文件以提取令牌列表，然后将其存储在列表中。我的代码执行此操作，但针对单个文件。我有 1187 个文件，但是 ud_file.append() 只是添加了最新文件中的标记，并忽略了它在早期迭代中附加的标记。因此，该列表仅包含最新的令牌，而不是 1187 文件中的所有令牌。我应该如何解决这个问题？

这是示例 .dat 文件。我有 1187 个这样的文件：

python for-loop append conll

2020-03-19T22:36:33.723

0 投票

1 回答

111 浏览

python - 解析 CoNLL-U 缺少注释 (misc)

我正在尝试从此github Repo解析 .ConLL 文件，这是我的解析代码示例：

输出：

这似乎缺少原始 .conll 文件中的一些注释（I-PERMISSION、B-PERMISSION 等 ..）：

关于如何获取所有注释的任何想法？

python parsing nlp conll

2020-04-03T10:43:06.490

问题标签 [conll]

Reference