问题标签 [doccano]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
doccano - 除了带有 Doccano 的标签之外,还有其他方法可以使用参考术语吗?
嗨,我想知道我们是否可以在 Doccano 上有类似以下示例的内容:
所以假设我们有这样一句话:“MS 是一家 IT 公司”。我想在这句话中标记一些单词,例如 MS (Microsoft)。MS 应该被标记为 Company(所以想象我有一个名为 Company 的实体),但我还想说 MS 代表 Microsoft。
有没有办法用 Doccano 做到这一点?
谢谢
json - 在 python 中创建一个 JSON 文件,它们不是用逗号分隔的
我正在寻找在 python 中创建以下 JSON 文件。我不明白如何拥有多个不以逗号分隔的字典,因此当我使用 JSON 库将字典保存到磁盘时,我得到以下 JSON;
{"text": "Terrible customer service.", "labels": ["negative"], "meta": {"wikiPageID": 1}}
{"text": "Really great transaction.", "labels": ["positive"], "meta": {"wikiPageID": 2}}
{"text": "Great price.", "labels": ["positive"], "meta": {"wikiPageID": 3}}
而不是像下面这样的字典列表;
[{"text": "Terrible customer service.", "labels": ["negative"], "meta": {"wikiPageID": 1}},
{"text": "Really great transaction.", "labels": ["positive"], "meta": {"wikiPageID": 2}},
{"text": "Great price.", "labels": ["positive"], "meta": {"wikiPageID": 3}}]
不同之处在于,在第一个示例中,每一行都是一个字典,它们不在列表中或用逗号分隔。
而在第二个例子中,我能想出的是一个字典列表,每个字典用逗号分隔。
如果这是一个愚蠢的问题,我很抱歉,我已经为此烦恼了好几个星期,并且无法提出解决方案。
任何帮助表示赞赏。
并提前感谢您。
python - 如何将 Conll 2003 格式转换为 json 格式?
我有一个句子列表,句子的每个单词都在嵌套列表中。如:
还有另一个列表,其中每个单词都对应一个实体标签。如:
这是基本的 ConLL2003 数据,但我实际上使用的是另一种语言的不同数据。我仅将这个作为示例表示。
我想将此列表列表转换为 JsonL 格式,其中格式为:
到目前为止,我已经设法将列表列表放入这种格式(json list of dicts):
但是,这样做的问题是我想将 IOB 格式合并在一起并创建一个从头到尾的单一实体。我需要这种格式才能在 doccano 注释工具上上传数据。我需要标记为一个的复合实体。
这是我为创建上述格式而编写的代码:
我尝试将上述格式转换为我想要的格式。IE。合并 IOB 标签。这是我迄今为止尝试过的但没有奏效的方法。
这段代码的问题是我无法确定连续序列的序列长度。所以对于列表中的每个元素 k 总是稳定的。我需要 k 更改同一列表中的下一个序列。
这是我得到的错误:
我需要确定每次我应该在哪里计算 k。这里的 K 是 B 跟随 I 的序列的长度,依此类推。
我也试过这个,但这只会将两个标签合并在一起:
输出:
但我需要 3 个“杂项”标签作为索引 11 到 43 的一个标签。
对于任何想知道的人:我尝试这样做的原因是,我已经标记了一些数据并测试了原型模型,它似乎给出了很好的结果。所以我想标记整个数据集并修复错误标签,而不是从头开始注释。我想这会为我节省很多时间。
ps:我知道doccano支持以ConLL格式上传。但是它坏了,所以我不能这样上传。
python - Spacy 自定义名称实体识别(NER)“灾难性遗忘”问题
该模型无法记住之前训练它的标签,我知道它的“灾难性遗忘”,但似乎没有示例或博客可以帮助解决这个问题。对此最常见的回应是这个博客是这个https://explosion.ai/blog/pseudo-rehearsal-catastrophic-forgetting但这现在已经很老了,没有帮助
这是我的代码:
并且数据注释是在“Daccano”上完成的。下面看一下数据:
json - doccano-client 返回错误 JSONDecodeError: Expecting value: line 2 column 1 (char 1)
我正在尝试连接到 doccano_api_client 以便我可以解析来自气流操作员的数据并上传,但似乎无法使用说明进行连接。我的代码如下:
返回的完整错误文本如下:
按照这里的 API 说明,我看不出我的代码有什么问题。我不确定我哪里出错了?
docker - 如何从外部连接到虚拟机中容器内的 Web 应用程序?
我有一个设置是:
PC > Fedora(Hyper-V VM) > 运行 Web 应用程序的容器
我面临的问题是我无法从我的 PC 连接到 Web 应用程序(PC > Container Web 应用程序)
当服务启动时,它显示它正在监听http://0.0.0.0:8000
尝试连接到http://0.0.0.0:8000不起作用,而是使用容器 IP:8000 连接,例如:172.17.0.2:8000
在我的 VM 上执行此操作很好,我可以连接并使用该应用程序,但它在我的 PC 上不起作用。我也尝试使用 VM ip、0.0.0.0 和容器 IP 进行连接,就像在 VM 中一样。但是这些选项都不起作用。
我尝试使用 iptables 转发端口,但我不知道如何准确使用它。我尝试用谷歌搜索一些命令并使用它,但没有找到解决方案。
有什么帮助吗?也许这与我没有看到的另一件事有关
python - 如何为 Doccano 序列编写 JSONL 文件以进行序列化
Doccano 需要 JSONL 文件格式的文本。
这不适用于 json.dumps ......至少不能直接使用。它要么不给出双引号(这是必需的),要么有一些 Doccano 不接受的奇怪格式。
有小费吗?
machine-learning - DOCCANO 和 SpaCY 中未标记的实例。他们提供任何价值吗?
我正在使用 doccano 进行序列标记,并使用 spacy 进行进一步建模。我标记的一些句子不包含我感兴趣的任何标签,因此它们保持“未标记”,即。没有标签。
我想训练 SpaCy 识别所有变体中的角色名称。
现在的问题:
- 为了训练 SpaCy 模型而包含未标记的实例有什么价值吗?
- 如果有那么我应该将此数据声明为“不平衡数据集”并采取相应措施吗?(提升?重击?过采样?等)
- 在这种情况下,最佳做法是什么?
vue.js - 在开源项目的“vue”中找不到错误 PropType
我正在尝试开发一个名为doccano的 NLP 开源软件,我尝试只运行我运行命令npm install以获取所有需要的依赖项的前端部分,然后当我运行npm run dev它开始编译然后失败并出现此错误
当我检查FormDelete.vue时,我没有发现任何错误,也没有在vscode上检测到错误
这是 package.json 内容:
这是第二部分
doccano - Doccano:无法上传 jsonl
我尝试为序列标记任务上传 jsonl 文件,并在控制台中有以下内容:
我能做些什么 ?