我目前正在做一个项目,我想对一些文本进行分类。为此,我首先必须注释文本数据。我使用网络工具完成了它,现在有了相应的 json 文件(包含注释)和纯 txt 文件(包含原始文本)。我现在想使用不同的分类器来训练数据并最终预测所需的结果。
但是,我正在努力从哪里开始。我还没有真正在互联网上找到我一直在寻找的东西,所以这就是我在这里尝试的原因。
我将如何处理 json 和 txt。文件?据我了解,我必须以某种方式将这些信息转换为 .csv,其中我有关于标签、文本的信息,但对于未注释的文本,也有“无”。所以我想这就是我使用 .txt 文件以某种方式将它们与注释文件合并并能够检测文本句子(或单词)是否具有标签的原因。然后我可以使用 .csv 数据将其加载到模型中。
有人可以给我一个关于从哪里开始或我现在应该如何进行的提示吗?到目前为止,我发现的所有内容都涵盖了数据已经转换并准备好进行预处理的情况,但我正在努力处理注释过程的结果。
我的 JSON 看起来像这样:
{"annotatable":{"parts":["s1p1"]},
"anncomplete":true,
"sources":[],
"metas":{},
"entities":[{"classId":"e_1","part":"s1p1","offsets":
[{"start":11,"text":"This is the text"}],"coordinates":[],"confidence":
{"state":"pre-added","who":["user:1"],"prob":1},"fields":{"f_4":
{"value":"3","confidence":{"state":"pre-added","who":
["user:1"],"prob":1}}},"normalizations":{}},"normalizations":{}}],
"relations":[]}
每个文本都有一个classId
(e_1
在这种情况下)和一个field_value
(在这种情况下f_4
给定值3
)。我需要逐步提取它。首先提取具有相应文本的实体(并在没有注释的地方添加“无”),然后在第二步中检索具有相应文本的字段信息。对应的.txt文件就是这样:这是文本
我在一个文件夹中有所有 .json 文件,在另一个文件夹中有所有 .txt 文件。