1

我想用spacy对文本进行分类我基于spacy的texcat_demo项目,基于它,json应该是这样的

{"text": "Sorpresa: Ceferin comió con Piqué y Laporta",   "cats": {"AR": 0, "ES": 1, "PT": 0 } } 
{"text": "Puado, de calabazas al Madrid a una renovación prioritaria","cats": {"AR": 0, "ES": 1, "PT": 0 } } 

但是应该如何看待这个 json 到多个类别呢?,像这样

 {"text": "Sorpresa: Ceferin comió con Piqué y Laporta",   "cats": {"content": "news", "language": "spanish" } }
 {"text": "Puado, de calabazas al Madrid a una renovación prioritaria", "cats": {"content": "soccer", "language": "portuguese" } }

谢谢

4

1 回答 1

1

你在 spaCy 论坛上问了同样的问题,但我会继续在这里回答:无论你有多少标签,格式都是一样的。(你有其他理由吗?我认为我们没有说过任何地方都有限制......)

另请注意,JSON 格式不是固定格式,重要的是在序列化之前创建 Doc 对象。有很多方法可以做到这一点,但spaCy 教程项目中有示例。

于 2021-06-19T03:31:18.407 回答