我想要达到什么目的?
- 我已经对数据进行了分类(JSON 格式),我想生成一个模型,该模型应该让我能够使用现有分类数据生成新传入数据。(所有现有类的可能性)。
- 例如,我将现有数据分为 2 类。
tier1
和tier2
。当我收到我想知道的新数据时,有多少%
新数据与我现有的tier1
数据匹配tier2
!如果不匹配只想得到0 %
我的样本数据
[
{
"type": "threat",
"severity": "2",
"category": "tier1"
},
{
"type": "threat",
"severity": "3",
"category": "tier1"
},
{
"type": "malware",
"severity": "7",
"category": "tier2"
},
{
"type": "threat",
"severity": "7",
"category": "tier2"
},
{
"type": "malware",
"severity": "5",
"category": "tier1"
},
{
"type": "threat",
"severity": "14",
"category": "tier2"
},
{
"type": "malware",
"severity": "13",
"category": "tier2"
},
{
"type": "threat",
"severity": "14",
"category": "tier2"
},
{
"type": "threat",
"severity": "1",
"category": "tier1"
},
]
传入数据和我的期望
- 场景 1:传入数据:
{
"type": "foo",
"severity": "cdsb",
}
期待:tier1: 0 %, tier2: 0 %
- 场景 2:传入数据:
{
"type": "threat",
"severity": "60",
}
期待:tier1: X %, tier2: Y%
还有一些问题:
1. 解决这个问题的最佳方法是什么?2. 我在这里展示的数据只是2
特征,但真正的输入数据有更多不同类型的字段。提取特征的最佳方法是什么!