我要使用的数据集来自 Adobe 产品的安全咨询和安全公告。网站链接https://helpx.adobe.com/cy_en/security.html/security/security-bulletin.ug.html。但是,我假设我不需要做注释部分,我认为我可以继续进行命名实体识别。这是因为提取的数据已经排列好。
我选择的数据集是:
Vulnerability identifier
Date published
Affected Software
CVE numbers
这是以 csv 格式提取的数据集的示例
发布日期 | 漏洞_id | CVE_numbers | 受影响的软件 |
---|---|---|---|
2008 年 5 月 6 日 | APSA08-05 | CVE-2008-1201 | 后效果 CS3 |
2019 年 8 月 13 日 | APSB19-31 | CVE-2019-8062 | 后遗症 |
- | - | CVE-2020-3765 | 后遗症 |
我的问题是,是否可以使用条件随机字段模型来训练命名实体识别以获取安全咨询数据?如果是,我如何选择最佳特征选择来识别使用 IOB 编码或任何其他建议的相关实体?