我正在从事一项分类任务,我们正在构建模型来检测文本范围中存在的实体的类型(即注释)。这些模型可以使用数据集构建,其中每个实例由三个独立的文本变量表示:
- pre-context:注释之前的文档文本。
- 注释:我们要检测实体类型的文档的范围。如果不存在实体,则将所有实体类型列(isPerson、isOrganization、isTime)标记为 0
- post-context:注释后的文档文本。
数据集 1:文本跨度中的实体类型分类。
preContext | annotation | postContext | isOrganization | isPerson | isTime
.... | on July 12, 2011 | .... | 0 | 0 | 1
With over 8 | million invested | in Chrysler | 0 | 0 | 0
数据集 2:边界检测 - “实体开始”
在第一个示例中,preContext 和 text 之间的转换标志着组织类型实体的开始。在第二个示例中,在 preContext 和 text 之间的转换中不存在实体,因此所有因变量列都标记为零。
preContext | text
| isStartOfOrganization | isStartOfPerson | isStartOfTime
Private equity firm | Westbridge Capital could exit part or all of its stake in Hyderabad-based technology firm.
| 1 | 0 | 0
对于上述问题,我一直在使用基本的 NLP 技术,例如 TF/IDF、N-grams、Tokenizers、Stemmers、POS Taggers、Stoplist。但我现在真正想做的是尝试一些我尝试过的新技术之外的新技术。这是我的问题,我找不到任何有效的技术。如果您能建议我,那就太好了,即获得显着进一步收益的唯一方法是开始跳出框框思考!您能否建议我一些解决上述问题的新技术?