根据我的理解,远程监督是指定段落中的单个单词(通常是句子)试图传达的概念的过程。
例如,数据库维护结构化关系concerns( NLP, this sentence).
我们的远程监督系统将输入以下句子:"This is a sentence about NLP."
基于这个句子,它将识别实体,因为作为预处理步骤,该句子将通过命名实体识别器NLP
& this sentence
。
由于我们的数据库有它NLP
并且this sentence
通过它的键相关联,concern(s)
因此将输入句子识别为表达关系Concerns(NLP, this sentence)
。
我的问题有两个:
1)那有什么用?是不是以后我们的系统可能会在“狂野”中看到一个句子,例如That sentence is about OPP
并意识到它看到了与之前类似的东西,从而实现了新的关系,例如concerns(OPP, that sentence).
,仅基于单词/单个标记?
2)是否考虑到句子的实际单词?例如,动词“是”和副词“关于”,意识到(通过 WordNet 或其他一些下位词系统)这在某种程度上类似于高阶概念“关注”?
有没有人有一些代码用于生成我可以查看的远程监督系统,即交叉引用 KB(如 Freebase)和语料库(如 NYTimes)并生成远程监督数据库的系统?我认为这将大大有助于澄清我对远程监督的概念。