17

根据我的理解,远程监督是指定段落中的单个单词(通常是句子)试图传达的概念的过程。

例如,数据库维护结构化关系concerns( NLP, this sentence).

我们的远程监督系统将输入以下句子:"This is a sentence about NLP."

基于这个句子,它将识别实体,因为作为预处理步骤,该句子将通过命名实体识别器NLP& this sentence

由于我们的数据库有它NLP并且this sentence通过它的键相关联,concern(s)因此将输入句子识别为表达关系Concerns(NLP, this sentence)

我的问题有两个:

1)那有什么用?是不是以后我们的系统可能会在“狂野”中看到一个句子,例如That sentence is about OPP并意识到它看到了与之前类似的东西,从而实现了新的关系,例如concerns(OPP, that sentence).,仅基于单词/单个标记?

2)是否考虑到句子的实际单词?例如,动词“是”和副词“关于”,意识到(通过 WordNet 或其他一些下位词系统)这在某种程度上类似于高阶概念“关注”?

有没有人有一些代码用于生成我可以查看的远程监督系统,即交​​叉引用 KB(如 Freebase)和语料库(如 NYTimes)并生成远程监督数据库的系统?我认为这将大大有助于澄清我对远程监督的概念。

4

2 回答 2

14

RE 1) 是的,这完全正确。最后,我们想要的是一个分类器,它以输入文本和文本中提到的一对实体作为输入,并告诉我们该句子中这些实体之间的关系。远程监督是一种模拟这种训练数据的方式,使用来自已知知识库的“远程监督”。但是,最终目标与大多数机器学习任务相同:泛化到新句子。

RE 2)当然!远程监督仅适用于如何生成训练数据 [1]。一旦你假设了远程监督,你剩下的是一个 (sentence, relation_for_sentence) 对的语料库,然后你提取句子中所有常见的 NLP 特征。

[1] 第一个近似值 - 有“远程监督”模型(如 MultiR 和 MIML-RE)不直接生成假训练数据,而是将监督间接纳入训练过程本身。但是,即使在这些模型中,潜在变量模型中也有一个因素相当于按句子分类,只是输出变量是潜在的,而不是像普通远程监督那样天真地“观察到”。

于 2015-04-13T02:00:08.303 回答
7

根据我现在的理解——远程监督的真正价值在于我们可以用它来注释一个大语料库,而不必手动考虑每个句子——因为这在工时方面非常昂贵——所以最后一些公认的句子中的关系将是错误的 - 但它会 - 希望“相当好”......这在某些应用程序中很有用,例如......学者们相互竞争以试图在这个愚蠢的任务上获得略高的分数,并且...... . 其他事情,例如...(欢迎举例)

于 2016-03-19T22:47:23.973 回答