nlp - 什么是远程监督？

Question

根据我的理解，远程监督是指定段落中的单个单词（通常是句子）试图传达的概念的过程。

例如，数据库维护结构化关系concerns( NLP, this sentence).

我们的远程监督系统将输入以下句子："This is a sentence about NLP."

基于这个句子，它将识别实体，因为作为预处理步骤，该句子将通过命名实体识别器NLP& this sentence。

由于我们的数据库有它NLP并且this sentence通过它的键相关联，concern(s)因此将输入句子识别为表达关系Concerns(NLP, this sentence)。

我的问题有两个：

1）那有什么用？是不是以后我们的系统可能会在“狂野”中看到一个句子，例如That sentence is about OPP并意识到它看到了与之前类似的东西，从而实现了新的关系，例如concerns(OPP, that sentence).，仅基于单词/单个标记？

2）是否考虑到句子的实际单词？例如，动词“是”和副词“关于”，意识到（通过 WordNet 或其他一些下位词系统）这在某种程度上类似于高阶概念“关注”？

有没有人有一些代码用于生成我可以查看的远程监督系统，即交叉引用 KB（如 Freebase）和语料库（如 NYTimes）并生成远程监督数据库的系统？我认为这将大大有助于澄清我对远程监督的概念。

score 14 · Accepted Answer

RE 1) 是的，这完全正确。最后，我们想要的是一个分类器，它以输入文本和文本中提到的一对实体作为输入，并告诉我们该句子中这些实体之间的关系。远程监督是一种模拟这种训练数据的方式，使用来自已知知识库的“远程监督”。但是，最终目标与大多数机器学习任务相同：泛化到新句子。

RE 2）当然！远程监督仅适用于如何生成训练数据 [1]。一旦你假设了远程监督，你剩下的是一个 (sentence, relation_for_sentence) 对的语料库，然后你提取句子中所有常见的 NLP 特征。

[1] 第一个近似值 - 有“远程监督”模型（如 MultiR 和 MIML-RE）不直接生成假训练数据，而是将监督间接纳入训练过程本身。但是，即使在这些模型中，潜在变量模型中也有一个因素相当于按句子分类，只是输出变量是潜在的，而不是像普通远程监督那样天真地“观察到”。

score 7 · Accepted Answer

根据我现在的理解——远程监督的真正价值在于我们可以用它来注释一个大语料库，而不必手动考虑每个句子——因为这在工时方面非常昂贵——所以最后一些公认的句子中的关系将是错误的 - 但它会 - 希望“相当好”......这在某些应用程序中很有用，例如......学者们相互竞争以试图在这个愚蠢的任务上获得略高的分数，并且...... . 其他事情，例如...（欢迎举例）

nlp - 什么是远程监督？

2 回答 2

Related

Reference