这个问题是要学习和理解特定技术是否存在。以下是场景。
我们将提供200个英文单词。软件可以添加额外的 40 个单词,即 200 个单词的 20%。现在,使用这些,软件应该编写对话,有意义的对话,没有语法错误。
为此,我研究了Spintax
and Article Spinning
。但是你知道他们做什么,拿现有的文章重写。但这不是最好的方法(是吗?如果是请告诉我)。那么,有没有什么技术可以做到这一点呢?可能是谷歌使用的语义理论?任何经过验证的人工智能方法?
请帮忙。
这个问题是要学习和理解特定技术是否存在。以下是场景。
我们将提供200个英文单词。软件可以添加额外的 40 个单词,即 200 个单词的 20%。现在,使用这些,软件应该编写对话,有意义的对话,没有语法错误。
为此,我研究了Spintax
and Article Spinning
。但是你知道他们做什么,拿现有的文章重写。但这不是最好的方法(是吗?如果是请告诉我)。那么,有没有什么技术可以做到这一点呢?可能是谷歌使用的语义理论?任何经过验证的人工智能方法?
请帮忙。
首先,请注意:这是自然语言生成(NLG)研究的前沿,最先进的研究出版物还不足以取代人类教师。对于以英语为第二语言 (ESL) 的学生来说,这个问题尤其复杂,因为他们倾向于在将知识翻译成英语之前先用母语思考。如果我们忽略这个可怕的前奏,正常的做法是这样的:
NLG 由三个主要部分组成:
内容规划:此阶段将沟通的高级目标分解为结构化的原子目标。这些原子目标足够小,只需一个通信步骤(例如,在单个子句中)就可以实现。
句子规划:在这里,实际的词位(即具有清晰语义的词或词部分)被选择为原子交际目标的一部分。词位通过谓词-论元结构连接起来。句子规划阶段还决定了句子的边界。(例如,学生应该写“我去了那里,但她已经走了。”或“我去那里看她。她已经离开了。”...注意不同的句子边界和不同的词位,但两个答案都表明同样的意思。)
表面实现:通过结合虚词(限定词、助词等)和屈折变化,将句子规划步骤中获得的半成形结构变形为适当的形式。
在您的特定场景中,已经提供了大部分单词,因此选择词位将相对简单。连接词位的谓词-论元结构需要使用合适的概率学习模型(例如隐马尔可夫模型)来学习。保证最终语法结构正确的表面实现应该是语法规则和统计语言模型的结合。
在高层次上,请注意内容规划与语言无关(但很可能与文化相关),而最后两个阶段则与语言相关。
作为最后一点,我想补充一点,40 个额外单词的选择是我忽略的,但它与这个过程的其他部分一样重要。在我看来,这些额外的词应该根据它们与 200 个给定词的组合关系来选择。
有关更多详细信息,以下两篇论文提供了一个良好的开端(完整的流程架构、示例等):
为了更好地理解组合关系的概念,我发现Sahlgren 关于分布假设的文章非常有帮助。他工作中的分布方法也可以用来学习我之前提到的谓词-论元结构。
最后,添加一些可用的工具:看看这个 NLG 系统的 ACL 列表。我没有使用过它们中的任何一个,但我听说过关于 SPUD 和 OpenCCG 的好消息。