我们已经建立了一个系统,可以分析一些数据并以简单的英语输出一些结果(即没有图表等)。当前的实现依赖于大量模板和一些随机化,以便为文本提供尽可能多的多样性。
我们希望切换到更高级的内容,希望生成的文本不那么重复,听起来不那么机械。我在谷歌上搜索了很多,但我找不到具体的开始。有任何想法吗?
编辑:提供给 NLG 机制的数据采用 JSON 格式。这是一个关于网络分析数据的例子。json 文件可能包含例如一个指标(例如访问量)、它在过去 X 天的值、最后一个值是否是预期的以及哪些维度(例如国家或营销渠道)影响了它的变化。
当前的实现可能会给出这样的结果:
主要来自 ABC 电子邮件活动在英国的总体访问量达到 10K (+20% DoD),高于预期值 10%。用户主要登陆 XXX 页面,而不同设备的增长是一致的。
我们正在寻找一种方法来减少对模板的依赖,听起来更自然并增加词汇量。