我正在寻找用于生成随机但逼真的文本的工具。我自己实现了一个马尔可夫链文本生成器,虽然结果很有希望,但我改进它们的尝试并没有取得任何巨大的成功。
我会对使用语料库或基于上下文敏感或上下文无关语法进行操作的工具感到满意。我希望该工具适合包含在另一个项目中。我最近的大部分工作都是在 Java 中进行的,因此首选该语言的工具,但我可以使用 C#、C、C++ 甚至 JavaScript。
这与此问题类似,但范围更大。
我正在寻找用于生成随机但逼真的文本的工具。我自己实现了一个马尔可夫链文本生成器,虽然结果很有希望,但我改进它们的尝试并没有取得任何巨大的成功。
我会对使用语料库或基于上下文敏感或上下文无关语法进行操作的工具感到满意。我希望该工具适合包含在另一个项目中。我最近的大部分工作都是在 Java 中进行的,因此首选该语言的工具,但我可以使用 C#、C、C++ 甚至 JavaScript。
这与此问题类似,但范围更大。
如果您想要“随机”文本,扩展您自己的马尔可夫链生成器可能是您最好的选择。生成具有上下文的东西是一个开放的研究问题。
试试(如果你还没有):
或者,您可以在您的语料库中分两次使用WordNet :
这种方法也有很多问题:例如,您需要从周围单词的上下文中知道选择哪个同音词。在 wordnet 中查找“快速”会产生关于快速的内容,但也会产生一些关于您的指甲的信息。
我知道这并不能解决您对库或工具的要求,但可能会给您一些想法。
为此,我使用了许多数据集,包括 wikinews 文章。
我使用这个工具从他们那里提取了文本:http: //alas.matf.bg.ac.rs/~mr04069/WikiExtractor.py