目前,我正在编写一个试图模拟某种对话的聊天机器人。作为 Python 中的一个 n00b,我目前依靠列表和字典来对一组标准查询进行一些标准响应。随着我了解更多,我意识到列表/字典/函数还不够,我必须使用某种数据库。目前,当我遇到来自用户的新问题时,我只是不断地将项目添加到我的列表/字典中。我的问题是,我使用什么数据库来存储/查询来自用户的数据。我在答案中浏览了这个及其后续链接,但我没有提到使用了哪个数据库。(我的这个小项目旨在自学机器学习和 NLP 的概念)
提前致谢。
目前,我正在编写一个试图模拟某种对话的聊天机器人。作为 Python 中的一个 n00b,我目前依靠列表和字典来对一组标准查询进行一些标准响应。随着我了解更多,我意识到列表/字典/函数还不够,我必须使用某种数据库。目前,当我遇到来自用户的新问题时,我只是不断地将项目添加到我的列表/字典中。我的问题是,我使用什么数据库来存储/查询来自用户的数据。我在答案中浏览了这个及其后续链接,但我没有提到使用了哪个数据库。(我的这个小项目旨在自学机器学习和 NLP 的概念)
提前致谢。
Google n-grams可能是您可以获得的最好的数据库之一,它不仅可以为您提供单词的频率,还可以为您提供带有频率的 n-grams,这将使您可以获取短语!
您还可以将维基百科转储文件用于各种用途,例如单词/术语的语义分析,如 Markovitch 和 Gabrilovich 在他们的(出色的)论文中所述:基于维基百科的自然语言处理语义解释
可能想调查一下redis
。它非常快(这对于聊天机器人很重要)并且非常易于使用。不过,它只是一个键值存储,所以如果您正在寻找像 XML 示例那样的分层逻辑,这不一定是您的答案——但话又说回来,您可能不想将逻辑存储在无论如何数据库。
基本上,看看 Redis,但没有更多关于你在做什么的细节,这有点难以帮助。