我正在构建一个包含大约 10,000 条记录的 MySQL 数据库。每条记录将包含一个文本文档(大多数情况下是几页文本)。我想在整个数据库中进行各种 n-gram 计数。我已经用 Python 编写了算法,可以针对包含大量文本文件的目录执行我想要的操作,但要做到这一点,我需要从数据库中提取 10,000 个文本文件——这会产生性能问题。
我是 MySQL 的新手,所以我不确定它是否有任何内置功能可以进行 n-gram 分析,或者是否有好的插件可以做到这一点。请注意,在我的分析中,我需要达到至少 4 克(最好是 5 克),所以我见过的简单的 2 克插件在这里不起作用。在进行 n-gram 计数之前,我还需要能够从文本文档中删除停用词。
来自社区的任何想法?
谢谢,
罗恩