words - 很多文章的单词列表 - 文档术语矩阵

Question

我有近 15 万篇土耳其语文章。我将使用文章进行自然语言处理研究。我想在处理文章后存储每篇文章的单词和频率。

我现在将它们存储在 RDBS 中。

我有 3 张桌子：

文章 -> article_id,text
Words -> word_id, type, word
Words-Article -> id, word_id, article_id, frequency (index for word_id, index for article_id )

我会查询

我在 word-article 表中有数百万行。在这个项目中，我一直使用 RDBS。从mysql开始，现在使用oracle。但是我不想用oracle，想要比mysql更好的性能。

此外，我必须在具有 4gb 内存的机器上处理这项工作。
简单地说，如何存储文档术语矩阵并对其进行查询？性能是必要的。“键值数据库”可以在性能上击败 mysql 吗？或者什么可以打败mysql？

如果您的答案编程语言取决于，我正在用 python 编写代码。但是 C/C++ , Java 没问题。

score 0 · Accepted Answer

0

也许查看lucene（或php 中的Zend_Search_Lucene）。这是非常好的 FTS 引擎。

于 2009-12-25T02:35:53.043 回答

score 0 · Accepted Answer

对于 15 万篇文章，words_articles 表中必须有几亿行。只要您正确配置 MySQL，这是可以管理的。

一些提示：

2 回答 2