从我的硕士学位日起,我就有一些信息检索方面的背景。现在我想用它来为一本用阿拉伯语写的书构建一个文档搜索应用程序。
我的主要工具是 Django 和 PostgreSQL 或 MySQL,具体取决于此处发布的建议。
我在美国使用 Django 开发了 5 年,但从来不需要国际化或任何 Unicode 支持。所以我的问题是,我如何处理阿拉伯语单词。
这是我的过程:
1) 我有几个 .html 文件,其中 's 有几行阿拉伯语单词。我将构建一个解析器/标记器/词干分析器并存储到数据库
2)当用户输入一个词进行搜索时,我会阻止它,并将它与我的数据库进行比较。
我需要帮助的是以下内容:
1) 词干/单词/行应该作为阿拉伯语单词还是 python unicode 字符串存储在数据库中
2)如果我要将它们存储为阿拉伯语单词,那么最好是 PostgreSQL 还是 MySQL,以及我如何支持阿拉伯语。
3)如果我将它们存储为 unicode 字符串,django 管理员会将它们显示为阿拉伯语单词。因为如果是这样,那可能就足够了。另外,管理员可以支持阿拉伯语吗?即如果我想更改数据库中的某些内容,可以通过管理员来完成。
4) 如何让 Django ORM 支持存储解析器会吐出的阿拉伯语单词?