1

我有一个 1500 万字的语料库,我想将其存储在数据库中。然后我希望能够找到给定单词,它在语料库中的上下文。例如,对于“朋友”这个词,我可能会选择以下内容,我也会在每个“朋友”之前和之后选择五个词:

... night i went to my FRIENDS house for a cup of tea ...
... what did you say my FRIENDS cat is sick and ...
... if you like my FRIENDS dad can pick you up ...

我怎样才能最好地组织我的数据库以以这种方式有效地选择给定的单词?当我需要数据库时,我通常使用 sqlite,但在这种情况下,也许其他东西会更好。

4

1 回答 1

1

如果要在语料库中查找单词,则需要全文搜索功能。SQLite 实际上确实提供了诸如扩展之类的功能,此处对此进行了说明。

全文搜索将返回与给定查询匹配的文档。您首先需要将语料库分解为单独的文档。通常,这是一项非常容易的任务——文件可能是电子邮件、客户服务记录、医生的笔记、报告或其他任何东西。但是,您没有描述您的案件中的文件。

我完全不熟悉 SQLite 的全文扩展。您可能会考虑其他数据库解决方案,例如 MySQL,它们也提供全文支持。

于 2013-08-26T19:15:16.713 回答