只是对个人经验和对限制的理解等的查询。例如,如果我有一个包含 100,000 行(条目)的文本文件和一个包含 100,000 个相同条目的数据库,每个条目包含一个单词且没有双精度词,我会是哪个能够更快地处理并且哪个会消耗最少的内存?
据我了解,我可以在开始时将整个文本文件加载到内存中的列表中(仅约 1MB。)此信息用于确认字符串内容。字符串中的每个单词(由空格分隔)都必须存在于文件中,否则它会更改为列表中最相似的条目。简而言之,它是非常高级的自动更正。然而,可悲的是,我不得不重新发明轮子。
所以无论如何,我的问题仍然存在。哪个是我最好的选择?我正在尝试使用尽可能少的外部模块,所以我想我可能会坚持使用 SQLite(它是标准的,不是吗?尽管再多一个也无妨)如果换行符分隔的文本文件既是我最快的也是最经济的选项,我应该以特定的方式处理它们吗?我希望这个脚本能够在一秒钟内执行至少 100 次匹配操作,如果使用 Python 等语言在计算上是可行的。