我想知道是否有可能为所有可能的正则表达式建立一个倒排索引......我有一些想法,但目前它们非常模糊。
我这样做的原因是因为我认为使用正则表达式的搜索引擎会非常有用(我相信很多人会同意),尽管搜索引擎的问题是有很多东西要搜索。这就是为什么会有倒排索引,我猜。
也许类似的东西?我真的不知道。
这是我的想法的描述:
搜索引擎应该是正则表达式搜索引擎。与只匹配单词的普通搜索引擎不同,这将匹配用户指定的特定正则表达式。
搜索示例:[^ ]*ell[^ ]* .*\。
例如,类似的东西。这背后的原因是,有时我想搜索由于普通搜索引擎的局限性而无法找到的东西。
这将是一个简单的类似 sed 的正则表达式,可能有点 javascripty。无论如何,它们都是相似的(具有基础知识)
编辑:我见过正则表达式搜索引擎,但这不是我要问的。我想知道是否可以建立一个。
编辑2:也许是一个倒排索引,其中包含一些单词和数字(及其长度)等。也许是某种表格,我可以快速挑选出一些东西,所以如果我的正则表达式中有一定长度的数字,我可以快速过滤我索引的所有具有该长度的数字吗?
如果我将这些想法结合起来,我就会意识到可能会进行多次搜索,但数据源会缩小,直到剩下的所有内容都与正则表达式匹配?例如:ell.\*\\.
将搜索带有 的所有内容e
,然后搜索带有 的所有内容,然后搜索带有另一个跟随的所有l
内容,然后搜索任意数量的字符后跟 a 。a
l
el
.