寻找有关如何标记文本以进行搜索的策略,以及有关如何实现它们的一些想法。
具体来说,我们正在尝试标记用户生成的业务评论,以帮助我们的业务搜索引擎。所有代码都是Python。
我认为我们至少需要做到以下几点:
将复数名词转换为单数
我发现一个名为inflect的库似乎做得很好,有人有这方面的经验吗?摆脱所有非字母数字字符
这对我来说似乎是正则表达式的工作,但我很想听听任何其他建议基于空格的标记,将连续的空格转换为单个空格
我认为这可以通过 Python 中的一些自定义字符串操作来实现,但可能有更好的方法。
有没有人对我需要做的事情来标记文本有任何其他想法?另外,您对实施上述策略的技术和工具有何看法?
背景信息:(从评论到Dough T
关于 Solr 或 Elastic 搜索的建议)
我们正在使用ElasticSearch,我们使用它的工具进行基本的标记化。我们想单独进行上面描述的标记化,因为在标记化之后,我们将需要应用一些非常复杂的语义分析来从文本中提取含义。我们希望能够灵活地准确标记我们指定的方式,以及以我们自己的格式存储标记并附加我们自己的数据注释的便利。
我们绝对需要的一件事是每个令牌的单个(大型)数据库记录,可随时访问和修改,其中包含与该令牌使用相关的所有内容。我认为这排除了在文档被索引时仅使用 ES 标记化来处理它们。我们也许可以使用 ES 的分析模块来分析文本而不对其进行索引,然后单独处理每个令牌以构建/更新令牌的数据库记录......我们寻求有关此方法的建议。