python - 标记文本以在 Python 中进行搜索

Question

寻找有关如何标记文本以进行搜索的策略，以及有关如何实现它们的一些想法。

具体来说，我们正在尝试标记用户生成的业务评论，以帮助我们的业务搜索引擎。所有代码都是Python。

我认为我们至少需要做到以下几点：

将复数名词转换为单数
我发现一个名为inflect的库似乎做得很好，有人有这方面的经验吗？
摆脱所有非字母数字字符
这对我来说似乎是正则表达式的工作，但我很想听听任何其他建议
基于空格的标记，将连续的空格转换为单个空格
我认为这可以通过 Python 中的一些自定义字符串操作来实现，但可能有更好的方法。

有没有人对我需要做的事情来标记文本有任何其他想法？另外，您对实施上述策略的技术和工具有何看法？

背景信息：（从评论到Dough T关于 Solr 或 Elastic 搜索的建议）
我们正在使用ElasticSearch，我们使用它的工具进行基本的标记化。我们想单独进行上面描述的标记化，因为在标记化之后，我们将需要应用一些非常复杂的语义分析来从文本中提取含义。我们希望能够灵活地准确标记我们指定的方式，以及以我们自己的格式存储标记并附加我们自己的数据注释的便利。
我们绝对需要的一件事是每个令牌的单个（大型）数据库记录，可随时访问和修改，其中包含与该令牌使用相关的所有内容。我认为这排除了在文档被索引时仅使用 ES 标记化来处理它们。我们也许可以使用 ES 的分析模块来分析文本而不对其进行索引，然后单独处理每个令牌以构建/更新令牌的数据库记录......我们寻求有关此方法的建议。

score 5 · Accepted Answer

我认为您想研究一个提供您描述的功能的全文搜索解决方案，而不是在 python 中实现您自己的东西。这个领域的两大开源玩家是elasticsearch和solr。

使用这些产品，您可以配置定义自定义标记化、删除标点符号、帮助搜索的同义词、不仅仅是空格的标记化等字段。您还可以轻松添加插件来更改此分析链。

这是 solr 架构的示例，其中包含一些有用的东西：

定义字段类型

<fieldType class="solr.TextField" name="text_en" positionIncrementGap="100">
  <analyzer type="index">
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>-->
    <filter catenateAll="0" catenateNumbers="1" catenateWords="1" class="solr.WordDelimiterFilterFactory" generateNumberParts="1" generateWordParts="1" splitOnCaseChange="1"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.ASCIIFoldingFilterFactory"/>
  </analyzer>
 </fieldType>

定义一个字段

<field indexed="true" name="text_body" stored="false" type="text_en"/>

然后，您可以通过 python 通过一个不错的 REST API 使用搜索服务器，或者直接使用 Solr/Elasticsearch。

python - 标记文本以在 Python 中进行搜索

1 回答 1

定义字段类型

定义一个字段

Related

Reference