我将分批处理 10,000-50,000 条记录,每条记录大约有 200-400 个字符。我预计我可以拥有的搜索词数量不会超过 1500 个(都与本地企业相关)。
我想创建一个函数,将结构化标签与术语列表进行比较以标记数据。
这些条款基于业务描述。因此,例如,a [Jazz Bar]
、[Nightclub]
、[Sports Bar]
或[Wine Bar]
都对应于 的查询[Bar]
。
通常这个数据有某种现有的标签,所以我也可以为第一遍创建一个严格的层次结构,然后在没有明确的现有标签的情况下进行第二遍。
实现这一点的最性能敏感的方法是什么?我可以有一个包含所有关键字的表,并尝试将它们与每条数据进行匹配。这在我匹配现有标签的情况下很简单,在处理自由文本时不那么简单。
我正在使用 Heroku/Postgresql