我正在尝试识别文本中的预定义标签。
标签可能是 * 手术
- 手
- 妇科
- 眼科
- 手外科
- 节肢动物传播的病毒性发热和病毒性出血热
ETC
我现在正在做的是从文本中检索术语向量并针对标签索引运行个体。我有以下问题
如果我使用带有通配符的关键字查询,我会得到很多不相关的命中。例如,文本包含 John wasborne with a growth on his .... 将匹配“节肢动物传播的病毒性发热和病毒性出血热”
如果我使用词组搜索,这个问题就解决了,但现在标签“手外科”将不匹配,因为这些术语只包含单个单词。
我只是想知道是否有更好的方法来解决这个问题。我最初针对索引文本循环了所有可用的标签,这些标签运行良好,但性能非常密集。