我试图在 BERTopic 中找到合适的主题表征方式。现在通过keyword_list = topic_model.get_topic(31)[:10] 完成。这样做的一个缺点是像“hotel”和“hotels”这样的词是独立的关键词,显然不是这样的
一个“技巧”是在聚类完成后将原始文本更改为引理。
我可以通过将keyword_list 做得很长,对这100 个或更多的关键字进行词形还原,然后将前10 个作为主题的关键字。通过修改 BERTopic 调用的 CountVectorizer 似乎是可能的,但我不知道该怎么做
任何人的建议,线索?
谢谢,
安德烈亚斯