我正在使用该问题(两个文本文档之间的相似性)中获得最多投票的答案中给出的代码来计算文档之间的 TF-IDF。但是,我观察到,当我运行代码而不指定自定义值min_df
(1,在代码中)时,如果两个文档完全不同(例如其中没有共同词),而不是接收 TF-IDF值为0,我得到以下错误:
ValueError: empty vocabulary; training set may have contained only stop words or min_df (resp. max_df) may be too high (resp. too low).
有人可以告诉我如何摆脱这个错误吗?