HDBSCAN 有一个标志来缓存其集群数据作为参数,如下所述:
prediction_data :boolean, optional
Whether to generate extra cached data for predicting labels or membership vectors few new unseen points later. If you wish to persist the clustering object for later re-use you probably want to set this to True. (default False)
现在我看到在指定位置创建了以下文件夹结构:
>joblib
...>hdbscan
......>hdbscan_
.........>_hdbscan_boruvka_balltree
............>f1bd5f351764560c3532dbe30f273481
...............metadata.json
...............output.pkl
............func_code.py
正如 HDBSCAN 文档所建议的那样,我们可以使用这些文件(可能是 pickle 文件)作为持久性存储,以后可以重新使用它来查找新数据点的集群标签。但我找不到这样做的方法。