我已经看到我可以使用dump_svmlight_file函数将 numpy 数组转换为 libsvm:https ://scikit-learn.org/stable/modules/generated/sklearn.datasets.dump_svmlight_file.html
在将它们转换为 libsvm 格式之前,我对 、 和数组的格式X有y疑问。query_id
因此,让我们举一个简短的例子。
最初,我在 Pandas 数据框中有特色文档(前 5 列)及其标签(最后一列; 1 = relevant, 0 = irrelevant),如下所示:
index name component label
0 A pink 0
1 B orange 1
2 C yellow 1
3 D red 0
此外,我有两个查询:query1和query2。最初它们是两个字符串:"this is query 1"和"this is query 2"分别。
这里的事情是前两行文档(样本)用于,query1最后两行用于query2。
我了解在转换为 libsvm 格式之前:
X必须是一个 numpy 数组,其中 4 个样本从index一列到另一component列y必须是一个 numpy 数组,只有 4 个样本和label列
这个对吗?我的疑问是:
query_id在这种情况下数组将如何?- 如何指示前两行是 for
query1,最后两行是 forquery2?