我已经看到我可以使用dump_svmlight_file
函数将 numpy 数组转换为 libsvm:https ://scikit-learn.org/stable/modules/generated/sklearn.datasets.dump_svmlight_file.html
在将它们转换为 libsvm 格式之前,我对 、 和数组的格式X
有y
疑问。query_id
因此,让我们举一个简短的例子。
最初,我在 Pandas 数据框中有特色文档(前 5 列)及其标签(最后一列; 1 = relevant
, 0 = irrelevant
),如下所示:
index name component label
0 A pink 0
1 B orange 1
2 C yellow 1
3 D red 0
此外,我有两个查询:query1
和query2
。最初它们是两个字符串:"this is query 1"
和"this is query 2"
分别。
这里的事情是前两行文档(样本)用于,query1
最后两行用于query2
。
我了解在转换为 libsvm 格式之前:
X
必须是一个 numpy 数组,其中 4 个样本从index
一列到另一component
列y
必须是一个 numpy 数组,只有 4 个样本和label
列
这个对吗?我的疑问是:
query_id
在这种情况下数组将如何?- 如何指示前两行是 for
query1
,最后两行是 forquery2
?