0

我已经看到我可以使用dump_svmlight_file函数将 numpy 数组转换为 libsvm:https ://scikit-learn.org/stable/modules/generated/sklearn.datasets.dump_svmlight_file.html

在将它们转换为 libsvm 格式之前,我对 、 和数组的格式Xy疑问。query_id

因此,让我们举一个简短的例子。

最初,我在 Pandas 数据框中有特色文档(前 5 列)及其标签(最后一列; 1 = relevant, 0 = irrelevant),如下所示:

index  name  component   label
0      A     pink        0
1      B     orange      1
2      C     yellow      1
3      D     red         0

此外,我有两个查询:query1query2。最初它们是两个字符串:"this is query 1""this is query 2"分别。

这里的事情是前两行文档(样本)用于,query1最后两行用于query2

我了解在转换为 libsvm 格式之前:

  • X必须是一个 numpy 数组,其中 4 个样本从index 一列到另一component
  • y必须是一个 numpy 数组,只有 4 个样本和label

这个对吗?我的疑问是:

  • query_id在这种情况下数组将如何?
  • 如何指示前两行是 for query1,最后两行是 for query2
4

0 回答 0