我有一个格式如下的 CSV 文件:
product_id1,product_title1
product_id2,product_title2
product_id3,product_title3
product_id4,product_title4
product_id5,product_title5
[...]
product_idX 是一个整数,product_titleX 是一个字符串,例如:
453478692, Apple iPhone 4 8Go
我正在尝试从我的文件中创建 TF-IDF,以便我可以将它用于 MLlib 中的朴素贝叶斯分类器。
到目前为止,我正在使用 Spark for Scala,并使用我在官方页面和 Berkley AmpCamp 3和4上找到的教程。
所以我正在阅读文件:
val file = sc.textFile("offers.csv")
然后我将它映射到元组中RDD[Array[String]]
val tuples = file.map(line => line.split(",")).cache
在我将元组转换成对之后RDD[(Int, String)]
val pairs = tuples.(line => (line(0),line(1)))
但是我被困在这里,我不知道如何从中创建 Vector 以将其转换为 TFIDF。
谢谢