我必须从一些文本文件创建一个数据集,将它们写为特征向量。
像这样的东西:
doc1: 1,0.45 6,0.001 94,0.1 ...
doc2: 3,0.5 98,0.2 ...
...
向量的每个位置代表一个词,分数由 TF-IDF 之类的东西给出。
你知道一些图书馆/工具/什么吗?(java更好)
我必须从一些文本文件创建一个数据集,将它们写为特征向量。
像这样的东西:
doc1: 1,0.45 6,0.001 94,0.1 ...
doc2: 3,0.5 98,0.2 ...
...
向量的每个位置代表一个词,分数由 TF-IDF 之类的东西给出。
你知道一些图书馆/工具/什么吗?(java更好)
几天后,我找到了“完美的工具”:Word Vector Tool。 http://sourceforge.net/projects/wvtool/
木槌。包括TF-IDF、POS、分类。