我正在尝试学习一些机器学习,但不幸的是,无监督学习并没有很好地对待我,我希望 StackOverflow 的一些半监督学习能够帮助我!:)
我试图尽可能简单地从原始 HTML 中提取网页的主题。我拥有的是 10,000 个 HTML 文件的列表。我想在这个列表上运行一个程序,它将以 TSV 格式输出网页的 id(它的文件名)和网页的主题。
我已经查看了一些用于执行此操作的 API,并尝试使用 python 和 scikit-learn 来实现我自己的函数,但是,我确信有一些简单而有效的方法可以做到这一点,但我忽略了
我有的 :
Folder containing over 10,000.html files, labelled from 1 to 10,000.
我想要的是
运行的程序:
foreach(file in folder){
//Analyse HTML in file
//Predict topic from HTML (I believe this is called Latent Semantic Analysis).
//Write to next line of TSV "file\ttopic"
}
所以我们最终得到了一个 tsv 的形式
1 Recipe
2 Football
3 Technology
...
10,000 Television