python - 从网页中提取主题

翻译自：https://stackoverflow.com/questions/20459063 2013-12-08T21:04:50.793

160 次

我正在尝试学习一些机器学习，但不幸的是，无监督学习并没有很好地对待我，我希望 StackOverflow 的一些半监督学习能够帮助我！:)

我试图尽可能简单地从原始 HTML 中提取网页的主题。我拥有的是 10,000 个 HTML 文件的列表。我想在这个列表上运行一个程序，它将以 TSV 格式输出网页的 id（它的文件名）和网页的主题。

我已经查看了一些用于执行此操作的 API，并尝试使用 python 和 scikit-learn 来实现我自己的函数，但是，我确信有一些简单而有效的方法可以做到这一点，但我忽略了

我有的：

Folder containing over 10,000.html files, labelled from 1 to 10,000.

我想要的是

运行的程序：

foreach(file in folder){
   //Analyse HTML in file
   //Predict topic from HTML (I believe this is called Latent Semantic Analysis).
   //Write to next line of TSV "file\ttopic" 
}

所以我们最终得到了一个 tsv 的形式

1   Recipe
2   Football
3   Technology
...
10,000   Television

python - 从网页中提取主题

0 回答 0

Related

Reference