您的问题中有很多内容。我将尝试为您提供一个库,否则会向您推荐可以解决您的任务的算法(您可以使用 Google 搜索,您将获得许多 python 实现)
第 1 点。要从 html (http://nltk.googlecode.com/svn/trunk/doc/book/ch03.html) 中提取主要内容以及其他与 NLP 相关的内容,您可以查看 NLTK。它是用 Python 编写的。您还可以查看一个名为 BeautifulSoup 的库,它很棒 (http://www.crummy.com/software/BeautifulSoup/)
第 2 点。当你说:
一旦我有两个提取的内容,我想返回一个介于 0 和 1 之间的分数,表示它们有多相似......
为此,我建议您可以使用任何无监督学习聚类技术来聚类您的文档集。由于您的问题属于基于距离度量的聚类,因此您应该很容易对相似的文档进行聚类,然后根据它们与聚类质心的相似性为它们分配分数。尝试 K-Means 或自适应共振理论。在后者中,您不需要提前定义集群的数量。或者,正如 larsman 在他的评论中指出的那样,您可以简单地使用 TF-IDF (http://www.miislita.com/term-vector/term-vector-3.html)
第 3 点。当你说:
基本上,我正在寻找自动摘要、关键字提取、命名实体识别和情感分析的组合
对于自动总结,使用非负矩阵分解
对于关键字提取,使用 NLTK
对于命名实体识别,使用 NLTK
对于情绪分析,使用 NLTK