我正在做一个需要从网页中提取数据的学校项目。准确地说,我需要一个库或开源程序来从 html/文本数据中提取人类可读的内容。诸如网络浏览器之类的东西呈现文本内容。
我知道用正则表达式解析 html 是从中提取文本的最差方法。
额外信息:
我需要它来计算文本文档之间的相似性。
任何帮助,将不胜感激。谢谢
我正在做一个需要从网页中提取数据的学校项目。准确地说,我需要一个库或开源程序来从 html/文本数据中提取人类可读的内容。诸如网络浏览器之类的东西呈现文本内容。
我知道用正则表达式解析 html 是从中提取文本的最差方法。
额外信息:
我需要它来计算文本文档之间的相似性。
任何帮助,将不胜感激。谢谢
我强烈推荐这个问题的第一个答案,以使您远离使用正则表达式解析 HTML。这个答案比我能更好地说明为什么你不应该这样做,所以我尊重这一点。
您还会发现您应该研究 XML 解析器,而不是尝试通过正则表达式“手动解析”(您将在引用的问题及其答案中阅读)。
如果您只关心文本相似性,您可以编写一个正则表达式来删除表单的所有 HTML 标记</?(every|single|valid|tag)[^>]*>
(可能首先删除所有<script>.*</script>
标记),然后将所有内容混合成一个很长的段落。这根本不是一个正则表达式的错误使用。这就是他们的目的。
我可能会推荐http://docs.python.org/library/xml.dom.minidom.html,但恕我直言界面可能非常尴尬。此外,您不需要访问层次结构,只需访问文本即可。否则解析器会比正则表达式更好(否则这将是一个糟糕的主意)。