问题标签 [html-content-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3712 浏览

java - 你在 Java 中推荐了哪些 HTML 解析库

我想解析一些 HTML 以找到一些属性/标签等的值。

你推荐什么 HTML 解析器?有什么优点和缺点吗?

0 投票
15 回答
500153 浏览

c# - 在 C# 中解析 html 的最佳方法是什么?

我正在寻找一种库/方法来解析具有比通用 xml 解析库更多的 html 特定功能的 html 文件。

0 投票
10 回答
10418 浏览

java - 你如何从网页(Java)中获取文本?

我打算编写一个简单的 J2SE 应用程序来聚合来自多个 Web 源的信息。

我认为,最困难的部分是从网页中提取有意义的信息,如果它不能作为 RSS 或 Atom 提要提供的话。例如,我可能想从 stackoverflow 中提取问题列表,但我绝对不需要那个巨大的标签云或导航栏。

你会建议什么技术/图书馆?

更新/备注

  • 速度并不重要——只要它可以在 10 分钟内解析大约 5MB 的 HTML。
  • 这真的很简单。
0 投票
10 回答
330669 浏览

php - 如何使用 php 从 html 中提取 img src、title 和 alt?

我想创建一个页面,其中列出了我网站上的所有图像以及标题和替代表示。

我已经给我写了一个小程序来查找和加载所有 HTML 文件,但现在我被困在如何从这个 HTML中提取和src提取:titlealt

我想这应该用一些正则表达式来完成,但由于标签的顺序可能会有所不同,而且我需要所有这些,我真的不知道如何以一种优雅的方式解析它(我可以通过char方式,但这很痛苦)。

0 投票
9 回答
22307 浏览

screen-scraping - 屏幕刮板如何工作?

我一直听到人们在编写这些程序,我知道他们在做什么,但他们实际上是如何做到的呢?我正在寻找一般概念。

0 投票
11 回答
54461 浏览

html - 从 HTML 中提取文本的正则表达式

我想从一般 HTML 页面中提取所有文本(显示或不显示)。

我想删除

  • 任何 HTML 标签
  • 任何 javascript
  • 任何 CSS 样式

是否有一个正则表达式(一个或多个)可以实现这一点?

0 投票
3 回答
2020 浏览

java - 从网页中剥离 HTML 并计算词频?

在 Groovy 中,如何抓取网页并移除 HTML 标签等,只留下文档的文本?我希望将结果转储到一个集合中,以便我可以构建一个词频计数器。

最后,让我再次提一下,我想在 Groovy 中执行此操作。

0 投票
5 回答
1921 浏览

html - 从 HTML 文档中抓取最大的文本块

我正在研究一种算法,该算法将在给定 HTML 文件的情况下尝试挑选出它认为最有可能包含页面大部分内容文本的父元素。例如,它将选择以下 HTML 中的 div“内容”:

我想出了一些想法,比如遍历 HTML 文档树到它的叶子,将文本的长度相加,并且只有在父级给我们的内容比子级多的情况下才能查看父级的其他文本。

有没有人尝试过这样的事情,或者知道可以应用的算法?它不必是可靠的,但只要它能够猜出包含大部分页面内容文本的容器(例如,对于文章或博客文章),那就太棒了。

0 投票
8 回答
19802 浏览

c# - C# - 解析网页的最佳方法?

我已经将整个网页的 html 保存到一个字符串中,现在我想从链接中获取“href”值,最好能够稍后将它们保存到不同的字符串中。最好的方法是什么?

我已经尝试将字符串保存为 .xml 文档并使用 XPathDocument 导航器对其进行解析,但是(令人惊讶的是)它不能很好地导航一个 not-really-an-xml-document。

正则表达式是实现我想要完成的最佳方式吗?

0 投票
3 回答
775 浏览

java - 从网站中提取信息

并非每个网站都能通过 XML 提要、API 等很好地公开他们的数据

我怎样才能从网站中提取信息?例如:

我来自使用 Apache XMLBeans 进行 Java 编程和编码的背景。当我知道结构和数据位于已知标记之间时,是否有任何类似于解析 HTML 的内容?

谢谢