问题标签 [html-content-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
3567 浏览

python - 从 HTML 页面中提取内容(不包括导航)的 python 方法

当然,可以使用任意数量的 python 解析器来解析 HTML 页面,但令我惊讶的是,似乎没有任何公共解析脚本可以从给定的 HTML 文档中提取有意义的内容(不包括侧边栏、导航等) .

我猜这就像收集 DIV 和 P 元素,然后检查它们是否有最少的文本内容,但我确信一个可靠的实现将包括很多我没有想到的东西。

0 投票
3 回答
95635 浏览

python - 使用 BeautifulSoup 查找包含特定文本的 HTML 标签

我正在尝试获取包含以下文本模式的 HTML 文档中的元素:#\S{11}

因此,前一个将通过使用匹配:

结果将是这样的:

我能够得到所有匹配的文本(见上一行)。但我希望文本的父元素匹配,所以我可以使用它作为遍历文档树的起点。在这种情况下,我希望所有 h2 元素都返回,而不是文本匹配。

想法?

0 投票
2 回答
5887 浏览

html - 创建出色的解析器 - 从 HTML/博客中提取相关文本

我正在尝试创建一个在博客文章上运行良好的通用 HTML 解析器。我想将我的解析器指向特定条目的 URL 并取回帖子本身的干净文本。我的基本方法(来自 python)是使用 BeautifulSoup / Urllib2 的组合,这没关系,但它假设您知道博客条目的正确标签。有没有人有更好的想法?

这里有一些想法,也许有人可以扩展,我还没有足够的知识/诀窍来实施。

  1. unix 程序“lynx”似乎特别擅长解析博客文章——他们使用什么解析器,或者如何使用它?

  2. 是否有任何服务/解析器可以自动删除垃圾广告等?

  3. 在这种情况下,我有一个模糊的概念,即博客文章通常包含在具有 class="entry" 或类似内容的某个定义标签中可能是一个可以接受的假设。因此,有可能创建一个算法来找到它们之间具有最干净文本的封闭标签 - 对此有什么想法吗?

谢谢!

0 投票
11 回答
30960 浏览

html - 解析和使用网站数据的“智能”方式?

如何智能解析页面搜索结果返回的数据?

例如,假设我想创建一个 Web 服务,通过解析许多图书提供商网站的搜索结果来搜索在线图书。我可以获取页面的原始 HTML 数据,并执行一些正则表达式以使数据适用于我的 Web 服务,但如果任何网站更改页面的格式,我的代码就会中断!

RSS 确实是一个了不起的选择,但是许多站点没有基于 XML/JSON 的搜索。

是否有任何工具包可以帮助在页面上自动传播信息?一个疯狂的想法是让一个模糊的 AI 模块识别搜索结果页面上的模式,并相应地解析结果......

0 投票
4 回答
3101 浏览

asp.net - 从 HTML 正文中提取文本片段(在 .NET 中)

我有一个 HTML 内容,由用户通过富文本编辑器输入,因此它几乎可以是任何内容(除了那些不应该在 body 标签之外的内容,不用担心“head”或 doctype 等)。此内容的示例:

诀窍是,我只需要提取文本的前 100 个字符(去除 HTML 标记)。我还需要保留换行符,不要破坏任何单词。

所以上面的输出将是这样的:

它有 98 个字符,并保留了换行符。到目前为止,我可以实现的是使用 Regex 去除所有 HTML 标签:

然后使用正则表达式修剪长度:

我的问题是,如何保留换行符?我得到如下输出:

注意连接的句子?也许有人可以向我展示解决此问题的其他方法。谢谢!

附加信息:我的目的是从一堆 HTML 内容中生成纯文本概要。猜猜这将有助于澄清这个问题。

0 投票
3 回答
2244 浏览

asp.net - 使用回发解析 .Net 页面

我需要从使用联合国的 aspx 页面显示的在线数据库中读取数据。我以前做过 HTML 解析,但它总是通过操作查询字符串值。在这种情况下,该站点使用 asp.net 回发。因此,您单击框一中的值,然后框二显示,单击框 2 中的值并单击按钮以获取结果。

有人知道我如何使该过程自动化吗?

谢谢,

麦克风

0 投票
11 回答
264573 浏览

python - 提取正则表达式匹配的一部分

我想要一个正则表达式来从 HTML 页面中提取标题。目前我有这个:

是否有正则表达式可以仅提取 <title> 的内容,因此我不必删除标签?

0 投票
2 回答
2937 浏览

php - PHP 中的 HTML 注释抓取

我一直在环顾四周,但还没有找到解决方案。我正在尝试抓取一个 HTML 文档并获取两个评论之间的文本,但是到目前为止还无法成功地做到这一点。

我正在使用 PHP,并且已经尝试过这里推荐的 PHP Simple DOM 解析器很多次,但似乎无法让它做我想做的事情。

这是我希望解析的页面(部分):

谢谢

0 投票
8 回答
49759 浏览

java - 从 HTML Java 中提取文本

我正在开发一个下载 HTML 页面然后选择一些信息并将其写入另一个文件的程序。

我想提取段落标签之间的信息,但我只能得到段落的一行。我的代码如下;

我试图添加另一个while循环,它会告诉程序继续写入文件,直到该行包含</p>标签,通过说;

但这不起作用。有人可以帮忙吗。

0 投票
4 回答
5800 浏览

html - 如何使用 Perl 有效地提取 HTML 内容?

我正在用 Perl 编写一个爬虫,它必须提取驻留在同一服务器上的网页内容。我目前正在使用HTML::Extract模块来完成这项工作,但我发现该模块有点慢,所以我查看了它的源代码,发现它没有为LWP::UserAgent使用任何连接缓存。

我最后的手段是获取HTML::Extract的源代码并修改它以使用缓存,但如果可以的话,我真的想避免这种情况。有谁知道可以更好地执行相同工作的任何其他模块?我基本上只需要获取<body>元素中的所有文本,并移除 HTML 标记。