问题标签 [html-content-extraction]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

209 问题

0 投票

5 回答

3567 浏览

python - 从 HTML 页面中提取内容（不包括导航）的 python 方法

当然，可以使用任意数量的 python 解析器来解析 HTML 页面，但令我惊讶的是，似乎没有任何公共解析脚本可以从给定的 HTML 文档中提取有意义的内容（不包括侧边栏、导航等） .

我猜这就像收集 DIV 和 P 元素，然后检查它们是否有最少的文本内容，但我确信一个可靠的实现将包括很多我没有想到的东西。

python html parsing semantics html-content-extraction

2009-04-28T06:40:28.507

0 投票

3 回答

95635 浏览

python - 使用 BeautifulSoup 查找包含特定文本的 HTML 标签

我正在尝试获取包含以下文本模式的 HTML 文档中的元素：#\S{11}

因此，前一个将通过使用匹配：

结果将是这样的：

我能够得到所有匹配的文本（见上一行）。但我希望文本的父元素匹配，所以我可以使用它作为遍历文档树的起点。在这种情况下，我希望所有 h2 元素都返回，而不是文本匹配。

想法？

python regex beautifulsoup html-content-extraction

2009-05-14T21:46:12.270

0 投票

2 回答

5887 浏览

html - 创建出色的解析器 - 从 HTML/博客中提取相关文本

我正在尝试创建一个在博客文章上运行良好的通用 HTML 解析器。我想将我的解析器指向特定条目的 URL 并取回帖子本身的干净文本。我的基本方法（来自 python）是使用 BeautifulSoup / Urllib2 的组合，这没关系，但它假设您知道博客条目的正确标签。有没有人有更好的想法？

这里有一些想法，也许有人可以扩展，我还没有足够的知识/诀窍来实施。

unix 程序“lynx”似乎特别擅长解析博客文章——他们使用什么解析器，或者如何使用它？
是否有任何服务/解析器可以自动删除垃圾广告等？
在这种情况下，我有一个模糊的概念，即博客文章通常包含在具有 class="entry" 或类似内容的某个定义标签中可能是一个可以接受的假设。因此，有可能创建一个算法来找到它们之间具有最干净文本的封闭标签 - 对此有什么想法吗？

谢谢！

html parsing text-parsing html-content-extraction

nartz

2009-07-18T07:27:45.763

0 投票

11 回答

30960 浏览

html - 解析和使用网站数据的“智能”方式？

如何智能解析页面搜索结果返回的数据？

例如，假设我想创建一个 Web 服务，通过解析许多图书提供商网站的搜索结果来搜索在线图书。我可以获取页面的原始 HTML 数据，并执行一些正则表达式以使数据适用于我的 Web 服务，但如果任何网站更改页面的格式，我的代码就会中断！

RSS 确实是一个了不起的选择，但是许多站点没有基于 XML/JSON 的搜索。

是否有任何工具包可以帮助在页面上自动传播信息？一个疯狂的想法是让一个模糊的 AI 模块识别搜索结果页面上的模式，并相应地解析结果......

html web-services parsing webpage html-content-extraction

2009-08-03T17:04:22.740

0 投票

4 回答

3101 浏览

asp.net - 从 HTML 正文中提取文本片段（在 .NET 中）

我有一个 HTML 内容，由用户通过富文本编辑器输入，因此它几乎可以是任何内容（除了那些不应该在 body 标签之外的内容，不用担心“head”或 doctype 等）。此内容的示例：

诀窍是，我只需要提取文本的前 100 个字符（去除 HTML 标记）。我还需要保留换行符，不要破坏任何单词。

所以上面的输出将是这样的：

它有 98 个字符，并保留了换行符。到目前为止，我可以实现的是使用 Regex 去除所有 HTML 标签：

然后使用正则表达式修剪长度：

我的问题是，如何保留换行符？我得到如下输出：

注意连接的句子？也许有人可以向我展示解决此问题的其他方法。谢谢！

附加信息：我的目的是从一堆 HTML 内容中生成纯文本概要。猜猜这将有助于澄清这个问题。

asp.net html regex string html-content-extraction

2009-08-06T04:10:13.480

0 投票

3 回答

2244 浏览

asp.net - 使用回发解析 .Net 页面

我需要从使用联合国的 aspx 页面显示的在线数据库中读取数据。我以前做过 HTML 解析，但它总是通过操作查询字符串值。在这种情况下，该站点使用 asp.net 回发。因此，您单击框一中的值，然后框二显示，单击框 2 中的值并单击按钮以获取结果。

有人知道我如何使该过程自动化吗？

谢谢，

麦克风

asp.net html parsing screen-scraping html-content-extraction

Mike

2009-08-07T16:38:51.177

0 投票

11 回答

264573 浏览

python - 提取正则表达式匹配的一部分

我想要一个正则表达式来从 HTML 页面中提取标题。目前我有这个：

是否有正则表达式可以仅提取 <title> 的内容，因此我不必删除标签？

python html regex html-content-extraction

2009-08-25T10:24:58.580

0 投票

2 回答

2937 浏览

php - PHP 中的 HTML 注释抓取

我一直在环顾四周，但还没有找到解决方案。我正在尝试抓取一个 HTML 文档并获取两个评论之间的文本，但是到目前为止还无法成功地做到这一点。

我正在使用 PHP，并且已经尝试过这里推荐的 PHP Simple DOM 解析器很多次，但似乎无法让它做我想做的事情。

这是我希望解析的页面（部分）：

谢谢

php html parsing screen-scraping html-content-extraction

2009-08-26T05:55:23.430

0 投票

8 回答

49759 浏览

java - 从 HTML Java 中提取文本

我正在开发一个下载 HTML 页面然后选择一些信息并将其写入另一个文件的程序。

我想提取段落标签之间的信息，但我只能得到段落的一行。我的代码如下；

我试图添加另一个while循环，它会告诉程序继续写入文件，直到该行包含</p>标签，通过说；

但这不起作用。有人可以帮忙吗。

java html screen-scraping html-content-extraction text-extraction

MajorMajor

2009-09-06T16:52:47.570

0 投票

4 回答

5800 浏览

html - 如何使用 Perl 有效地提取 HTML 内容？

我正在用 Perl 编写一个爬虫，它必须提取驻留在同一服务器上的网页内容。我目前正在使用HTML::Extract模块来完成这项工作，但我发现该模块有点慢，所以我查看了它的源代码，发现它没有为LWP::UserAgent使用任何连接缓存。

我最后的手段是获取HTML::Extract的源代码并修改它以使用缓存，但如果可以的话，我真的想避免这种情况。有谁知道可以更好地执行相同工作的任何其他模块？我基本上只需要获取<body>元素中的所有文本，并移除 HTML 标记。

html perl html-content-extraction

2009-09-11T08:53:47.660

1 2 3 4 5 6 7 8 9 10