问题标签 [html-content-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 从 HTML 页面中提取内容(不包括导航)的 python 方法
当然,可以使用任意数量的 python 解析器来解析 HTML 页面,但令我惊讶的是,似乎没有任何公共解析脚本可以从给定的 HTML 文档中提取有意义的内容(不包括侧边栏、导航等) .
我猜这就像收集 DIV 和 P 元素,然后检查它们是否有最少的文本内容,但我确信一个可靠的实现将包括很多我没有想到的东西。
python - 使用 BeautifulSoup 查找包含特定文本的 HTML 标签
我正在尝试获取包含以下文本模式的 HTML 文档中的元素:#\S{11}
因此,前一个将通过使用匹配:
结果将是这样的:
我能够得到所有匹配的文本(见上一行)。但我希望文本的父元素匹配,所以我可以使用它作为遍历文档树的起点。在这种情况下,我希望所有 h2 元素都返回,而不是文本匹配。
想法?
html - 创建出色的解析器 - 从 HTML/博客中提取相关文本
我正在尝试创建一个在博客文章上运行良好的通用 HTML 解析器。我想将我的解析器指向特定条目的 URL 并取回帖子本身的干净文本。我的基本方法(来自 python)是使用 BeautifulSoup / Urllib2 的组合,这没关系,但它假设您知道博客条目的正确标签。有没有人有更好的想法?
这里有一些想法,也许有人可以扩展,我还没有足够的知识/诀窍来实施。
unix 程序“lynx”似乎特别擅长解析博客文章——他们使用什么解析器,或者如何使用它?
是否有任何服务/解析器可以自动删除垃圾广告等?
在这种情况下,我有一个模糊的概念,即博客文章通常包含在具有 class="entry" 或类似内容的某个定义标签中可能是一个可以接受的假设。因此,有可能创建一个算法来找到它们之间具有最干净文本的封闭标签 - 对此有什么想法吗?
谢谢!
html - 解析和使用网站数据的“智能”方式?
如何智能解析页面搜索结果返回的数据?
例如,假设我想创建一个 Web 服务,通过解析许多图书提供商网站的搜索结果来搜索在线图书。我可以获取页面的原始 HTML 数据,并执行一些正则表达式以使数据适用于我的 Web 服务,但如果任何网站更改页面的格式,我的代码就会中断!
RSS 确实是一个了不起的选择,但是许多站点没有基于 XML/JSON 的搜索。
是否有任何工具包可以帮助在页面上自动传播信息?一个疯狂的想法是让一个模糊的 AI 模块识别搜索结果页面上的模式,并相应地解析结果......
asp.net - 从 HTML 正文中提取文本片段(在 .NET 中)
我有一个 HTML 内容,由用户通过富文本编辑器输入,因此它几乎可以是任何内容(除了那些不应该在 body 标签之外的内容,不用担心“head”或 doctype 等)。此内容的示例:
诀窍是,我只需要提取文本的前 100 个字符(去除 HTML 标记)。我还需要保留换行符,不要破坏任何单词。
所以上面的输出将是这样的:
它有 98 个字符,并保留了换行符。到目前为止,我可以实现的是使用 Regex 去除所有 HTML 标签:
然后使用正则表达式修剪长度:
我的问题是,如何保留换行符?我得到如下输出:
注意连接的句子?也许有人可以向我展示解决此问题的其他方法。谢谢!
附加信息:我的目的是从一堆 HTML 内容中生成纯文本概要。猜猜这将有助于澄清这个问题。
asp.net - 使用回发解析 .Net 页面
我需要从使用联合国的 aspx 页面显示的在线数据库中读取数据。我以前做过 HTML 解析,但它总是通过操作查询字符串值。在这种情况下,该站点使用 asp.net 回发。因此,您单击框一中的值,然后框二显示,单击框 2 中的值并单击按钮以获取结果。
有人知道我如何使该过程自动化吗?
谢谢,
麦克风
python - 提取正则表达式匹配的一部分
我想要一个正则表达式来从 HTML 页面中提取标题。目前我有这个:
是否有正则表达式可以仅提取 <title> 的内容,因此我不必删除标签?
php - PHP 中的 HTML 注释抓取
我一直在环顾四周,但还没有找到解决方案。我正在尝试抓取一个 HTML 文档并获取两个评论之间的文本,但是到目前为止还无法成功地做到这一点。
我正在使用 PHP,并且已经尝试过这里推荐的 PHP Simple DOM 解析器很多次,但似乎无法让它做我想做的事情。
这是我希望解析的页面(部分):
谢谢
java - 从 HTML Java 中提取文本
我正在开发一个下载 HTML 页面然后选择一些信息并将其写入另一个文件的程序。
我想提取段落标签之间的信息,但我只能得到段落的一行。我的代码如下;
我试图添加另一个while循环,它会告诉程序继续写入文件,直到该行包含</p>
标签,通过说;
但这不起作用。有人可以帮忙吗。
html - 如何使用 Perl 有效地提取 HTML 内容?
我正在用 Perl 编写一个爬虫,它必须提取驻留在同一服务器上的网页内容。我目前正在使用HTML::Extract模块来完成这项工作,但我发现该模块有点慢,所以我查看了它的源代码,发现它没有为LWP::UserAgent使用任何连接缓存。
我最后的手段是获取HTML::Extract
的源代码并修改它以使用缓存,但如果可以的话,我真的想避免这种情况。有谁知道可以更好地执行相同工作的任何其他模块?我基本上只需要获取<body>
元素中的所有文本,并移除 HTML 标记。