问题标签 [html-content-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
713 浏览

c# - 从新闻网站中提取新闻链接

是否有任何可靠的方法来找出指向我们详细新闻页面的链接集合。换句话说,在访问网站的第一页后,我只想要那些引用新闻项目的链接。任何解决方案?

0 投票
2 回答
516 浏览

php - facebook如何提取链接的正确缩略图?

我想知道facebook如何从链接中提取文章的正确图片?他们会忽略任何图标、广告图片或其他不相关的图片,并为您提供正确的图片?

他们使用什么技术/方法?因为我尝试使用 php 正则表达式提取所有图像,但是如何找到正确的图像?

谢谢

0 投票
1 回答
1906 浏览

php - 如何在 PHP 中使用正则表达式提取 HTML 内容

我知道,我知道...正则表达式不是提取 HTML 文本的最佳方式。但是我需要从很多页面中提取文章文本,我可以将每个网站的正则表达式存储在数据库中。我不确定 XML 解析器如何与多个网站一起工作。您需要为每个网站提供单独的功能。

无论如何,我对正则表达式了解不多,所以请耐心等待。

我有一个类似于此格式的 HTML 页面

我需要提取 body 类容器的内容。

我试过这个。

我究竟做错了什么?我的文字最终出现在另一座城堡中。

*编辑:哦……没关系,我找到了可读性的代码

0 投票
6 回答
4895 浏览

javascript - Python 有什么类似于 readability.js 的吗?

我正在寻找一个包/模块/函数等,它大约是 Arc90 的 readability.js 的 Python 等价物

http://lab.arc90.com/experiments/readability

http://lab.arc90.com/experiments/readability/js/readability.js

这样我就可以给它一些 input.html 并且结果是该 html 页面的“主要文本”的清理版本。我想要这个,以便我可以在服务器端使用它(与仅在浏览器端运行的 JS 版本不同)。

有任何想法吗?

PS:我已经尝试过 Rhino + env.js 并且该组合有效,但性能无法接受,清理大部分 html 内容需要几分钟时间 :( (仍然找不到为什么会有如此大的性能差异)。

0 投票
3 回答
4564 浏览

html - 从 HTML (Delphi) 获取呈现的文本

我有一些 HTML,我需要从页面中提取实际的书面文本。

到目前为止,我已经尝试使用 Web 浏览器并呈现页面,然后转到文档属性并获取文本。这有效,但仅在支持浏览器的情况下(IE com 对象)。问题是我希望它也能够在 wine 下运行,所以我需要一个不使用 IE COM 的解决方案。

必须有一种合理的编程方式来做到这一点。

0 投票
1 回答
858 浏览

html - Xquery 使用标签解析文本

0 投票
2 回答
979 浏览

xml - 两个标签之间的 XQuery 提取

我目前正在从HTML. 我想提取两个<p class="xfHeading">标签之间的文本。

输出应该是:

asdfghjk

sdsdsd

asdvcvcfghjk

一种方法是:

或者

但是,由于两者之间的内容一直在变化,我需要一个解决方案,其中<p class="xfHeading">提取两个标签之间的内容。

0 投票
1 回答
615 浏览

php - 从包含 html 的变量中获取元素内容

如何使用 DOM 解析器提取变量中 html 元素的内容。

更准确地说:我有一个表单,用户在文本区域中输入 html。我想提取第一段的内容。

我知道有很多关于这方面的教程,但找不到任何关于从变量而不是文件(页面)中提取的内容

谢谢

0 投票
1 回答
1834 浏览

html - 如何使用 iframe 和 silverlight 为网站提取 html 代码

我需要从站点上具有多个图像的站点加载特定网页。我需要提取这些图像,但我无法手动执行此操作,因为每个图像的名称都没有模式,并且会有数百个站点。我有一个 Silverlight 应用程序来在 iframe 中加载网页,我打算提取该网页的 html,然后从提取的代码中检索每个图像的图像源,然后填充一个列表框。

我可以毫无问题地在 iframe 中加载网页,但我不知道如何检索网页的 html 代码。

0 投票
6 回答
1820 浏览

jquery - jQuery:从不同站点获取/解析内容

我想做以下事情:从多个站点获取新闻,使用 jQuery 选择器解析它们的内容并在一页上显示它们。

jQuery怎么能做到这一点?

谢谢。