问题标签 [html-content-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
9116 浏览

c# - 对于此示例,如何使用 htmlagilitypack 从 HTML 中提取文本?

我想从 HTML 源中提取文本。我正在尝试使用 c# 和 htmlagilitypack dll。

来源是:

如何从表格中获取文本 Here 1 和 Here 2?

0 投票
1 回答
60 浏览

ajax - 延迟后读取网页内容

完全加载后,有什么方法可以读取网页的内容。我必须从网站上读取价格并将它们存储在我的数据库中。但是网站中的价格是通过 ajax 加载的。结果,我只得到“加载”而不是值。一旦文件完全加载,有什么方法可以提取内容。

等待回复...

0 投票
2 回答
1676 浏览

html-content-extraction - 绕过推荐检查

有什么方法可以绕过某些站点应用的推荐检查,以避免提取那里的数据。就像您点击此链接一样!

您将收到拒绝访问错误。然而,如果你只是去这个链接!,它会带你到主页并在填写任何报价时说 ABAN,它遵循与上面使用的链接完全相同的 GET 请求。

谁能给我一些解决方案??

0 投票
1 回答
675 浏览

regex - 从 HTML 中提取宽度或高度高于指定值的所有图像 - 正则表达式

我正在尝试使用LinkedIn 或Facebook 等Classic ASP 制作一个小链接共享功能。

我需要做的是获取远程 URL 的 HTML 并提取所有宽度大于 50px 的图像。

我可以抓取并获取 HTML,也可以使用这个正则表达式找到图像:

<img([^<>+]*)>

它匹配;<img src="/images/icon.jpg" width="60" height="90" style="display:none"/>

然后我可以提取路径,但有时它匹配<img src="/track.php" style="display:none" width="1" height="1"/>的不是真实图像。

无论如何,我觉得你会因为经典的 ASP 而生气,但我的公司....

我知道有很多关于这个问题的主题,而且大多数情况下,他们建议不要使用正则表达式,但我找不到使用经典 asp 的方法。这是否有组件或其他东西?

问候

0 投票
1 回答
1255 浏览

php - php,get之间的函数改进-添加数组支持

我有一个函数可以提取两个字符串之间的内容。我用它来提取 html 标签之间的特定信息。然而,它目前只能提取第一个匹配项,所以我想知道是否有可能以这种方式改进它以提取所有匹配项并将它们提供在一个数组中......类似于 preg_match_all 函数。

0 投票
2 回答
1798 浏览

html-content-extraction - HTTPBuilder - 如何获取网页的 HTML 内容?

我需要提取我在 groovy 中使用 HTTPuilder 的网页的 HTML,得到以下内容:

我得到的响应不包含我在探索 www.google.com/search 的 html 源时可以看到的相同 html。事实上,它既不是 html,也不包含我可以在页面的 html 源代码中看到的相同信息。我试过设置不同的标题(例如,headers.Accept = 'text/html,application/xhtml+xml,application/xml;q=0.9, / ;q=0.8', headers.Accept = 'text/html' ,设置用户代理等),但结果是一样的。如何使用 http builder 获取 www.google.com/search(或任何网页)的 html?

0 投票
2 回答
151 浏览

rss - 如何找到特定新闻源的提要或 XML

我想获取特定新闻源的 xml 文件,如果有任何项目将 html 新闻转换为 xml,解析页面并在单个 xml 或类似文件中标记其各种特征,例如日期、作者姓名、标题、内容等文件类型。例如看这个链接: http ://daily.bhaskar.com/article/NAT-TOP-yeddyurappa-breaks-venkaiah-naidus-laptop-slaps-minister-reports-2318460.html 如何提取内容、作者、日期等从这个网页。或者,如果我能找到这个网页的提要,我可以轻松地做到这一点。但是我该如何搜索。

0 投票
1 回答
575 浏览

c# - Non mshtml c# parsing html and javascript

I'm looking for a way to parse a html document with javascript embedded. I know that this can be done with MSHTML and code DOM, but in this case it is not an option. I need the program to be also able to run on Mono. Any suggestions?

0 投票
2 回答
3303 浏览

java - 如何使用 java/jsp 从 Web 表单中的特定下拉框中提取值列表

我想提取 Web 表单中特定下拉列表框的所有值。

在此 Web 表单的源代码中,此特定下拉列表的相关代码如下 -

我想提取实际值(即 option ... value="" )以及屏幕上显示的值(即 option label="" )...这可以在 JSP/Java 中完成吗?理想情况下只使用 Google App Engine 支持的类?(即使您可以建议一种方法来执行此操作,但不确定 Google App Engine for Java 是否支持该方法,即使如此,请建议您的方法...)

0 投票
3 回答
2486 浏览

regex - 正则表达式更改标签之间的文本

我在以下布局中有一些代码,我使用 textcrawler 进行查找和替换

...

现在的问题是我需要使用什么正则表达式来删除第二个代码块<a> and </a>