问题标签 [html-content-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
514 浏览

jquery - 如何获取使用jQuery提取的行的值

我有一张桌子,我正在通过这样做来检索每个表格行:

这让我得到了这样的当前行:

我接下来要完成的是删除 td 并获取介于两者之间的值并将它们放入数组中,但我无法做到这一点。有任何想法吗?

0 投票
3 回答
871 浏览

java - Java网络爬虫

Java 网络爬虫的最佳库是什么?我知道以下选择:

  1. HTML单元
  2. 路宝浏览器

我需要选择一个选项来为一个可扩展的项目构建刮板。

0 投票
3 回答
449 浏览

php - php从html页面中提取信息

我有这个代码

我怎样才能将信息提取到一个数组中,所以我有这样的东西..

注意:一次页面上可能有 3 个以上的项目,或者可能只有 1 个

0 投票
1 回答
1202 浏览

java - 如何使用jsp从网页中提取链接?

我的要求是动态地从网页中提取所有链接(使用“a href”)。 我正在使用JSP。更具体地说,我正在 JSP 中构建一个元搜索引擎。因此,当用户输入查询项时,我必须从 yahoo、ask、google、momma 等的搜索结果页面中提取链接。为了获取字符串格式的页面,我现在使用的代码是。

现在,我的要求是:您能建议一些从 String webPage 中提取链接的方法吗?还是有其他方法可以提取这些链接?我宁愿在不使用任何外部软件包的情况下这样做。

0 投票
2 回答
1463 浏览

php - 如何从 HTML 页面中提取文本块?

我想使用 PHP 从一个大型 HTML 页面中提取超过 100 个单词的文本块。文本是否包含在其中<p>...</p>并不重要。我只关心构成连贯文本块的单词数量,因此也应考虑 HTML 段落之外的文本。

如何才能做到这一点?

0 投票
4 回答
888 浏览

java - 在java中提取页面的主要部分

您好,我在维基百科中有一个个性页面,我想用 java 源代码从主要部分提取代码 HTML。

你有什么想法?

0 投票
3 回答
3170 浏览

c# - 用于下载 PDF 链接的屏幕抓取

我正在通过创建一个小程序来学习 C#,但找不到类似的帖子(如果这个答案发布在其他地方,我深表歉意)。

我如何从屏幕抓取网站以获取 PDF 链接(然后我可以将其下载到指定位置)?有时一个页面会有一个链接到另一个具有实际 PDF 链接的 HTML 页面,所以如果在第一页上找不到实际的 PDF,我希望它自动查找在“PDF”中包含“PDF”的链接链接的文本,然后在生成的 HTML 页面中搜索真正的 PDF 链接。

我知道我可能可以通过谷歌搜索文件类型来实现类似的东西,但这对我来说似乎是“作弊”:) 我宁愿学习如何在代码中做到这一点,但我不知道从哪里开始。我对使用 XElement 等进行 XML 解析有点熟悉,但我不确定如何从 HTML 页面(或其他格式?)获取链接。

谁能指出我正确的方向?谢谢!

0 投票
3 回答
18901 浏览

regex - 如何使用 RegEx 从 HTML 中提取值?

给定以下 HTML:

我想获取<span>元素内的值。我还想获取元素class属性的值。<span>

理想情况下,我可以通过一个函数运行一些 HTML,然后取回一个提取实体的字典(基于<span>上面定义的解析)。

上面的代码是一个较大的 HTML 源文件的片段,它无法与 XML 解析器相匹配。所以我正在寻找一个可能的正则表达式来帮助提取感兴趣的信息。

0 投票
1 回答
629 浏览

javascript - 如何从外部网页中提取特定文本?

我花了几个小时搜索和尝试,但没有取得多大成功......

我想知道如何从外部网页中提取特定数据,例如:

页面 -www.example.com/A/B/C 在页面内:

classA 和 classB 只出现在那里,我想要数据:Text1 + Text2

如果您能帮我解决这个问题(在 JavaScript 中),我将不胜感激!

0 投票
2 回答
1031 浏览

parsing - 从网页中提取数据

我正在做一个需要从网页中提取数据的学校项目。准确地说,我需要一个库或开源程序来从 html/文本数据中提取人类可读的内容。诸如网络浏览器之类的东西呈现文本内容。

我知道用正则表达式解析 html 是从中提取文本的最差方法。

额外信息:

我需要它来计算文本文档之间的相似性。

任何帮助,将不胜感激。谢谢