问题标签 [html-content-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
jquery - 如何获取使用jQuery提取的行的值
我有一张桌子,我正在通过这样做来检索每个表格行:
这让我得到了这样的当前行:
我接下来要完成的是删除 td 并获取介于两者之间的值并将它们放入数组中,但我无法做到这一点。有任何想法吗?
java - Java网络爬虫
Java 网络爬虫的最佳库是什么?我知道以下选择:
- 硒
- HTML单元
- 路宝浏览器
我需要选择一个选项来为一个可扩展的项目构建刮板。
php - php从html页面中提取信息
我有这个代码
我怎样才能将信息提取到一个数组中,所以我有这样的东西..
注意:一次页面上可能有 3 个以上的项目,或者可能只有 1 个
java - 如何使用jsp从网页中提取链接?
我的要求是动态地从网页中提取所有链接(使用“a href”)。 我正在使用JSP。更具体地说,我正在 JSP 中构建一个元搜索引擎。因此,当用户输入查询项时,我必须从 yahoo、ask、google、momma 等的搜索结果页面中提取链接。为了获取字符串格式的页面,我现在使用的代码是。
现在,我的要求是:您能建议一些从 String webPage 中提取链接的方法吗?还是有其他方法可以提取这些链接?我宁愿在不使用任何外部软件包的情况下这样做。
php - 如何从 HTML 页面中提取文本块?
我想使用 PHP 从一个大型 HTML 页面中提取超过 100 个单词的文本块。文本是否包含在其中<p>...</p>
并不重要。我只关心构成连贯文本块的单词数量,因此也应考虑 HTML 段落之外的文本。
如何才能做到这一点?
java - 在java中提取页面的主要部分
您好,我在维基百科中有一个个性页面,我想用 java 源代码从主要部分提取代码 HTML。
你有什么想法?
c# - 用于下载 PDF 链接的屏幕抓取
我正在通过创建一个小程序来学习 C#,但找不到类似的帖子(如果这个答案发布在其他地方,我深表歉意)。
我如何从屏幕抓取网站以获取 PDF 链接(然后我可以将其下载到指定位置)?有时一个页面会有一个链接到另一个具有实际 PDF 链接的 HTML 页面,所以如果在第一页上找不到实际的 PDF,我希望它自动查找在“PDF”中包含“PDF”的链接链接的文本,然后在生成的 HTML 页面中搜索真正的 PDF 链接。
我知道我可能可以通过谷歌搜索文件类型来实现类似的东西,但这对我来说似乎是“作弊”:) 我宁愿学习如何在代码中做到这一点,但我不知道从哪里开始。我对使用 XElement 等进行 XML 解析有点熟悉,但我不确定如何从 HTML 页面(或其他格式?)获取链接。
谁能指出我正确的方向?谢谢!
regex - 如何使用 RegEx 从 HTML 中提取值?
给定以下 HTML:
我想获取<span>
元素内的值。我还想获取元素class
属性的值。<span>
理想情况下,我可以通过一个函数运行一些 HTML,然后取回一个提取实体的字典(基于<span>
上面定义的解析)。
上面的代码是一个较大的 HTML 源文件的片段,它无法与 XML 解析器相匹配。所以我正在寻找一个可能的正则表达式来帮助提取感兴趣的信息。
javascript - 如何从外部网页中提取特定文本?
我花了几个小时搜索和尝试,但没有取得多大成功......
我想知道如何从外部网页中提取特定数据,例如:
页面 -www.example.com/A/B/C
在页面内:
classA 和 classB 只出现在那里,我想要数据:Text1 + Text2
如果您能帮我解决这个问题(在 JavaScript 中),我将不胜感激!
parsing - 从网页中提取数据
我正在做一个需要从网页中提取数据的学校项目。准确地说,我需要一个库或开源程序来从 html/文本数据中提取人类可读的内容。诸如网络浏览器之类的东西呈现文本内容。
我知道用正则表达式解析 html 是从中提取文本的最差方法。
额外信息:
我需要它来计算文本文档之间的相似性。
任何帮助,将不胜感激。谢谢