问题标签 [html-content-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
4716 浏览

java - Possible to parse a HTML document and build a DOM tree(java)

Is it possible and what tools could be used to parse an html document as a string or from a file and then to construct a DOM tree so that a developer can walk the tree through some API.

For example:

Note: this is a HTML document not XHtml.

0 投票
4 回答
1527 浏览

parsing - 寻找信息检索/文本挖掘应用程序或库

我们从电子邮件中提取各种信息 - 航班、汽车租赁、酒店等。方法是提取邮件的正文,通常是 HTML 格式,但有时是文本,或者我们使用 PDF/Word/RTF 附件中的信息。然后,我们应用正则表达式(有时分几个步骤)以获取以表格形式提供的信息(您可以想到航班表、酒店表等)。请注意,即使我们解析 HTML,这也不是网络抓取。

目前我们正在使用 QL2 的 WebQL 引擎,但出于商业原因,我们正在寻求替换它。你能推荐其他引擎吗?它必须在 Linux 上运行并且可以从 Java 访问(Java API 是最好的,但 Web 服务也是很好的解决方案)。它还必须支持用于文本提取的正则表达式,而不仅仅是基于 HTML 结构。

0 投票
5 回答
3696 浏览

php - 如何使用 PHP 从 HTML 文件中提取所有文本?

如何从HTML文件中提取所有文本

我想提取所有文本,在 alt 属性、<p> 标签等中。

但是我不想提取样式和脚本标签之间的文本

谢谢

现在我有以下代码

这很好用,但它检索我不想检索的脚本和样式标签,另一个问题我不确定它是否检索像 alt 这样的属性 - 因为 strip_tags 函数可能会删除所有 HTML 标签及其属性

谢谢

0 投票
3 回答
1951 浏览

python - 用于从格式错误的 html 页面中提取文本的 Python 策略

我正在尝试从任意 html 页面中提取文本。一些页面(我无法控制)有格式错误的 html 或脚本,这使得这很困难。此外,我在共享托管环境中,所以我可以安装任何 python 库,但我不能只在服务器上安装我想要的任何东西。

pyparsing 和 html2text.py 似乎也不适用于格式错误的 html 页面。

示例 URL 为http://apnews.myway.com/article/20091015/D9BB7CGG1.html

我目前的实现大致如下:

如果 beautifulsoup 仍然不起作用,那么我求助于使用启发式方法来查看第一个字符,最后一个字符(看看它们是否看起来像它的代码行 # < ; 并对该行进行采样,然后检查令牌是英文单词或数字。如果很少有标记是单词或数字,那么我猜该行是代码。

我可以使用机器学习来检查每一行,但这似乎有点贵,而且我可能必须对其进行训练(因为我对无监督学习机器了解不多),当然也要编写它。

任何建议、工具、策略都将受到欢迎。我还意识到,后半部分相当混乱,因为如果我得到一个确定包含代码的行,我目前会丢弃整行,即使该行中有少量实际的英文文本。

0 投票
3 回答
1975 浏览

html - 通过排除导航和 chrome 内容从 HTML 页面中提取纯内容/文本

我正在爬取新闻网站,想提取新闻标题、新闻摘要(第一段)等

我插入了 webkit 解析器代码,以轻松地将网页作为树导航。为了消除导航和其他非新闻内容,我采用了文章的文本版本(减去 html 标签,webkit 提供了相同的 api)。然后我运行 diff 算法比较来自同一网站的各种文章的文本,这导致相似的文本被消除。这给了我内容减去常见的导航内容等。

尽管采用了上述方法,但我的最终文本中仍然有些垃圾。这会导致提取不正确的新闻摘要。错误率为 10 篇文章中有 5 篇,即 50%。错误如

你可以吗

  1. 建议提取纯内容的替代策略,

  2. 学习自然语言处理是否有助于从这些文章中提取正确的摘要?

  3. 您将如何解决上述问题?

  4. 这些研究论文是否相同?

问候

安库尔古普塔

0 投票
7 回答
1771 浏览

perl - 编写可维护的网络抓取应用程序的最佳方法是什么?

不久前我写了一个 perl 脚本,它登录到我的网上银行,每天通过电子邮件将我的余额和一个小报表发给我。我发现它对于跟踪我的财务状况非常有用。唯一的问题是我只使用 perl 和 curl 编写它,它非常复杂且难以维护。在我的银行更改了他们的网页的几次实例之后,我厌倦了调试它以使其保持最新状态。

那么以易于维护的方式编写这样的程序的最佳方法是什么?我想用 Perl 或 Java 编写一个设计良好的版本,当银行不可避免地摆弄他们的网站时,它很容易更新。

0 投票
3 回答
3347 浏览

caching - 如何以编程方式保存网页?

我想以编程方式保存网页。

我的意思不仅仅是保存 HTML。我还想自动存储所有相关文件(图像、CSS 文件,可能是嵌入的 SWF 等),并希望重写链接以供本地浏览。

预期用途是个人书签应用程序,其中链接内容被缓存以防原始副本被删除。

0 投票
3 回答
2868 浏览

php - 从 wsj.com 或 finance.yahoo.com 抓取

我想在 wordpress 页面上显示过去 2 周纽约证券交易所开市的股票总交易量。这样做的最佳方法是什么?

0 投票
2 回答
5334 浏览

python - BeautifulSoup - 获取无 HTML 内容的简单方法

我正在使用此代码在页面中查找所有有趣的链接:

它的工作做得很好。不幸的是,在这个标签里面有很多嵌套的标签,比如fontb和不同的东西......我只想得到文本内容,没有任何其他 html 标签。

链接示例:

当然它很丑(而且标记并不总是一样的!)我想得到:

在文档中说要text=True在 findAll 方法中使用,但它会忽略我的正则表达式。为什么?我该如何解决?

0 投票
7 回答
3837 浏览

python - Python HTML 抓取

这并不是真正的抓取,我只是想在类具有特定值的网页中找到 URL。例如:

我想获得 href 值。关于如何做到这一点的任何想法?也许正则表达式?你能发布一些示例代码吗?我猜想html抓取库,比如BeautifulSoup,只是为了这个有点矫枉过正......

非常感谢!