问题标签 [html-content-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
17605 浏览

php - 使用 PHP 从 HTML 中提取数据

这是我要找的东西:

我有一个显示 HTML 格式数据的链接:

http://www.118.com/people-search.mvc...0&pageNumber=1

数据格式如下:

鸟约翰

56 Leathwaite 路伦敦
SW11
6RS 020 7228 5576

我希望我的 PHP 页面执行上面的 URL 并根据上面的标签从结果 HTML 页面中提取/解析数据为 h2=名称地址=地址电话号码=电话号码

并以表格格式显示它们。

我得到了这个,但它只显示 HTML 页面的 TEXT 格式,但在一定程度上有效:

0 投票
4 回答
1554 浏览

html - 如何从 HTML 中提取有意义的文本

我想解析一个 html 页面并从中提取有意义的文本。任何人都知道一些好的算法来做到这一点?

我在 Rails 上开发我的应用程序,但我认为 ruby​​ 在这方面有点慢,所以我认为如果在 c 中存在一些好的库,这将是合适的。

谢谢!!

PD:请不要用 java 推荐任何东西

更新:我找到了这个链接文本

可悲的是,在python中

0 投票
2 回答
1444 浏览

.net - Http Agility Pack - 访问兄弟姐妹?

使用 HTML Agility Pack 非常适合获取后代和整个表等...但是在以下情况下如何使用它

你怎么能找到如果在这种情况下英里小于 15,我不明白你可以对元素做一些事情,但你是否必须让所有元素找到正确的元素,然后找到数字只是为了检查它的值?或者有没有办法使用正则表达式和敏捷包来以更好的方式实现这一点......

0 投票
2 回答
3832 浏览

html - HTML 文章内容提取 - Alchemy API 替代方案

我一直在进行大量研究,以找出编写应用程序以从几乎任何 HTML 网页获取主要文章内容的最佳方法。我有一个使用 libxml2 解析 XML 的 C 程序,但我遇到了 Alchemy API,它似乎可以满足我的要求。

但是,它只有一个在线 API,我希望将应用程序保留在内部而不依赖任何外部调用。

那么有人有提示吗?我希望有一个离线替代方案可以完成 Alchemy API 可以做的事情(付费/非付费)。

我的替代方法可能是仅解析 HTML 并使用 NLP(自然语言处理)技术和其他方法来获取主要文章内容。它将使用的网站类型包括带有新闻部分或博客的网站。

0 投票
1 回答
1036 浏览

java - 从网页中提取通用文章

我将开始我的文章提取工作。

我将要做的任务是提取发布在不同网页上的酒店评论(例如1. http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html,2 . http://www.travelpod.com/hotel/Comfort_Suites_Sfo_Airport-San_Mateo.html )

我需要在 Java 中完成这项任务,而在过去的几个月里,我只是在使用 Java。

这是我关于这些的问题。

  1. 是否有可能以通用方式从不同的网页中单独提取评论。

  2. 请让我知道是否有任何 API 支持 Java 中的任务。

  3. 另外,请告诉我您的想法/来源,这将更有利于我完成上述任务。

更新

如果网上有任何相关示例,请发布相同的示例,因为这可能很有用。

0 投票
3 回答
430 浏览

iphone - iPhone:从检索到的网页的磁盘缓存中提取文本

我的 iPhone 应用程序有一个信息页面,其中包含一个 UIWebView,我已将其指向我网站的信息页面:

但是,每次用户加载应用程序时,他们都会看到一个空白屏幕,直到它获取数据。情况不妙。

显示最后加载的页面会好得多,同时尝试在后台获取新版本。但我看不出如何干净地做到这一点。有人可以让我开始吗?

第二个问题:对于 iPhone 来说,在 UIWebView 中显示这个网页是不切实际的,因为网页包含三个窗格;整个事情就是不适合。我真的很想从页面中提取文本。有什么干净的方法可以做到这一点吗?我可以指定我只想下载主体吗?

我猜整个页面会作为单个字符串返回,所以如果我在文本周围放置几个自制标签,这将简化手动提取文本......

0 投票
2 回答
1038 浏览

python - 提取维基百科文章的介绍部分,由 python

我想提取维基百科文章的介绍部分(忽略所有其他内容,包括表格、图像和其他部分)。我查看了文章的 html 源代码,但我没有看到这部分包含的任何特殊标签。

谁能给我一个快速的解决方案?我正在编写python脚本。

谢谢

0 投票
1 回答
1252 浏览

python - 有没有办法在 python 中使用可读性(文本提取算法)和自定义算法从文本中提取链接?

有没有办法在 python 中使用可读性(文本提取算法)和自定义算法从文本中提取链接?

我想找出一种提取文本正文中链接的方法。

1.) 我在 python https://github.com/gfxmonk/python-readability中使用可读性

2.) 我想以某种方式将提取的文本与原始 html 文本进行比较,以便在文章的实际正文中提取链接。

0 投票
1 回答
4842 浏览

javascript - 如何从网页上的所有嵌入视频中获取链接?

让我解释。我想要做的是,给定某个网页,我想计算有多少嵌入式视频及其链接。

我不是要代码本身,而是要一些关于如何实现它的信息。

0 投票
4 回答
7014 浏览

php - 使用 PHP 提取 HTML 文档的正文

我知道为此目的使用 DOM 更好,但让我们尝试以这种方式提取文本:

结果可以在这里看到:http: //ideone.com/vH2FZ

如您所见,我收到的文本比预期的要多。

有些东西我不明白,为了获得正确的substr($string, $start, $length)函数长度,我正在使用:

我看不出这个公式有什么问题。

有人可以建议问题出在哪里吗?

非常感谢大家。

编辑:

非常非常感谢大家。我脑子里只有一个错误。阅读您的答案后,我现在了解问题所在,应该是:

或者: