问题标签 [html-content-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
4445 浏览

python - Beautifulsoup 在表中获得价值

我正在尝试抓取 http://www.co.jefferson.co.us/ats/displaygeneral.do?sch=000104 并获取“所有者姓名”我所拥有的作品,但真的很丑而不是最好的我很确定,所以我正在寻找更好的方法。这是我所拥有的:

相关的 HTML 是

哇,有很多关于beautifulsoup 的问题,我浏览了它们,但没有找到对我有帮助的答案,希望这不是重复的问题

0 投票
4 回答
9988 浏览

php - 如何从原始 HTML 文件中提取数据?

有没有一种方法可以从原始 html 中提取所需的数据,该原始 html 是用 no IDsand无意义地编写的classes?我的意思是,假设有一个网页(个人资料)的已保存 html 文件,我想提取(比如)“爱好”之类的数据。是否可以使用 PHP 做到这一点?

0 投票
2 回答
133 浏览

html - 提取给定区域中的html元素?

给定一个由矩形和 url 定义的区域,有没有办法确定哪些元素位于给定 url 页面上的给定矩形内?

编辑:屏幕分辨率、字体大小等都可以设置为合理的默认值。

0 投票
3 回答
31738 浏览

html - 如何在 R 中读取和解析网页的内容

我想在 R 中阅读 URL(eq,http://www.haaretz.com/)的内容。我想知道我该怎么做

0 投票
5 回答
4267 浏览

c# - 使用 C# 抓取 HTTPS 屏幕

如何使用 C# 筛选抓取 HTTPS?

0 投票
1 回答
124 浏览

information-retrieval - 如何检索谷歌页面

亲爱的,我现在正在使用网络工具

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=

解析网页。

例如,我们可以解析 newyorktimes 主页,我们这样做:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html

在我们浏览器的地址栏中,它会很好地为我们解析。

然而,它只是失败的谷歌页面。例如,如果我想解析谷歌新闻头版,比如:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn

我总是会收到 500 内部服务器错误。

我确信这与谷歌网站有关,我想我们可能需要一些谷歌 API,有人知道如何为谷歌页面解决这个问题吗?非常感谢。

0 投票
10 回答
140110 浏览

python - BeautifulSoup 抓取可见网页文本

基本上,我想使用 BeautifulSoup 来严格抓取网页上的可见文本。例如,这个网页是我的测试用例。而且我主要想在这里和那里获取正文(文章)甚至一些选项卡名称。我已经尝试过这个SO question中的建议,它返回了很多<script>我不想要的标签和 html 注释。我无法弄清楚该函数所需的参数findAll()才能仅获取网页上的可见文本。

那么,我应该如何找到除脚本、评论、css 等之外的所有可见文本?

0 投票
2 回答
1681 浏览

screen-scraping - YQL 抓取整个网站/域

我正在尝试从域中收回一组链接和内容。

谷歌中的查询将是

我已经看到了一些让这个工作正常的东西,但我似乎无法在整个网站上进行搜索,然后按搜索词过滤。

如果没有自定义数据表,这可能吗?

0 投票
2 回答
1016 浏览

jquery - 关于 READABILITY 代码的 jQuery 等价物有什么想法吗?(或者:使用 jQuery 构建最好的启发式方法来查找正文)

http://lab.arc90.com/experiments/readability/是一个非常方便的工具,可以以非常易读的方式查看杂乱的报纸、期刊和博客页面。它通过使用一些启发式方法并找到网页的相关正文来做到这一点。它的源代码也可以在http://lab.arc90.com/experiments/readability/js/readability.js获得

我的一些同事引起了我的注意,因为我正在努力使用 jQuery 来获取任何报纸的“正文” | 期刊 | 博客 | 等网站。我当前的启发式(和 jQuery 中的实现)使用类似的东西(这是在 Firefox Jetpack 包中完成的):

所以它就像“去抓取 DIV 中的段落并检查不相关的字符串,如'script'”。我已经尝试过了,大多数时候它可以抓取网络文章的正文,但是我想要一个更好的启发式或者更好的 jQuery 选择机制(甚至更短?)。

你有更好的建议吗?

PS:也许“找到最里面的DIV(即没有任何DIV类型的子元素)并去抓住他们的

s only”对于我目前的目的来说是一个更好的启发式方法,但我不知道如何在 jQuery 中表达这一点。

0 投票
1 回答
1459 浏览

.net - 寻找 Webzinc .NET、屏幕抓取、.NET 的网络自动化库的免费替代品

我遇到了这个 .NET 库:

http://www.webzinc.com/online/faq.aspx

但是,我想知道那里是否有免费的替代品?