问题标签 [html-content-extraction]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

209 问题

0 投票

3 回答

4445 浏览

python - Beautifulsoup 在表中获得价值

我正在尝试抓取 http://www.co.jefferson.co.us/ats/displaygeneral.do?sch=000104 并获取“所有者姓名”我所拥有的作品，但真的很丑而不是最好的我很确定，所以我正在寻找更好的方法。这是我所拥有的：

php - 如何从原始 HTML 文件中提取数据？

有没有一种方法可以从原始 html 中提取所需的数据，该原始 html 是用 no IDsand无意义地编写的classes？我的意思是，假设有一个网页（个人资料）的已保存 html 文件，我想提取（比如）“爱好”之类的数据。是否可以使用 PHP 做到这一点？

php html parsing html-content-extraction

2009-11-30T17:13:41.107

0 投票

2 回答

133 浏览

html - 提取给定区域中的html元素？

给定一个由矩形和 url 定义的区域，有没有办法确定哪些元素位于给定 url 页面上的给定矩形内？

编辑：屏幕分辨率、字体大小等都可以设置为合理的默认值。

html url screen-scraping html-content-extraction layout-extraction

2009-11-30T21:26:39.433

0 投票

3 回答

31738 浏览

html - 如何在 R 中读取和解析网页的内容

我想在 R 中阅读 URL（eq，http://www.haaretz.com/）的内容。我想知道我该怎么做

html r screen-scraping html-content-extraction

2009-12-04T04:18:46.247

0 投票

5 回答

4267 浏览

c# - 使用 C# 抓取 HTTPS 屏幕

如何使用 C# 筛选抓取 HTTPS？

c#https screen-scraping html-content-extraction

2009-12-04T15:30:03.730

0 投票

1 回答

124 浏览

information-retrieval - 如何检索谷歌页面

亲爱的，我现在正在使用网络工具

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=

解析网页。

例如，我们可以解析 newyorktimes 主页，我们这样做：

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html

在我们浏览器的地址栏中，它会很好地为我们解析。

然而，它只是失败的谷歌页面。例如，如果我想解析谷歌新闻头版，比如：

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn

我总是会收到 500 内部服务器错误。

我确信这与谷歌网站有关，我想我们可能需要一些谷歌 API，有人知道如何为谷歌页面解决这个问题吗？非常感谢。

information-retrieval html-content-extraction

2009-12-11T03:57:26.183

0 投票

10 回答

140110 浏览

python - BeautifulSoup 抓取可见网页文本

基本上，我想使用 BeautifulSoup 来严格抓取网页上的可见文本。例如，这个网页是我的测试用例。而且我主要想在这里和那里获取正文（文章）甚至一些选项卡名称。我已经尝试过这个SO question中的建议，它返回了很多<script>我不想要的标签和 html 注释。我无法弄清楚该函数所需的参数findAll()才能仅获取网页上的可见文本。

那么，我应该如何找到除脚本、评论、css 等之外的所有可见文本？

python text beautifulsoup html-content-extraction

2009-12-20T17:55:58.097

0 投票

2 回答

1681 浏览

screen-scraping - YQL 抓取整个网站/域

我正在尝试从域中收回一组链接和内容。

谷歌中的查询将是

我已经看到了一些让这个工作正常的东西，但我似乎无法在整个网站上进行搜索，然后按搜索词过滤。

如果没有自定义数据表，这可能吗？

screen-scraping html-content-extraction yql

2009-12-21T14:18:18.053

0 投票

2 回答

1016 浏览

jquery - 关于 READABILITY 代码的 jQuery 等价物有什么想法吗？（或者：使用 jQuery 构建最好的启发式方法来查找正文）

http://lab.arc90.com/experiments/readability/是一个非常方便的工具，可以以非常易读的方式查看杂乱的报纸、期刊和博客页面。它通过使用一些启发式方法并找到网页的相关正文来做到这一点。它的源代码也可以在http://lab.arc90.com/experiments/readability/js/readability.js获得

我的一些同事引起了我的注意，因为我正在努力使用 jQuery 来获取任何报纸的“正文” | 期刊 | 博客 | 等网站。我当前的启发式（和 jQuery 中的实现）使用类似的东西（这是在 Firefox Jetpack 包中完成的）：

所以它就像“去抓取 DIV 中的段落并检查不相关的字符串，如'script'”。我已经尝试过了，大多数时候它可以抓取网络文章的正文，但是我想要一个更好的启发式或者更好的 jQuery 选择机制（甚至更短？）。

你有更好的建议吗？

PS：也许“找到最里面的DIV（即没有任何DIV类型的子元素）并去抓住他们的

s only”对于我目前的目的来说是一个更好的启发式方法，但我不知道如何在 jQuery 中表达这一点。

jquery html-content-extraction heuristics

2009-12-22T15:45:40.983

0 投票

1 回答

1459 浏览

.net - 寻找 Webzinc .NET、屏幕抓取、.NET 的网络自动化库的免费替代品

我遇到了这个 .NET 库：

http://www.webzinc.com/online/faq.aspx

但是，我想知道那里是否有免费的替代品？

.net screen-scraping screen html-content-extraction

2009-12-23T09:52:41.600

1 2 3 4 5 6 7 8 9 10

问题标签 [html-content-extraction]

Reference