问题标签 [web-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
1261 浏览

python - Python,multi-threads,fetch webpages,download webpages

I want to batch dowload webpages in one site. There are 5000000 urls links in my 'urls.txt' file. It's about 300M. How make a multi-threads link these urls and dowload these webpages? or How batch dowload these webpages?

my ideas:

or twisted?

Is there a good solution for it?

0 投票
3 回答
195763 浏览

java - 如何使用 Java 有效地解析 HTML?

我在我的工作中做了很多 HTML 解析。到目前为止,我一直在使用 HtmlUnit 无头浏览器进行解析和浏览器自动化。

现在,我想将这两个任务分开。

我想使用一个轻量级的 HTML 解析器,因为在 HtmlUnit 中首先加载页面需要很长时间,然后获取源代码然后解析它。

我想知道哪个 HTML 解析器可以有效地解析 HTML。我需要

  1. 速度
  2. 通过其“id”或“名称”或“标签类型”轻松定位任何 HtmlElement。

如果它不清理脏的 HTML 代码,对我来说没问题。我不需要清理任何 HTML 源代码。我只需要一种最简单的方法来移动 HtmlElements 并从中收集数据。

0 投票
2 回答
275 浏览

python - 基于输入的Python动态模块加载

我编写了一个程序,它接收部分 rss 提要并输出完整的提要,但它是根据具体情况而定的。一个站点的配方与另一个站点的配方不同。所以我要做的是查看域基本名称(例如 nyt 或 wsj)并根据它选择一个模块。虽然我需要事先加载每个模块并为每个配方设置一个逻辑条件。

我需要的是一种将各个模块放在各自文件夹中的方法,当我解析出 url basename 时,我希望它查找模块,加载它并采取一些措施。所以我希望主代码库独立于模块。我希望将来能够添加模块,并且永远不要接触与它们交互的代码部分。

这是一个代码示例

如您所见,我调用了单个模块的解析器。我有很多这些基于每个网站。我想reed feed,然后能够查找模块,加载它并调用它,然后如果它不存在,请报告它并尝试默认方法。

0 投票
1 回答
170 浏览

asp.net - ASP - 在本地主机中运行 - 无法访问互联网

我有一个 ASP MVC 控制器操作。我正在尝试发出网络请求

我收到“发生 WebException”远程名称无法解析:“www.example.com”

如果我启动 Fiddler,那么 webrequest 就可以了。

我尝试添加:

到 Web.config(有和没有 hte bypassonlocal),它仍然不起作用。

有什么建议么?

0 投票
1 回答
10238 浏览

c# - ASP HttpWebRequest 和重定向

好的,我有一个客户端向服务器发送一些数据。服务器接收帖子,并通过重定向进行回答。问题是客户端不重定向。另外,我尝试检查客户端获得的响应的状态代码,它总是相同的“OK”。而不是重定向代码。我错过了什么?

在客户端,我有这样的事情:

在服务器端,我只有这一行:

在这种情况下,客户端收到一个答案并且什么都不做。

谢谢。

0 投票
4 回答
9034 浏览

c# - 使用c#获取html标签

好的,我得到了这个代码:

现在我想过滤文本以获取 div class="comment" 那些除了使用正则表达式之外还有其他选择吗?还是这是唯一的方法?

谢谢

0 投票
5 回答
185 浏览

amazon - 如何查找正在使用的 isbns

我正在尝试查找正在使用的 ISBN 列表。我想我可以抓取像亚马逊这样的网站,但这会浪费很多带宽。有更好的(免费)方式吗?

0 投票
10 回答
4484 浏览

python - 使用 Python 进行网页抓取

我目前正在尝试抓取一个 HTML 格式相当糟糕的网站(通常缺少结束标签,不使用类或 ID,因此很难直接找到您想要的元素等)。到目前为止,我一直在使用 BeautifulSoup 并取得了一些成功,但每隔一段时间(尽管很少),我会遇到一个页面,在该页面中,BeautifulSoup 创建的 HTML 树与(例如)Firefox 或 Webkit 有点不同。虽然这是可以理解的,因为 HTML 的格式使这种模棱两可,但如果我能够获得与 Firefox 或 Webkit 生成的相同的解析树,我将能够更轻松地解析事物。问题通常是网站打开一个<b>标签两次,当 BeautifulSoup 看到第二个<b>标签时,它立即关闭第一个标签,而 Firefox 和 Webkit 嵌套<b>标签。

是否有 Python(甚至任何其他语言(我快要绝望了))的网络抓取库可以重现 Firefox 或 WebKit 生成的解析树(或者在模棱两可的情况下至少比 BeautifulSoup 更接近)。

0 投票
6 回答
34910 浏览

c# - 你如何屏幕刮擦?

当没有可用的 web 服务 API 时,您唯一的选择可能是 Screen Scrape,但是您如何在 c# 中做到这一点?

你觉得怎么做?

0 投票
3 回答
20851 浏览

java - 如何在 java 应用程序的文本区域中显示 html 格式的文本?

我正在使用我的 java 应用程序从网站上抓取数据,并希望在用 Swing 制作的文本区域中解析 html 页面的代码后显示结果。

文本如:hello <b>every</b>one应在文本区域显示为:'hello every one'。谢谢!!