问题标签 [web-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python,multi-threads,fetch webpages,download webpages
I want to batch dowload webpages in one site. There are 5000000 urls links in my 'urls.txt' file. It's about 300M. How make a multi-threads link these urls and dowload these webpages? or How batch dowload these webpages?
my ideas:
or twisted?
Is there a good solution for it?
java - 如何使用 Java 有效地解析 HTML?
我在我的工作中做了很多 HTML 解析。到目前为止,我一直在使用 HtmlUnit 无头浏览器进行解析和浏览器自动化。
现在,我想将这两个任务分开。
我想使用一个轻量级的 HTML 解析器,因为在 HtmlUnit 中首先加载页面需要很长时间,然后获取源代码然后解析它。
我想知道哪个 HTML 解析器可以有效地解析 HTML。我需要
- 速度
- 通过其“id”或“名称”或“标签类型”轻松定位任何 HtmlElement。
如果它不清理脏的 HTML 代码,对我来说没问题。我不需要清理任何 HTML 源代码。我只需要一种最简单的方法来移动 HtmlElements 并从中收集数据。
python - 基于输入的Python动态模块加载
我编写了一个程序,它接收部分 rss 提要并输出完整的提要,但它是根据具体情况而定的。一个站点的配方与另一个站点的配方不同。所以我要做的是查看域基本名称(例如 nyt 或 wsj)并根据它选择一个模块。虽然我需要事先加载每个模块并为每个配方设置一个逻辑条件。
我需要的是一种将各个模块放在各自文件夹中的方法,当我解析出 url basename 时,我希望它查找模块,加载它并采取一些措施。所以我希望主代码库独立于模块。我希望将来能够添加模块,并且永远不要接触与它们交互的代码部分。
这是一个代码示例
如您所见,我调用了单个模块的解析器。我有很多这些基于每个网站。我想reed feed,然后能够查找模块,加载它并调用它,然后如果它不存在,请报告它并尝试默认方法。
asp.net - ASP - 在本地主机中运行 - 无法访问互联网
我有一个 ASP MVC 控制器操作。我正在尝试发出网络请求
我收到“发生 WebException”远程名称无法解析:“www.example.com”
如果我启动 Fiddler,那么 webrequest 就可以了。
我尝试添加:
到 Web.config(有和没有 hte bypassonlocal),它仍然不起作用。
有什么建议么?
c# - ASP HttpWebRequest 和重定向
好的,我有一个客户端向服务器发送一些数据。服务器接收帖子,并通过重定向进行回答。问题是客户端不重定向。另外,我尝试检查客户端获得的响应的状态代码,它总是相同的“OK”。而不是重定向代码。我错过了什么?
在客户端,我有这样的事情:
在服务器端,我只有这一行:
在这种情况下,客户端收到一个答案并且什么都不做。
谢谢。
c# - 使用c#获取html标签
好的,我得到了这个代码:
现在我想过滤文本以获取 div class="comment" 那些除了使用正则表达式之外还有其他选择吗?还是这是唯一的方法?
谢谢
amazon - 如何查找正在使用的 isbns
我正在尝试查找正在使用的 ISBN 列表。我想我可以抓取像亚马逊这样的网站,但这会浪费很多带宽。有更好的(免费)方式吗?
python - 使用 Python 进行网页抓取
我目前正在尝试抓取一个 HTML 格式相当糟糕的网站(通常缺少结束标签,不使用类或 ID,因此很难直接找到您想要的元素等)。到目前为止,我一直在使用 BeautifulSoup 并取得了一些成功,但每隔一段时间(尽管很少),我会遇到一个页面,在该页面中,BeautifulSoup 创建的 HTML 树与(例如)Firefox 或 Webkit 有点不同。虽然这是可以理解的,因为 HTML 的格式使这种模棱两可,但如果我能够获得与 Firefox 或 Webkit 生成的相同的解析树,我将能够更轻松地解析事物。问题通常是网站打开一个<b>
标签两次,当 BeautifulSoup 看到第二个<b>
标签时,它立即关闭第一个标签,而 Firefox 和 Webkit 嵌套<b>
标签。
是否有 Python(甚至任何其他语言(我快要绝望了))的网络抓取库可以重现 Firefox 或 WebKit 生成的解析树(或者在模棱两可的情况下至少比 BeautifulSoup 更接近)。
c# - 你如何屏幕刮擦?
当没有可用的 web 服务 API 时,您唯一的选择可能是 Screen Scrape,但是您如何在 c# 中做到这一点?
你觉得怎么做?
java - 如何在 java 应用程序的文本区域中显示 html 格式的文本?
我正在使用我的 java 应用程序从网站上抓取数据,并希望在用 Swing 制作的文本区域中解析 html 页面的代码后显示结果。
文本如:hello <b>every</b>one
应在文本区域显示为:'hello every one'。谢谢!!