问题标签 [privoxy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2983 浏览

python - 如何在 Scrapy 项目中使用 Privoxy 和 Tor

我正在尝试从http://www.apkmirror.com抓取,但目前我无法在浏览器中访问该网站,因为它说所有者禁止了我的 IP 地址(见下文)。

在此处输入图像描述

我试图通过使用 Privoxy 和 Tor 来解决这个问题,类似于http://blog.michaelyin.info/2014/02/19/scrapy-socket-proxy/中描述的内容。

首先,我安装了一个启动的Privoxy,默认情况下侦听端口 8118。我在下面添加了以下行/etc/privoxy/config

我也有 Tor 正在运行,它在端口 9050 上侦听,使用验证

据我所知wget,它正在工作。例如,如果我wget apkmirror.com使用代理,我会收到响应:

而没有代理我得到ERROR 403: Forbidden

现在是 Python 代码。我写了以下(简化的)蜘蛛:

我还将以下几行添加到settings.py

根据我对https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#module-scrapy.downloadermiddlewares.httpproxy的了解,如果我设置http_proxy环境变量HttpProxyMiddleware应该可以工作。但是,如果我尝试使用该命令进行抓取

我得到以下回复:

403简而言之,尽管尝试使用 Privoxy/Tor 进行匿名抓取,但我仍然遇到刮板错误。难道我做错了什么?

0 投票
3 回答
2860 浏览

python - “接收控制消息时出错(SocketClosed):空的套接字内容”在 Tor 的茎控制器中

我正在开发一个使用 Tor 的刮板,它的简化版本在这个示例项目中:https ://github.com/khpeek/scraper-compose 。该项目具有以下(简化的)结构:

蜘蛛,定义quotes_spider.py,是一个基于Scrapy 教程的非常简单的蜘蛛:

settings.py,我已经激活了一个带有线条的Scrapy 扩展

extensions.py在哪里

并且tor_controller.py

docker-compose build如果我开始使用后跟进行爬网docker-compose up,则扩展程序基本上可以工作:根据日志,它成功更改了 IP 地址并继续抓取。

然而,令我恼火的是,在引擎暂停期间,我会看到错误消息,例如

其次是

是什么导致了这些错误?既然他们有INFO水平,或许我可以无视他们?(我在https://gitweb.torproject.org/stem.git/上看过一些 Stem 的源代码,但到目前为止还无法掌握正在发生的事情)。

0 投票
1 回答
918 浏览

scrapy - 使用 Privoxy/Tor 的飞溅不起作用(本地主机冲突?)

Splash 不适用于 Privoxy/Tor。虽然

  • Privoxy/Tor 在浏览器中工作。
  • Splash 可与普通代理一起使用。yield SplashRequest(url, self.parse_func, args={'wait': 2.5, 'proxy': 'http://a_proxy_address:port', }).
  • Scrapy without Splash 通过 Privoxy 工作。yield scrapy.Request(url, callback=self.parse_func, meta={'proxy': 'http://127.0.0.1:8118'}))。

在脚本 Splash 中给出错误 502。

如果尝试在浏览器中打开 Splash page localhost:8050,它会给出错误页面: Privoxy was unable to socks5t-forward your request http://localhost:8050/ through localhost: SOCKS5 request failed

/etc/privoxy/配置:

我也尝试添加/etc/privoxy/config以下行,但没有帮助。

0 投票
0 回答
581 浏览

proxy - Scrapy 和 Tor/Privoxy 无法爬行 [连接被拒绝 61]

我在 middlewares.py 中引用了以下代码我试图在每个请求中更改我在 TOR 中的 ip

但是当我尝试开始在scrapy中爬行时,它不断返回我以下信息:

0 投票
0 回答
921 浏览

python - Scrapy蜘蛛突然停止

我在这里使用这个例子。要使用 Tor/Privoxy 更改我的身份,但我遇到了几个问题,例如必须多次键入“scrapy crawl something.py”来启动蜘蛛,或者让蜘蛛在爬行过程中突然停止而没有任何错误消息.

东西.py

开始爬取失败时的错误信息:

编辑:错误日志

0 投票
1 回答
219 浏览

raspberry-pi - 重定向时 Privoxy 白名单错误

简而言之,我的问题如下:

我使用 Privoxy 在 Chromium 上的 Raspbian Jessie 中设置站点白名单。我在启动时启动 Chromium,并在 lxsession/LXDE-pi/autostart 中使用以下代码段:

这确实按预期工作,除了我指定的站点之外的每个站点都被列入黑名单。

现在我编辑了 /privoxy/templates/blocked ,以便在打开不在白名单上的链接时,它会给我一个重定向到某个站点的重定向,而不是通常的站点:

example.com 是我列入白名单的网站之一。问题是,它只是将我再次重定向到“被阻止”页面,使我陷入循环。有谁知道为什么会这样以及我如何解决它?我尝试使用

但是它似乎也不起作用。

我使用 Kiosk 模式是因为我想在不需要输入 URL 地址的上下文中使用它,只是为了澄清我的 Chromium 调用。

0 投票
1 回答
1141 浏览

python-3.x - 如何使用 Scrapy Tor Privoxy 和 UserAgent 匿名抓取?(视窗 10)

由于信息分散,而且问题的标题有时具有误导性,因此很难找到该问题的答案。下面的答案将所需的所有信息重新组合在一个地方。

0 投票
1 回答
100 浏览

ip - 部署到 Scapinghub 后如何让 Scrapy 访问 Tor

我已经将蜘蛛配置为使用 setup Privoxy 访问 Tor,但这仅在我在 localhost 中使用时才有效,因为我配置的设置指向 127.0.0.1: 端口。但是当我部署到 Scapinghub 时,服务器端不会像我一样设置 tor 和 privoxy。这是我可以用来让蜘蛛通过我的网络和端口通过我的机器的任何解决方案吗?

据我所知,如果在同一个网络上,我们可以使用内部 IP。我可以将公共 IP 替换为 127.0.0.1 但我想知道网络如何转发到哪台机器。

以下是访问器的配置:

中间件.py

设置.py

0 投票
0 回答
89 浏览

sockets - 即使在正在进行的连接中,我如何强制 privoxy 中的套接字超时?

我想在一段时间后断开正在进行的连接。

我在这里检查了 privoxy 配置选项,发现“socket-timeout”。

7.6.8。套接字超时

指定:

如果没有接收到数据,则套接字超时的秒数。

是否有特定的配置(或 paction 文件规则)允许套接字超时,即使在套接字正在进行的流量/连接的情况下也是如此?

具体来说,连接应该“断开”或在达到此超时时导致错误。

0 投票
1 回答
1067 浏览

proxy - Tor项目安装后,出现错误

我正在按照链接在我的 ubuntu 18.04 中安装 tor 。完成所有步骤后,我收到此错误

我的 /lib/systemd/system/tor.service 文件是:

我将感谢您的帮助和支持。