使用Tor的匿名Python爬虫

我平时只把Tor做为备用的翻墙工具,其实它是强大的匿名工具。

本文介绍怎么使用Tor做为Python爬虫的网络代理,实现匿名的爬虫。使用Tor还可以防止网站屏蔽你的爬虫。

作为知名的匿名网络,Tor一直是一些喜欢匿名上网,或关注网络隐私人士的最爱,不过由于有多个跳转节点,它的连接速度非常缓慢。

使用Tor实现简单的匿名爬虫

我使用的系统:Ubuntu 16.04。

#1 安装Tor

由于天朝屏蔽了Tor,要想连接到Tor网络,我们还需要一层代理。obfs4proxy貌似也挂了,反正我是连不上。

下面以shadowsocks做为前置代理为例。

启动shadowsocks,然后连接Tor:

使用Tor的匿名Python爬虫

Tor监听9050端口(Socks)。

编辑Tor的配置文件(/etc/tor/torrc):

开启ControlPort,这是其它应用(python-stem)和Tor沟通的端口:

生成HashedControlPassword:

开启cookie认证:

如下图:

使用Tor的匿名Python爬虫

重启tor:

使用Tor的匿名Python爬虫

到此,完成了Tor的安装和配置。

#2 安装python-stem

python-stem是操作Tor的Python模块。

#3 安装privoxy

Tor本身并不是HTTP代理,为了能让爬虫访问Tor网络,需要使用privoxy做为Tor的http代理。

安装privoxy:

配置privoxy:

添加forward-socks5:

重启privoxy:

privoxy默认监听8118端口,它把http请求转向到Tor的9050端口。

#4 Python爬虫

基于 Python简单爬虫:爬取/下载整站图片

相关文章

《使用Tor的匿名Python爬虫》有3个想法

发表评论

电子邮件地址不会被公开。 必填项已用*标注