当前位置:犀牛ip > 资讯中心
Python爬虫必须要用代理ip吗?
发表日期:2020-06-30

大部分人以为,python爬虫必须要用代理ip,不然就无法进行数据爬取。事实上并不是这样,假如需要爬取的数据不多,一次爬一个网站上的上千篇文章内容,不使用代理ip也能很轻松的实现
从本质上来讲,爬虫也是浏览网站的一个用户而已,只是该用户夸张些,浏览速度超出常人,给服务器造成很大的压力。服务器只能采用各种各样的反爬虫策略以限制或是禁止爬虫程序,这就是为什么要用代理ip的原因。

要是爬虫程序浏览的速度和次数没有超出服务器反爬机制允许范围,就不需要用代理ip;假如要爬取的数据量大到不得不多机器多线程高并发爬取时,就得用代理ip来协助完成任务了。

许多朋友说,用ADSL拨号服务器也能处理ip被封的情况,不用代理ip。ADSL拨号通常是断线重拨后会获得一个新的ip,接着继续爬取。但是有个问题,拨号重拨必须要间隔一段时间才行,这样运行中的程序就中断了,所以得准备几台ADSL服务器作为代理,然后爬虫运行在另外一台不断网的服务器运行,当然这样使用对于大数据爬取来说就太麻烦了。一般的大型爬虫任务都是选择代理ip来解决反爬策略的限制。

    登录犀牛

    还没有账号?立即注册  忘记密码
    注册犀牛

    已有账号?
    重置密码

    线

    🌀

    升级通知

    「犀牛IP」 已经升级新版本,支持线路更多,速度更快。新用户注册,免费试用。

    老版本即将关停,老用户可联系客服迁移套餐时间,老用户赠送一定时间。