Web爬虫概述 什么是爬虫?爬虫可以做什么以及爬虫的分类 爬虫的合法性

鳄鱼君

发表文章数:642

Vieu四代商业主题

高扩展、安全、稳定、响应式布局多功能模板。

¥69 现在购买
首页 » Python » Web爬虫概述 什么是爬虫?爬虫可以做什么以及爬虫的分类 爬虫的合法性

爬虫概述

通过编写程序,让其模拟浏览器上网,然后去网上抓取数据的过程。关键就是模拟抓取。浏览器就是一款天然的爬虫工具,通过它我们可以对某个网页进行抓取,抓取单页数据或是单页中的局部数据。

爬虫的分类

一般来说,爬虫可以分为三类:

  • 通用爬虫(数据的提取):抓取的数据内容比较广泛,例如一些搜索引擎都是通用爬虫。
  • 聚焦爬虫(数据解析):精确提取数据,只提取我们想要的数据。
  • 增量式爬虫(数据的更新):检测爬取网站数据更新的情况

反爬机制

一些网站后台会设定相关的机制阻止爬虫程序进行数据的爬取,这些机制就是网站设定的反爬机制,它通常有以下几种:

  • robots.txt协议:每个网站都会有这样的一个文本协议,你可以在鳄鱼君Ba的URL首页地址后面添加robots.txt就可以看到该信息。它规定允许爬取的数据和UA。防君子不仿小人!
  • 限制网页请求次数:在浏览器中打开一个网页就是发送了一次请求,多次刷新就是多次请求。对于请求频率较高的,网站会封掉你的IP,或者弹出验证窗口。
  • 网页动态数据:网页的数据在响应的HTML中不存在,这时你再通过爬虫就得不到数据,因为请求的URL本身就没有数据,而是在API中。

反反爬策略

爬虫需要指定相关的策略破解反爬机制,从而可以爬取到网站的数据。

  • 为爬虫设置Headers
  • 使用代理IP进行抓取
  • 抓包分析数据API。

爬虫合法性

爬虫究竟是合法还是违法的?

这个问题 确实让我们程序员有点后背发凉、只是写了几行简单的代码 就莫名其妙的进局子了,还以为我们干什了大买卖呢。那么今天我们就探究一下爬虫的合法性。

爬虫作业一种计算机技术就决定了它的中立性,因此爬虫本身在法律上是不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至犯罪的风险的。

所谓具体问题具体分析正如水果刀本身在法律上是不被禁止的,但是用来捅人,就是你的不对了。 例如我们说浏览器上展示的信息 我们是不是可以复制啊 其实就像浏览器一样 解析并显示了页面内容,爬虫只是批量下载而已,所以是合法,不合法的情况利用爬虫结合黑客技术攻击网站后台密切用户信息。那也是你的不对了。

举个例子:像百度和谷歌这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各个被扫的网站大都很开心。这种就被定义为“善意爬虫”,站长巴不得它们天天来爬呢!就像鳄鱼君Ba的网站一样,对于robots协议也没有规定。但是像抢票软件这样的爬虫,对着 12306 每秒钟恨不得撸几万次,铁总并不觉得很开心,这种就被定义为“恶意爬虫”。

爬虫所带来风险主要体现在以下两个方面

  • 爬虫干扰了网站的正常运营
  • 爬抓取了受到法律保护的特定类型数据或信息

那么作为爬虫开发者,如何避免进局子?

  • 严格遵守网站设置的robots协议;
  • 在规避反爬虫措施的同时,需要优化自己代码,避免干扰到网站正常运营
  • 在使用爬虫,抓取信息,应审查信息内容 ,如有发现个人用户信息,隐私或者他人商业秘密的,应及时T停止并删除。

可以说在我们身边的网络上已经密密麻麻爬满了各种网络爬虫,它们善恶不同,各怀心思。而越是每个人切身利益所在的地方,就越是爬满了爬虫。所以爬虫是趋利的,它们永远会向有利益的地方爬行。技术本身是无罪的,问题往往出在人无限的欲望上。因此爬虫开发者的道德自持和企业经营者的良知才是避免触碰法律底线的根本所在。做个君子吧

未经允许不得转载:作者:鳄鱼君, 转载或复制请以 超链接形式 并注明出处 鳄鱼君
原文地址:《Web爬虫概述 什么是爬虫?爬虫可以做什么以及爬虫的分类 爬虫的合法性》 发布于2020-05-07

分享到:
赞(0) 赏杯咖啡

评论 抢沙发

5 + 6 =


文章对你有帮助可赏作者一杯咖啡

支付宝扫一扫打赏

微信扫一扫打赏

Vieu4.6主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。
切换注册

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录
切换登录

注册