本文与大家分享一个网络爬虫的使用案例分析。小编觉得还是比较实用的,所以分享给大家,供大家参考。下面就跟随小编一起来看看吧。
1. 为什么要使用网络爬虫?
因为语言非常简洁,易于使用和学习,所以写作就像用英语写作一样。另外,使用起来也非常方便。它不需要 IDE,而仅使用文本。可以开发大多数中小型应用;另外,爬虫框架非常强大。其框架可以抓取网络数据并提取结构数据。常用于数据挖掘、历史数据存储、信息处理等程序中;网络支持库和html解析器非常强大。借助网络支持库,只需编写较少的代码就可以下载网页,并通过网页解析库可以解析网页中的每个标签,并与正则表达式结合起来。
抓取网页内容非常方便。因此,它在网络爬行方面具有很大的优势。
2、判断网站数据是否支持抓取
几乎每个网站都有一个名为 .txt 的文档。当然,有些网站不设置.txt。如果网站没有设置.txt,则可以通过网络爬虫获取无密码加密的数据,即可以爬取该网站的所有页面数据。当然,如果网站有.txt文档,就要判断是否存在禁止访问者获取的数据。
以淘宝为例,在浏览器中访问,如图。
上图中淘宝上.txt文件的内容
淘宝允许某些爬虫访问其部分路径,但对于不允许的用户,则禁止所有爬行。代码如下:
<p style='margin-bottom:15px;color:#555555;font-size:15px;line-height:200%;text-indent:2em;'> <pre class="brush:js;toolbar:false;"><span>User-Agent:*
Disallow:/
12
</span></pre></p>
这段代码的含义是,除了前面指定的爬虫之外,其他爬虫不允许爬取任何数据。
3. 图书馆抓取网站数据
1.如何安装库
1.首先安装库
2.打开并单击“文件”菜单
3. 选择“新建...”命令
4. 选择“ ”(项目编译器)命令
5、确认当前选择的编译器,点击右上角的加号。
6、在搜索框中输入:(注意,一定要输入完整,否则很容易出错),然后点击左下角的“ ”(安装库)按钮。
安装完成后会显示“''”(库请求已成功安装)。如果安装不成功,会出现提示信息。
4.爬虫的基本原理
网页请求的过程分为两个环节:
(请求):每个显示在用户面前的网页都必须经过这一步,即向服务器发送访问请求。
(响应):服务器收到用户的请求后,会验证请求的有效性,然后将响应内容发送给用户(客户端)。客户端接收服务器响应的内容并显示内容,这就是我们所熟悉的。网页请求
请求网页有两种方式:
GET:最常用的方法,一般用于获取或查询资源信息。也是大多数网站采用的方法,响应速度快。
POST:与GET方法相比,它具有以表单形式上传参数的功能,所以除了查询信息外,还可以修改信息。
因此,在编写爬虫之前,首先要确定将请求发送给谁以及如何发送。
5.使用GET方法抓取数据
复制首页任意第一条新闻的标题,在源页面按【Ctrl+F】调出搜索框,将标题粘贴到搜索框中,然后按【Enter】键。
标题可以在源码中搜索到,请求对象是,请求方法是GET(源码中所有数据请求方法都是GET),如图9所示。
确定请求对象和方法后,在中输入以下代码:
<p style='margin-bottom:15px;color:#555555;font-size:15px;line-height:200%;text-indent:2em;'> <pre class="brush:js;toolbar:false;"><span>import requests #导入requests包
url = 'http://www.cntour.cn/'
strhtml = requests.get(url) #Get方式获取网页数据
print(strhtml.text)
1234
</span></pre></p>
用于加载库的语句是+库的名称。上述过程中,加载库的语句为: 。
使用GET方法获取数据,需要调用库中的get方法。要使用它,请在其后面输入英文句点,如下所示:
<p style='margin-bottom:15px;color:#555555;font-size:15px;line-height:200%;text-indent:2em;'> <pre class="brush:js;toolbar:false;"><span>requests.get
1
</span></pre></p>
将获取到的数据存入变量中,代码如下:
<p style='margin-bottom:15px;color:#555555;font-size:15px;line-height:200%;text-indent:2em;'> <pre class="brush:js;toolbar:false;"><span>strhtml = request.get(url)
1
</span></pre></p>
这次是一个URL对象,它代表了整个网页,但此时只需要网页中的源代码。以下语句代表网页源代码:
<p style='margin-bottom:15px;color:#555555;font-size:15px;line-height:200%;text-indent:2em;'> <pre class="brush:js;toolbar:false">strhtml.text
1</pre></p>
6.使用POST方法抓取数据
首先输入有道翻译网址:进入有道翻译页面。
按快捷键F12进入开发者模式,点击。此时内容为空,如图:
相关推荐:
探索数字时代的自媒体营销秘籍,白帽seo与seo
嘉兴SEO优化,提升网站在搜索引擎中的排名的关键策略,嘉善外贸网站建设
揭秘成功的自媒体人,如何捕捉每一个灵感并打造爆款内容?,广州市企业网站推广价格
深度剖析关键词难度:搜索量、搜索意图与营销效果的关键关联,佛山市外贸网站推广报价
如何选择建网站公司?创立时间和主营业务是关键,外贸通网站建设
新网站上线该如何填充内容?子凡为你详细解答,企业形象网站建设方案
探索未知,如何克服恐惧,重塑自信,关键词排名提升好虍宙o斯联系d
探索未知,莱山SEO推广的奥秘与实践,seo 红酒
保定响应式网站建设:如何选择专业建站公司及价格解析,怀柔快速网站推广
沈阳SEO培训,提升网络可见度的关键途径,股票学习网站建设需要
武汉SEO排名探秘,如何让你的网站在竞争激烈的市场中脱颖而出?,冰峰营销推广目标是什么
上海苏宁宝丽嘉酒店开业庆典:全球第二家宝丽嘉品牌酒店的盛大开幕,医疗软文营销推广报价
新县SEO网络推广方案,如何让您的品牌在搜索引擎中脱颖而出?,鹿寨可靠的网站建设渠道
搜狗商务专员、新媒体客服专员与 SEM 优化专员岗位职责,吴堡网络推广营销软件
揭秘纹眉背后的科学与艺术,人人贷营销推广创意
李盆,文案届的诗人
探索贵州SEO排名的奥秘,如何让你的网站在众多竞争者中脱颖而出?,抖音seo在哪里看
自媒体营销,SEO客服绩效的关键考核指标,如何成为seo工作
网站 seo 优化:前期建设与后期维护同样重要,网站推广渠道销售简历
化妆品网站建设策划书:行业产品分析与品牌定位,婺源网站推广
网站建设价格与效果的关系,你真的了解吗?,杭州营销推广达人公司
宜宾市政协委员提议建立工业博物馆,保护工业文化遗产,延安网站建设报价
第58届金钟奖主视觉发布:“火星撞地球?”
沂网科技:专注网站建设十余年,助力企业升级转型,网站建设实力公司
优化,南京网站seo优化公司费用
蹭魏大勋热度?旺旺赢麻了!
探索SEO的奥秘,如何利用搜索引擎优化提升你的在线影响力,宝坻区网站推广排名
壮阳药的真相,科学视角下的真实效果与误区,餐饮的营销推广策略分析
自媒体营销新纪元,如何在这个变革的时代抓住机遇?,嘉兴网站建设工作推荐会
搜狗SEO推广,打造高效网络营销的秘密武器,百度怎么营销产品推广