Python网络爬虫:爬虫篇(一)---最简单的网络爬虫

62 篇文章 0 订阅
订阅专栏
本文介绍了如何使用Python的urllib.request模块编写一个简单的网络爬虫。首先讲解了如何导入和安装模块,然后通过urlopen()函数发送请求获取网页内容。在遇到HTTPResponse对象时,使用read()方法读取源代码。进一步,文章提出了让用户体验更佳的进阶玩法,允许用户自定义URL,并通过异常处理机制处理错误URL的情况,确保程序的健壮性。
摘要由CSDN通过智能技术生成

知周所众,Python是一门强大的编程语言,我们可以用它来做许多事情,今天,我们就尝试着用Python来写一个最简单的网络爬虫。

准备工作

我们这次要用到Python中的urllib.request的第三方模块,要想使用这个模块,你就得下载下来(质量守恒定律doge),下载方法就不过多赘述,无论是什么模块,下载的方法都无非是:

这样,我们的第三方库就安装成功了,接下来就是要导入这个库:

那么到这里,我们的准备工作就做完了,接下来就开始写吧!

基础玩法

首先,我们要知道,我们需要用的是一个函数:urlopen()函数,这个函数可就NB了,可以给目标url发送一个请求,那么接下来,我们再用print()函数打印出来不就可以了,来看看吧,这里我们以B站为例,先写出下面这段代码:

观察输出结果,我们会发现不对的地方,这...

这,这不对吧,说好的源代码呢,就这?我没学过前端,你别骗我,嗯,这确实不是,不过问题不大,我们先用type()函数来看看它的类型:

我们来看看这家伙到底是“何方神圣”:

可以看到,这其实是一个HTTPResponse类型的对象(话说我都学了两年面向对象编程了,居然还没有对象doge),那么怎么办呢,我们可以利用这个对象中的read()方法把他读出来,而且要用utf-8或gbk格式:

那么现在,我们再来看看结果吧,可以看到,这就是B站网页的源码了:

进阶玩法

所谓进阶玩法,既然是设计,那就应该用户怎么舒服怎么来,用户也不一定都学过Python,要是人家想自己爬自己想爬的,难不成要自己改参数?所以我们要设计一个可以让用户自己输入url的代码,那么我们利用input()函数就可以轻松的写出以下代码:

那么这样不就可以让自己用户输入url了,但是很快,一个新的问题摆在我们面前,如果用户故意输入一个错误的url应该怎么办呢,我们不妨先自己输入一个错误的url,观察报错信息:

可以看到,报出了Valueerror,即输入错误,怎么办呢,可以配合异常处理:

那么这次我们再输入一个错误的url试一下:

这样就实现了,当然,也可以加入循环或GUI提升用户的体验,那么由于时间原因,我们就先谈到这里,下期继续,感谢收看,欢迎留言一起探讨!

Python之最简单爬虫
weixin_40914842的博客
10-13 1552
爬虫前凑: (1)明确目的 (2)找到数据对应的网页 (3)分析网页的结构找到数据所在的标签位置 (4)模拟HTTP请求,向服务器发送请求获取到服务器返回给我们的HTML (5)用正则表达式提取我们要的数据 (6)分析、精炼、展示、保存数据
python网络爬虫爬虫环境与爬虫简介
m0_51877411的博客
04-26 1123
python网络爬虫 python爬虫环境与爬虫简介 认识爬虫 浏览网页基本流程 网络爬虫模拟了浏览器去发送请求并且返回响应结果的一个过程。 爬虫概念 网络爬虫也被称为网络蜘蛛、网络机器人,是一个自动下载网页的计算机程序或自动化脚本。 网络爬虫就像一只蜘蛛一样在互联网上沿着URL的丝线爬行,下载每一个URL所指向的网页,分析页面内容。 爬虫的原理 (1)通用网络爬虫 通用网络爬虫又称为全网爬虫,其爬行对象由一批种子URL扩充至整个Web,该类爬虫比较适合为搜索引擎搜索广泛的主题,主要由搜索引擎
python爬取网页停止_Python爬虫之爬取静态网页
weixin_39849287的博客
11-24 312
所谓网络爬虫,通俗的讲,就是通过向我们需要的URL发出http请求,获取该URL对应的http报文主体内容,之后提取该报文主体中我们所需要的信息。所以,想要学习python爬虫,需要具备一些http的基础知识,熟悉http请求的基本过程。在本文中,首先会简单的介绍一下http请求的基本流程,之后介绍python的requests库,requests库可以方便地帮助我们完成http请求。因为本文介绍...
Python-爬虫案例(简单保姆级、基础入门、小白
TC123520T的博客
07-30 1455
但是咱们在爬虫时,如果不设置"User-Agent"值时,"User-Agent"将会是别的数据,因此我们需要设置一下"User-Agent"的值,至于设置成什么值要看下被爬取页面的值。requests是我们向所被爬取的页面发送的一个请求,告诉被爬取页面,我们需要你的代码,然后被爬取页面会将页面代码打包,放在一个对象里面,我们在这个对象里面取页面代码。P.*?1.拿到页面代码(在爬虫代码中,请求被爬取的页面代码,拿到它)5.3 哪里是我们需要的数据,则给它带个括号并且取一个名字,好找到它。
初探python之做一个简单小爬虫
weixin_33816611的博客
01-23 120
准备工作 初探python,这个文章属于自己的一个总结。所以教程面向新手,无技术含量。python环境Linux基本都有,Windows下官网也提供了便利的安装包,怎么安装配置网上有很多教程在此就不一一说明。我使用的python版本为Python 3.6.4,后面的代码也是基于python3的。 分析需求 做一个小爬虫离不开获取网页内容和...
一个简单网络爬虫
弥路milu
11-05 2076
学习了一个小爬虫,能在豆瓣上抓取特定的信息抓取并存储起来,他实现的原理如下 首先通过openurl对网站进行解析,将其转换成字符串类型 利用目标字符的特性用函数进行抓取信息,这里利用find2(s1,  s2):返回字符串s2在字符串s1中的下标,find_between(s, left, right):返回在s字符串中left和right中间的字符串 爬虫的原理(猜测):将网站的信息转换为...
一个最简单网络爬虫的实现
nhwcrival的专栏
10-23 564
网络爬虫 听起来有点复杂,但在我理解最,基本的原理就是给你一个起始网站
解析Python网络爬虫:核心技术、Scrapy框架、分布式爬虫全套教学资料
10-25
本套教学资料深入解析了Python爬虫的核心技术、Scrapy框架以及分布式爬虫的实现,旨在帮助学习者掌握这一领域的核心技能。 一、Python爬虫核心技术 Python语言因其简洁明了的语法和丰富的第三方库而成为网络爬虫...
Python网络爬虫技术-第1章-Python爬虫环境与爬虫简介-教案.docx
最新发布
09-07
爬虫Python网络爬虫技术-第1章-Python爬虫环境与爬虫简介-教案Python网络爬虫技术-第1章-Python爬虫环境与爬虫简介-教案Python网络爬虫技术-第1章-Python爬虫环境与爬虫简介-教案Python网络爬虫技术-第1章-Python...
Python网络爬虫技术-教学大纲.pdf
05-29
- 掌握Python爬虫环境的搭建,学习常见的Python爬虫库。 - 学习爬虫伦理和法规,了解如何遵守网络爬虫的行为规范。 2. **网页前端基础**(3学时) - 网络编程基础,理解Socket库,包括TCP和UDP通信。 - 学习...
python 爬虫源码
02-18
自己开发了一个网页爬虫,很好用,模拟网页操作,简单便捷,爬取的内容可直接保存为为csv格式
Python简单小爬虫
qq_43369592的博客
04-03 230
Python爬虫—古诗文网 爬取目标:古诗文网的名句及其出处 实现方法: requests库实现网络请求 xpath实现数据提取 目标分析: 获取页面规则 很明显,所有需要爬取的内容都在 div[@class=“sons”]下,因此只需要遍历该列表即可获得所需内容的位置,接下来进行xpath解析获得所需要的数据。 获取下一页url 分析可知,下一页的url在div[@class="pagesright "]/a[@class=“amore”]/@href 里面,值得注意的是,此处获取到的ur
python 特别简单的一个小爬虫(看着玩吧 )
california94的博客
03-02 1133
环境:python3.5    bs4   lxml这是需要安装的   使用urllib模块来访问页面 bs4解析页面,存到*.txt文件中 #-*- coding:utf-8 -*- import urllib.request import time,os import numpy as np from bs4 import BeautifulSoup hds=[{'User-Age
python爬虫实战之最简单的网页爬虫教程
xxue345678的博客
05-26 822
在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材。下面这文章就来给大家介绍了关于利用python实现最简单的网页爬虫的相关资料
python简单小爬虫_python 简易小爬虫
weixin_39640221的博客
12-10 169
此脚本用于爬站点的下载链接,最终输出到txt文档中。如果是没有防盗链设置的站点,也可以使用脚本中的下载函数尝试直接下载。本脚本是为了短期特定目标设计的,如果使用它爬其它特征的资源链接需自行修改配置语句。python初学者,请多多指正。# -*- coding: utf-8 -*-import reimport urllibimport osimport urllib2import requests...
python简单小爬虫_python简单爬虫
weixin_39673037的博客
12-10 317
最近小组内部需要做一个简单小分享,不知道要分享什么,最后决定要做一次爬虫的小分享,哈哈,我也是一个初学者,于是就开始找资料,这里就把我一个简单小分享在这里描述一下首先,我们要知道什么是爬虫,我的理解是:用代码模拟人的操作,去其他网站找到需要的东西,然后爬取下来所以就需要先知道要爬取内容的网站地址,然后才能去爬取这里是一个简单小爬虫:#1、简单爬虫,不做任何处理import requests  #导...
python一个简单小爬虫
THE___BEST的专栏
02-05 791
晚上废了一个来小时才终于搞完了。。。。中间碰到无数的问题 主要是由于 python版本的问题,网上的好多爬虫教程都是用的python2 而python3相对于python2感觉改了好多=.= python3的urllib2不叫这个名字了,改成了urllib.request 还有urlopen.read函数返回的不再是string 而是byte 需要在后面加上句decode('utf-8
Python网络爬虫:Requests库与K-means聚类扩展
网络爬虫的核心工具之一是`Requests`库,它使得自动网络请求提交变得简单。`Requests`库提供了多种HTTP请求方法,如`get()`、`head()`、`post()`等。`requests.get()`是最常用的方法,用于获取HTML网页内容,而`head...
写文章

热门文章

  • 服务器报错nginx 502 Bad Gateway的原因以及解决办法 53543
  • ping命令一直测试网络丢包原因及处理解决方法 22869
  • 无法登陆宝塔面板?宝塔界面为什么无法访问?宝塔面板登陆不上?宝塔面板打不开解决办法 15857
  • 网页报503 service unavailable错误怎么解决 15521
  • html页面中如何添加背景音乐 12169

分类专栏

  • 网站源码 61篇
  • 网络安全 80篇
  • 软件工具 10篇
  • 技术教程 54篇
  • 编程交流 62篇

最新评论

  • 每日祝福语微信小程序源码 4.0.3

    2401_85967131: 怎么获取

  • 宝塔海外版aapanel中文语言包以及安装命令

    bv4cv: download.btpanel.cm 網址錯誤 應該是 download.btpanel.com

  • 2022最新改良版彩虹知识付费模板源码

    accpvp: 免费的往往是最贵的表情包

  • 服务器报错nginx 502 Bad Gateway的原因以及解决办法

    m0_71899117: 我的错误是2024/03/26 22:06:46 [crit] 3853#3853: *22 stat() "/home/pi/DjangoBlog/" failed (13: Permission denied), client: 192.168.201.211, server: www.zhichibupang.com, request: "GET / HTTP/1.1", host: "192.168.201.160" 2024/03/26 22:06:46 [error] 3853#3853: *22 connect() failed (111: Connection refused) while connecting to upstream, client: 192.168.201.211, server: www.zhichibupang.com, request: "GET / HTTP/1.1", upstream: "http://127.0.0.1:8000/", host: "192.168.201.160" ,该怎么解决,大佬

最新文章

  • 查找linux入侵证据的简单几个小技巧
  • m3u8视频下载器,可下载各大视频网站资源(自动合并切片)
  • 隐藏nginx版本号的方法介绍
2023年250篇
2022年15篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

源码市场

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳坪山网站建设公司优化网站的目的企业网站优化推广有什么好处弥渡网站优化报价电脑网站内部优化网站内容优化第一原则是什么巩义百度网站优化地址网站怎样做关键词优化北京网站推广优化找圣安华深圳首页网站关键词优化费用优化网站主页顺序扬州网站权重优化祖庙网站优化技术重庆綦江网站优化哪家好罗湖官方网站优化互联网推广东莞电子网站优化软件网站优化推广找谁呼和浩特网站优化公司 鹊起科技信阳网站关键词优化排名多少钱济南网站如何优化网站优化实训内容网站ceo优化怎么做网站优化seo的原则好的文章标题是网站优化的关键沈阳网站优化哪家便宜栖霞营销型网站优化湛江首页网站关键词优化网站优化的六个习惯苏州网站优化排名工作室网站优化师免费深圳靠谱的网站推广与优化香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

深圳坪山网站建设公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化