Python网络爬虫：爬虫篇（一）---最简单的网络爬虫

最新推荐文章于 2024-07-30 20:19:30 发布

源码市场

最新推荐文章于 2024-07-30 20:19:30 发布

阅读量188

收藏

点赞数

分类专栏：编程交流文章标签： python 爬虫开发语言 Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/u011055144/article/details/128605068

版权

编程交流专栏收录该内容

62 篇文章 0 订阅

订阅专栏

本文介绍了如何使用Python的urllib.request模块编写一个简单的网络爬虫。首先讲解了如何导入和安装模块，然后通过urlopen()函数发送请求获取网页内容。在遇到HTTPResponse对象时，使用read()方法读取源代码。进一步，文章提出了让用户体验更佳的进阶玩法，允许用户自定义URL，并通过异常处理机制处理错误URL的情况，确保程序的健壮性。

摘要由CSDN通过智能技术生成

知周所众，Python是一门强大的编程语言，我们可以用它来做许多事情，今天，我们就尝试着用Python来写一个最简单的网络爬虫。

准备工作

我们这次要用到Python中的urllib.request的第三方模块，要想使用这个模块，你就得下载下来（质量守恒定律doge），下载方法就不过多赘述，无论是什么模块，下载的方法都无非是：

这样，我们的第三方库就安装成功了，接下来就是要导入这个库：

那么到这里，我们的准备工作就做完了，接下来就开始写吧！

基础玩法

首先，我们要知道，我们需要用的是一个函数：urlopen()函数，这个函数可就NB了，可以给目标url发送一个请求，那么接下来，我们再用print()函数打印出来不就可以了，来看看吧，这里我们以B站为例，先写出下面这段代码：

观察输出结果，我们会发现不对的地方，这...

这，这不对吧，说好的源代码呢，就这？我没学过前端，你别骗我，嗯，这确实不是，不过问题不大，我们先用type()函数来看看它的类型：

我们来看看这家伙到底是“何方神圣”：

可以看到，这其实是一个HTTPResponse类型的对象（话说我都学了两年面向对象编程了，居然还没有对象doge），那么怎么办呢，我们可以利用这个对象中的read()方法把他读出来，而且要用utf-8或gbk格式：

那么现在，我们再来看看结果吧，可以看到，这就是B站网页的源码了：

进阶玩法

所谓进阶玩法，既然是设计，那就应该用户怎么舒服怎么来，用户也不一定都学过Python，要是人家想自己爬自己想爬的，难不成要自己改参数？所以我们要设计一个可以让用户自己输入url的代码，那么我们利用input()函数就可以轻松的写出以下代码：

那么这样不就可以让自己用户输入url了，但是很快，一个新的问题摆在我们面前，如果用户故意输入一个错误的url应该怎么办呢，我们不妨先自己输入一个错误的url，观察报错信息：

可以看到，报出了Valueerror，即输入错误，怎么办呢，可以配合异常处理：

那么这次我们再输入一个错误的url试一下：

这样就实现了，当然，也可以加入循环或GUI提升用户的体验，那么由于时间原因，我们就先谈到这里，下期继续，感谢收看，欢迎留言一起探讨！

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

源码市场 CSDN认证博客专家 CSDN认证企业博客

265: 原创

24万+: 周排名

179万+: 总排名

36万+: 访问

: 等级

3048: 积分

50: 粉丝

65: 获赞

52: 评论

441: 收藏

写文章

热门文章

服务器报错nginx 502 Bad Gateway的原因以及解决办法 53543
ping命令一直测试网络丢包原因及处理解决方法 22869
无法登陆宝塔面板？宝塔界面为什么无法访问？宝塔面板登陆不上?宝塔面板打不开解决办法 15857
网页报503 service unavailable错误怎么解决 15521
html页面中如何添加背景音乐 12169

分类专栏

网站源码 61篇
网络安全 80篇
软件工具 10篇
技术教程 54篇
编程交流 62篇

最新评论

每日祝福语微信小程序源码 4.0.3
2401_85967131: 怎么获取
宝塔海外版aapanel中文语言包以及安装命令
bv4cv: download.btpanel.cm 網址錯誤應該是 download.btpanel.com
2022最新改良版彩虹知识付费模板源码
accpvp: 免费的往往是最贵的
服务器报错nginx 502 Bad Gateway的原因以及解决办法
m0_71899117: 我的错误是2024/03/26 22:06:46 [crit] 3853#3853: *22 stat() "/home/pi/DjangoBlog/" failed (13: Permission denied), client: 192.168.201.211, server: www.zhichibupang.com, request: "GET / HTTP/1.1", host: "192.168.201.160" 2024/03/26 22:06:46 [error] 3853#3853: *22 connect() failed (111: Connection refused) while connecting to upstream, client: 192.168.201.211, server: www.zhichibupang.com, request: "GET / HTTP/1.1", upstream: "http://127.0.0.1:8000/", host: "192.168.201.160" ，该怎么解决，大佬

最新文章

查找linux入侵证据的简单几个小技巧
m3u8视频下载器，可下载各大视频网站资源（自动合并切片）
隐藏nginx版本号的方法介绍

目录

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

成就一亿技术人!

发出的红包

打赏作者

源码市场 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

您的余额不足，请更换扫码支付或充值

打赏作者

使用余额支付

点击重新获取

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

深圳坪山网站建设公司优化网站的目的企业网站优化推广有什么好处弥渡网站优化报价电脑网站内部优化网站内容优化第一原则是什么巩义百度网站优化地址网站怎样做关键词优化北京网站推广优化找圣安华深圳首页网站关键词优化费用优化网站主页顺序扬州网站权重优化祖庙网站优化技术重庆綦江网站优化哪家好罗湖官方网站优化互联网推广东莞电子网站优化软件网站优化推广找谁呼和浩特网站优化公司鹊起科技信阳网站关键词优化排名多少钱济南网站如何优化网站优化实训内容网站ceo优化怎么做网站优化seo的原则好的文章标题是网站优化的关键沈阳网站优化哪家便宜栖霞营销型网站优化湛江首页网站关键词优化网站优化的六个习惯苏州网站优化排名工作室网站优化师免费深圳靠谱的网站推广与优化香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户 315晚会后胖东来又人满为患了高校汽车撞人致3死16伤司机系学生张家界的山上“长”满了韩国人？张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲 “重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后原水城县长再被查凯特王妃现身！外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人多人受伤

深圳坪山网站建设公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化