如何优雅的扒网站——工具篇

 

         在上一篇文章里本人介绍了扒网站的入门知识。可以说是仿站的必备知识。不过,在实战中没必要所有的页面都要全部手动去操作处理,完全可以借助大牛们写好的工具。网上搜索仿站工具或扒站工具能找到一堆,我就不一一介绍了。今天就分为两个部分来讲一讲扒站工具,第一部分是针对单页面的,第二部分是针对整站的。不要以为有了整站下载工具第一部分就可以跳过。目前为止我还没有找到一款完美的整站下载工具,大部分都要很繁锁地处理代码。所以除非页面很多,不然真不如单个页面分别抓取更快捷一些。

         第一个工具是抓取单网页的。

         每个软件的名称不一样,但是使用方法都是大同小异。我在这里就拿这个仿站工具举例了。首先打开软件,添加要抓取的网页地址,再点击下一步。

图片

         图片

         然后,选择好存放站点文件的目录,点击开始下载,等待下载完成即可。

图片

图片

 

         图片

         到这一步已经完成,打开选择的存放目录,你需要的文件已经按image,css,js分类好了,其中image是页面引用的图片,picture是css中引用的图片。是不是soeasy.

 图片

         第二部分是整站下载

         感觉整站下载是个高大上的手段,能把别人的网站整个剽窃下来。不过下面的步骤可能会令你有些失望。因为我使用的这个工具有太多不尽人意之处,比如说html,css,js没有美观的分类,html命名莫名地冗长,背景图片的无端丢失,还有软件商植入的标签痕迹。带着这些问题点我们要一一解决掉。

         先给这个工具来个特写吧,我是没有花钱直接下载的注册版,估计花钱购买的会更好用一些。

         图片

         首先在菜单栏,依次选择文件-新建项目向导,在弹出框里点击下一步。

图片

         然后,还是傻瓜式的操作。填写上要抓的网站地址,当然是写网站首页。链接深度不用管用默认的3就可以,接着点下一步。

         图片

         接下来还是下一步,如果有账号密码就填上,没有就忽略。

         图片

         一路点完成后,会提示选择存放路径。然后配置步骤就算完成了。然后激动人心的时刻来了,点击工具栏的三角图标。整站下载就开始了,等一两分钟,提示下载完成。


图片

图片


图片



图片

 

         不要以为这就算结束了,这才刚刚开始。你也看到了,所有文件都放在一个目录里。而且我已经按照类型排序,还是如此混乱。幸好是只有两个页面,如果多的话那要乱成什么样子。下面的工作就是处理我一开始说的各种问题,包括统一命名。因为如果有子页面的话,他会用特别长的字符来命名。

1.      按类型分类。

按类型分类是个很好的习惯,强列建议把这一步放在第一位,谨记分类后把页面的引入路径批量调整下。

 

         2.使用正则去掉tppabs标记

                   图片

                   如果你用的工具没有这种流氓行为那么可以忽略这一步。如果有那么我们就需要使用正则来批量替换了。这应该是特别简单的正则了,具体语句和替换方式请根据使用工具和文本编辑软件来使用,这里以sublime作参考,tppabs="[^"]+"

         图片

  3.使用脚本下载css中的背景图片。

          上面提到过了,这个工具会漏掉css文件中的背景图片文件。那么我们就需要单独写个脚本来下载图片了。至于用什么脚本看你擅长什么了。我用的是php,所以用php脚本作参考。同第一步一样,下载好以后,记得把引入的文件路径与实际路径对应上。

  

$root_url = 'http://m.enjoyfin.com/statics/css/'; //原存放css文件的根目录
    $pic_bac  = 'http://m.enjoyfin.com/statics/';     //原存放背景图片的根目录
    $webs = array(
            'style.css',
            'swiper.css'
            );
    echo "<pre>";
    foreach($webs as $k=>$v)
    {
        $url = $root_url.$v;
        $contents = file_get_contents($url);
        if(preg_match_all("/background:url\(\.\.\/(.+)\)\s+no-repeat/",$contents,$new)){
        //print_r($new[1]);
              foreach ($new[1] as $key => $value) {
                  $pic_url = $pic_bac.$value;
                  $new_url = './images/'.substr(strrchr($value, '/'), 1);
                  
                  echo "<br>";
                  $content = file_get_contents($pic_url);
                file_put_contents($new_url,$content);
                echo $new_url;
              }
        }else{
               echo '未找到';
        }
    }

 

4.批量命名文件

不嫌麻烦的话手动重命名未尝不可,我在这里只是提供一个思路,肯定会有更好的方法。

首先打开cmd,进入存放html文件的目录,使用dir /b>abc.xls  命令把所有文件导出到abc.xls的excel表格里。然后,使用分列,合并等等方法,把每一条内容变成

 

rename "index.php-m=content&c=index&a=show&catid=9&id=9.htm" "catid=9id=9.htm"  // 重命名文件

 

类似这样一条命令,再把命令脚本全都放在一个记事本里,保存成bat拓展名的可执行脚本放在Html文件目录,双击执行就ok了。当然还有关键的一步,把html文件中的引入路径,链接路径批量替换一下。

 

 

         以上就是抓取单页面和整站使用工具的方法,如果任性可以去购买收费软件。如果穷逼或是练手,那么不妨一试吧。

 

转载于:https://www.cnblogs.com/zuoshoupai/p/8276741.html

weixin_34049948
关注 关注
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大厂面试突击——JavaWeb
公号:一条coding
08-18 3万+
大厂面试第二弹,收藏走起!
工具,听说是最好的网站工具
01-05
。。。。。。。工具,听说是最好的网站工具
站神器
sinat_38992528的博客
11-14 5060
如何别人网站(网页) 附网站神器 21564 人参与  2016年8月14日 22:03  分类 : 软件分享  评论   好久木有分享软件了,今天分享个如何把别人的网站占为己有,即如何取别人网站。站长朋友们在看到好看的博客啊,网站啊,肯定都会想把它占为己有。如果能在某宝上买到还好,如果不能买到,站长又不想出售,怎么办呢?对于既不懂代码又不懂网页设计的人来说,
工具,迅速获取网页图片
最新发布
小豆包
08-16 256
工具,迅速获取网页图片。
网站页面工具
08-09
很好用的一个网站页面工具,成功率不是100%,但是大部分网站还是可以的,分享给经常网页的同行。
4种常用工具(webzip、ha_TeleportPro、Offline Explorer、wget)
lxw1844912514的博客
05-17 1万+
许多开始做lead,EMU的新手,需要一个英文网站,找人定制费用太贵自己又不会技术的话,可以通过站来获得英文站,今天给大家介绍几种工具: 1.HA_TeleportPro: Teleport Pro所能做的,不仅仅是离线浏览某个网页(让你离线快速浏览某个网页的内容当然是它的一项重要功能),它可以从Internet的任何地方抓回你想要的任何文件,它可以在你...
网站工具
03-09
作为一个技术,看见一个好的网站会忍不住有想趴下全站来研究的冲动,今天就分享一个非常非常好用的工具,免费使用的,无需费用
网站工具集合
11-17
此压缩包包含的工具有: 1.网站抓取精灵V3.0正式版 2.TeleportPro 3.webzip 4.Teleport Ultra 5.防站小工具
网页工具
05-25
快速抓取html文件、CSS样式,网页工具
测试书写优雅字体类——测试
08-02
测试书写优雅字体类——测试测试书写优雅字体类——测试测试书写优雅字体类——测试测试书写优雅字体类——测试测试书写优雅字体类——测试测试书写优雅字体类——测试测试书写优雅字体类——测试测试书写优雅字体类...
看完这文章保你面试稳操胜券——Vue
官方推荐
11-18 4万+
很多伙伴都说进大厂很艰难,本人觉得在it行业想要进入规模比较大的互联网公司,首先有个本科学历作为敲门砖就够用了,足以敲开大厂的大门,然而向你迎面走来的面试官只有你足够强大才能去应付他,博主今天就为大家总结一套前端面试题,很强势呦,让你在面试过程中 solo 全场。 跟伙伴们聊天中了解到,大家普遍认为前端的面试题比较杂乱,很难去看全,在这里小编告诉你,嗯。。。。确实如此,因为前端面试的话根据公司的产品不同、运用技术不同、乃至面试官的习惯不同都可能导致问你的问题都是你没有了解过的,不过不要慌,今天小编为你总.
站小工具
09-30
下载即可使用无需破解,纯净版不携带任何病毒。可以抓取一些网站的前端网页,但是代码如果采用了·MD5加密的无法解密。一般网站都可抓取。
windows工具
04-16
windows站小工具 非常实用,windows站小工具 非常实用
网页小工具
03-06
可以用来获取某个你喜欢的网站布局...
100天精通Python丨基础知识 —— 02、Python和Pycharm(语言特点、学习方法、工具安装)
热门推荐
独木不成林,单弦不成音。
12-09 8万+
刚接触一门语言的时候,势必会很痛苦:1 是没有形成知识框架,2 是基础薄弱甚至没有,不要担心,西红柿就是这么过来的! 我会详细介绍我的学习过程和踩过的坑,让大家少走弯路,快速入门。
泰凌微8258入门教程 基础②——BDT调试工具Tdebug实时查看全部变量
小康师兄
03-29 4116
泰凌微8258入门教程 基础②——BDT调试工具Tdebug实时查看全部变量
网站工具
wgb0409的博客
03-16 232
http://www.templatespider.zvo.cn/#rjxz
写文章

热门文章

  • 关于连接PostgreSQL时提示 FATAL: password authentication failed for user "连接用户名" 的解决办法... 40240
  • js-sha256源码 28942
  • 关于SpringMVC的HttpMediaTypeNotSupportedException异常解决 19993
  • css 始终让图片占满自适应盒子(图片不失真) 17224
  • MAC 微信表情包 导出 16363

最新评论

  • spring mvc如何计算BEST_MATCHING_PATTERN_ATTRIBUTE

    jxplus: 能不乱抄吗,这个版本AbstractUrlHandlerMapping#getHandlerInternal,这是个接口,哪里有实现类。

  • 如何用Python网络爬虫爬取网易云音乐歌曲

    朽木之歌: 没有代码吗?表情包

  • 基于角色的权限管理系统

    OnlyPiglet: [code=csharp] adadasdasd [/code]

  • python将列表元素按指定数目分组

    95love: 您好 大佬,如果是不按照平均分配,怎么分组

  • 怎么判断ThreadPool线程池里的任务都执行完毕

    氏族归来: 感谢分享,总结的真好,谢谢

大家在看

  • 人工智能毕业论文题目【附数据】 500
  • 用AI画一组《鱼跃龙门》 299
  • Apache Linkis介绍与部署
  • 不信你没炸过,电子工程师日常工作破防瞬间= =、
  • 4.网工入门篇--------网络通讯协议介绍 2

最新文章

  • several useful Store Procedures in MSSQL
  • usaco Typo
  • iOS 应用有用户评论功能 因为潜在色情信息被退回解决方案
2019年347篇
2018年694篇
2017年956篇
2016年539篇
2015年429篇
2014年320篇
2013年309篇
2012年270篇
2011年184篇
2010年151篇
2009年104篇
2008年105篇
2007年64篇
2006年37篇
2005年14篇
2004年10篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳坪山网站建设公司亳州网站搜索排名优化多少钱云浮公司网站关键词优化技巧嘉兴保新网站优化价格商丘网站建设优化渠道seo网站优化优选火星软件江门搜狗网站推广优化网站seo进行优化内容德州知名网站优化玉林网站排名优化服务论坛网站流量优化手机网站怎么做优化化工网站优化知识郑州实力网站优化惠阳优化网站费用电影网站优化需要多少钱虞城网站优化费用东湖教育网站优化嘉定网站优化服务网站注册优化佛山网站关键词优化多少钱网站建设与优化苑到丿云速捷太原如何优化网站南阳网站排名优化张掖网站权重优化网站的优化心细火23星金水区网站优化排名麻涌互联网网站制作优化清溪网站优化哪家好网站优化方法和技术三明浙江网站优化建站香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

深圳坪山网站建设公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化