Sngr

shell下采集网页
最近想保存一个网站(论坛)数据,俗称采集,也是python常见应用,爬虫。因为该论坛需要登录之类,最简单的办法在s...
扫描右侧二维码阅读全文
30
2018/09

shell下采集网页

最近想保存一个网站(论坛)数据,俗称采集,也是python常见应用,爬虫。
因为该论坛需要登录之类,最简单的办法在shell下用curl循环下载网页,先拿一个vps爬了几天,今早一看vps被暂停了,理由是CPU利用率过高,停止1~2小时,但几个小时过去还是没有反应。2018-09-30_100737.jpg
本来这家vps也公告说不能再续费,估计不会给开起来了吧。
shell下采集基本流程代码摘取如下:

#定义初始文章id,
id=1
#开始循环 ,
while (id < 1000)
    #下载该id文章,
    curl -s -b "$cookie" --user-agent 'Mozilla/4.0 (Windows NT 4.1; WOW32) AppleWebKit/512.16 (KHTML, like Gecko) Chrome/64.11.97.100 Safari/512.32' $url >$id
    #处理网页文件(入库等)
    #判断下载的网页是否正常(非退出状态),判断是否有下一页,如有则继续下载下一页并重复判断
    id=id+1
done

两三天下载了157680网页,占硬盘大概17G,效率还是很低,要下完得猴年马月,正好这个vps暂停,那就换个服务器,改用python下载吧。
2018-09-30_101701.jpg
先占坑,空了再写。(用python采集网页并整理写入mysql
参考 :https://blog.csdn.net/a6225301/article/details/52821784 & https://blog.csdn.net/LolitaQ/article/details/78117838

Last modification:September 30th, 2018 at 10:44 am
If you think my article is useful to you, please feel free to appreciate

Leave a Comment