最近想保存一个网站(论坛)数据,俗称采集,也是python常见应用,爬虫。
因为该论坛需要登录之类,最简单的办法在shell下用curl循环下载网页,先拿一个vps爬了几天,今早一看vps被暂停了,理由是CPU利用率过高,停止1~2小时,但几个小时过去还是没有反应。
本来这家vps也公告说不能再续费,估计不会给开起来了吧。
shell下采集基本流程代码摘取如下:
#定义初始文章id,
id=1
#开始循环 ,
while (id < 1000)
#下载该id文章,
curl -s -b "$cookie" --user-agent 'Mozilla/4.0 (Windows NT 4.1; WOW32) AppleWebKit/512.16 (KHTML, like Gecko) Chrome/64.11.97.100 Safari/512.32' $url >$id
#处理网页文件(入库等)
#判断下载的网页是否正常(非退出状态),判断是否有下一页,如有则继续下载下一页并重复判断
id=id+1
done
两三天下载了157680网页,占硬盘大概17G,效率还是很低,要下完得猴年马月,正好这个vps暂停,那就换个服务器,改用python下载吧。
先占坑,空了再写。(用python采集网页并整理写入mysql)
参考 :https://blog.csdn.net/a6225301/article/details/52821784 & https://blog.csdn.net/LolitaQ/article/details/78117838