用Python批量读取本地文本里的图片链接并下载到本地
背景: 我把 B 站热词表情包链接手动粘到 Twikoo 的 json 文件里时,发现图片链接在 Twikoo 里显示不了,B 站应该开启了防盗链,于是我打算把表情包下载到本地再上传到图床。话说为什么要手动去复制表情包链接,因为 B 站数据是动态显示的,Python 爬取到的源码里没有表情包链接,网上有人说这类网站用 Selenium 来获取源码,我测试后,其它同类网站成功了,但 B 站还是获取不到。现在只好先把链接一个一个保存到 json 文件里,再用 Python 逐个下载,这应该算是半自动化了吧。。。我先记录下如何读取文本里的图片链接并下载到本地吧。 核心代码 代码核心点就是读取文本内容、用正则表达式筛选出图片链接、命名、存储到本地文件夹 123456789101112131415with open(source_path, "r", encoding="UTF-8") as f: json = f.read() list = re.findall("[正则表达式]", json) list.reverse( ...
用Python批量爬取网络文章图片并下载到本地
背景: 有时候想搬运一些文章,文章图片少的话,可以一个一个右键保存在本地,一旦几十张以上会非常麻烦,正好最近也在自学 Python 爬虫,不妨写个 demo 用一用,顺便水一篇文章,哦不对,是两篇(搬运+教程)🤣 核心代码 代码核心点就是拿到图片链接、命名、存储到本地文件夹 12345678910for img_url in soup.select("<ID、Class、Tag等等定位>"): img_url = img_url.get("<data-src或者src>") res = requests.get(img_url) now = time.strftime("%Y-%m-%d_%H-%M-%S_", time.localtime()) # 当前时间-年月日时分秒 ms = str(time.time()).split(".")[1] # 当前时间-微秒 img_name = file_path + now + ms + " ...
Python网络爬虫笔记
参考 B 站IT 私塾的Python 爬虫编程基础 5 天速成(2021 全新合集)Python 入门+数据分析视频 初识网络爬虫网络爬虫(又被称为网页蜘蛛、网络机器人),是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。 其本质是,由一个入口网页进行深入,不停的进行其他的 URL 的爬取,然后再把抓取到的网页进行分析处理得出想要的数据。 Robots 协议,是网站跟爬虫间的协议,用简单直接的 txt 格式文本方式告诉对应的爬虫被允许的权限 网络爬虫的一般流程 发起请求,获取响应 通过 http 库,对目标站点进行请求。等同于自己打开浏览器,输入网址 常用库:urllib、urllib3、requests 服务器会返回请求的内容,一般为:html、二进制文件(视频,音频)、文档,json 字符串 解析内容 寻找自己需要的信息,就是利用正则表达式或者其他库提取目标信息 常用库:re、beautifulsoup4 数据持久化将解析得到的数据保存到文件或者数据库中 基本流程准备工作 弄清楚你需要爬取哪些页面,以及哪的数据 分析页面借助 Chrome 开发者工具(F1 ...