前言

文中文字及图片均来源网络供学习交流使用，版权归原作者，若有问题请联系处理。

若想完成爬虫程序，需先安装以下工具包：

requests 网络库

bs4 页面选择器

安装步骤：

pip install requests

pip install bs4

os 是 Python 自带工具库，用于文件操作。

SSL 证书支持：

https 网站基于 SSL 加密传输，需注意证书验证。

一般爬虫流程

1. 模拟浏览器访问目标网站 2. 使用 requests 发起 HTTP 请求获取网页数据 3. 通过 bs4 筛选所需数据 4. 根据规则下载图片

本次目标

爬取堆糖网图片：目标网站：https://www.duitang.com/

爬虫代码

导入工具： ```pythonimport requestsimport osfrom bs4 import BeautifulSoup```

设置请求头：

headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}

证书验证：

import sslssl._create_default_https_context = ssl._create_unverified_context

图片爬取函数：

def get_images(url):    images_html = requests.get(url, headers=headers).text    soup = BeautifulSoup(images_html, 'lxml')    images_list = soup.find_all('div', class_='mbpho')        for image in images_list:        image_data = image.find('a', class_='a')        image_url = image_data.find('img')['src']        image_id = image_data.find('img')['data-rootid']                try:            urllib.request.urlretrieve(image_url, f'./古风头像/{image_id}{os.path.splitext(image_url)[-1]}')            print('下载成功...')        except:            pass