本文共 1226 字,大约阅读时间需要 4 分钟。
若想完成爬虫程序,需先安装以下工具包:
安装步骤:
os 是 Python 自带工具库,用于文件操作。
SSL 证书支持:
https 网站基于 SSL 加密传输,需注意证书验证。设置请求头:
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}
证书验证:
import sslssl._create_default_https_context = ssl._create_unverified_context
图片爬取函数:
def get_images(url): images_html = requests.get(url, headers=headers).text soup = BeautifulSoup(images_html, 'lxml') images_list = soup.find_all('div', class_='mbpho') for image in images_list: image_data = image.find('a', class_='a') image_url = image_data.find('img')['src'] image_id = image_data.find('img')['data-rootid'] try: urllib.request.urlretrieve(image_url, f'./古风头像/{image_id}{os.path.splitext(image_url)[-1]}') print('下载成功...') except: pass
转载地址:http://cqioz.baihongyu.com/