蛮三刀把刀

2021-10-08 14:11 已编辑阿里巴巴_ICBU技术部_后端开发

关注

【python爬虫】爬取知乎收藏夹内所有图片

比如要爬取：https://www.zhihu.com/collection/26347524

只用自带库，没用框架。

# -*- coding: utf-8 -*-
from __future__ import unicode_literals
import urllib
import urllib2
import re
import socket
import os


class Spider:

    def __init__(self, site_url):
        self.site_url = site_url
        self.p = 0

    def get_page(self):
        proxy = {'http': '115.215.209.77:8118'}
        proxy_support = urllib2.ProxyHandler(proxy)
        print proxy_support
        opener = urllib2.build_opener(proxy_support)
        urllib2.install_opener(opener)
        i_headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0'}

        self.p += 1
        url = self.site_url + "?page=" + str(self.p)
        print url
        request = urllib2.Request(url, headers=i_headers)
        response = urllib2.urlopen(request)
        return response.read()

    def get_pic(self):
        while 1:
            page = self.get_page()
            img_re = re.compile(r'data-original="(https://.*?)&')
            img_list = re.findall(img_re, page)
            print 'img_list'
            print img_list
            if img_list:
                x = 1
                for img_url in img_list:
                    print '正在保存第%s页的第%s张'%(self.p, x+1)
                    try:
                        urllib.urlretrieve(img_url,'%s/picture_%s_%s.jpg' % (name, self.p, x))
                    except urllib2.URLError, e:
                        if isinstance(e.reason, socket.timeout):
                            raise MyException("下载超时，跳过此图: %r" % e)
                            continue
                        else:
                            continue
                    x += 1
            else:
                break


print '请输入收藏夹代号:'
in_URL = raw_input()
in_URL = in_URL.strip()
li = re.findall(r"\d+", in_URL)
name = li[0]  # li是一个list，取出其中唯一一个字符串
print '图片保存在当前目录的：%s下' % name
if not os.path.exists('%s' % name):
    os.makedirs('%s' % name)

spider = Spider(in_URL)
spider.get_pic()
print '所有收藏夹内图片保存完毕'

转载请注明原地址

全部评论

推荐最新楼层

05-30 17:32

门头沟学院 Unity3D客户端

unity客户端选手求指点，还有一个月的比较闲的时间，我应该做什么呢？

我有两个想法一个是把我的网络同步demo做一个完整点的项目出来，一个是继续学shader做特效

牛客在线求职答疑中心

点赞评论收藏

分享

昨天 17:36

湖南农业大学客户端开发

新手学Qt必做项目：可拖拽、可连线、可导出的流程图工具

📊 Flowchart Software流程图工具软件  项目名称： FlowchartSoftware（流程图编辑器） 开发周期： 7 天 总代码量： ~4000 行（约 30 个文件，20+ 个类） 技术栈： C++17 + Qt 6.5（Widgets + PrintSupport + SVG + XML）   一、7天学习计划总览 1.1 每日进度一览    天数 主题 难度 新增文件 修改文件 代码量 核心成果     Day1 主窗口骨架搭建 ⭐ 3个 — ~80行 空窗口可运行，菜单栏+工具栏+状态栏   Day2 图形基类+7种形状 ⭐⭐ 17个 1个 ~800行 7种图形类...

简历中的项目经历要怎么写

点赞评论收藏

分享

05-21 18:46

二面完，两天后链接自动消失了。后面希望大吗

点赞评论收藏

分享

06-03 14:28

中山大学算法工程师

9本赋能学长 0刷题八股上岸字节

学弟学妹们需要看简历的 或者有问题的 随便问。看到都会回

点赞评论收藏

分享

06-02 23:02

门头沟学院 Python

当前公司测试流程 ai在手工测试中现在怎么用Agent评测怎么做的群聊Agent幻觉怎么解决的群聊Agent的效果评测怎么做的目前LLM-as-Judge的准确度怎么样模型压测怎么做的模型压测关注哪些结果实习接口自动化巡检，报出问题的频率怎么样接口串联的自动化怎么做的，一个接口的响应怎么给到下一个接口使用用哪些ai工具平时什么场景下用哪些模型职业发展方向平时工作时间怎么样，压力如何

查看14道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 我的实习日记 #

4168674次浏览 33314人参与

# 牛客AI文生图 #

25484次浏览 251人参与

# 第3届现代汽车Code Faster急速编程挑战赛 #

34601次浏览 534人参与

# 柠檬微趣笔试 #

5194次浏览 67人参与

# 城市生存手册 #

7010次浏览 106人参与

# 如果人间有后悔药 #

10280次浏览 234人参与

# 入职第一天，你准备什么时候下班 #

128922次浏览 530人参与

# 你的房租占工资的比例是多少？ #

104324次浏览 911人参与

# 实习最晚的一次下班是几点 #

39995次浏览 177人参与

# 用一句话形容你的团队氛围 #

53501次浏览 316人参与

# 一人推荐一个值得去的通信/硬件公司 #

273227次浏览 2169人参与

# 你以为的实习VS真实的实习 #

147552次浏览 767人参与

# 哪些公司对双非友好 #

244535次浏览 1291人参与

# 毕业后不工作的日子里我在做什么 #

281139次浏览 1751人参与

# 听到哪句话就代表面试稳了or挂了？ #

278717次浏览 1791人参与

# 你上一次加班是什么时候？ #

164129次浏览 831人参与

# 新凯来求职进展汇总 #

84812次浏览 197人参与

# 为了找工作你投递了多少公司？ #

127583次浏览 800人参与

# 双非本科的出路是什么？ #

237751次浏览 1670人参与

# 现在入门AI应该走哪些方向？ #

35751次浏览 205人参与

# 我想象的工作vs实际工作 #

726874次浏览 5064人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务