要offer不要饭

2019-08-22 18:46 已编辑门头沟学院数据分析师

关注

使用 Selenium 爬取斗鱼直播数据（2019最新）

环境：Win10 需要安装 Chromedriver

Chromedriver下载（需对应浏览器的版本）

这些是我最近在学 selenium 模块爬取得斗鱼直播数据，以下爬取的是图片、详情地址、标题、类别、观看热度、主播。

以下也提供了代码作参考：

#!/usr/bin/env python3 # -*- coding:UTF-8 -*- __author__ = 'Jachin' from selenium import webdriver from retrying import retry import time import json class DouYu(): def __init__(self): self.start_url = 'https://www.douyu.com/directory/all' self.driver = webdriver.Chrome()  @retry(stop_max_attempt_number=5)  # 尝试多次请求 def get_content_list(self): li_list = self.driver.find_elements_by_xpath("//ul[@class='layout-Cover-list']/li")
        content_list = [] for li in li_list:
            item = {}
            item["img"] = li.find_element_by_xpath(".//img[@class='DyImg-content is-normal ']").get_attribute('src')
            item['url'] = li.find_element_by_xpath(".//a[@class='DyListCover-wrap']").get_attribute('href')
            item['title'] = li.find_element_by_xpath(".//h3[@class='DyListCover-intro']").get_attribute('title')
            item['categroies'] = li.find_element_by_xpath(".//span[@class='DyListCover-zone']").text
            item['watch_num'] = li.find_element_by_xpath(".//span[@class='DyListCover-hot']").text
            item['anchor'] = li.find_element_by_xpath(".//h2[@class='DyListCover-user']").text
            print(item)
            content_list.append(item) # 提取下一页元素 next_url = self.driver.find_elements_by_xpath("//span[@class='dy-Pagination-item-custom']")
        next_url = next_url[0] if len(next_url) > 0 else None return content_list, next_url def save_content_list(self, content_list): with open('douyu2.txt', 'a', encoding='utf-8')as f: for content in content_list:
                f.write(json.dumps(content, ensure_ascii=False))
                f.write("\n")
        print("已保存成功") def run(self): # 1. 准备url # 2. 发送请求,获取响应 self.driver.get(self.start_url) # 3. 提取数据,提取下一页的元素 content_list, next_url = self.get_content_list() # 4. 保存 self.save_content_list(content_list) # 5. 点击下一页，数据的提取循环 while next_url is not None:
            next_url.click() # 页面没有完全加载完,会报错 time.sleep(2)
            content_list, next_url = self.get_content_list()
            self.save_content_list(content_list) if __name__ == '__main__':
    douyu = DouYu()
    douyu.run()

最后附上一张爬取成功的图片：

斗鱼爬取结果

公众号：码之成长

完结撒花~~

全部评论

推荐最新楼层

07-20 12:37

蚌埠坦克学院嵌入式软件开发

实习前的幻想，实习后的清醒

实习之前，我曾以为这是进入职场、快速成长的跳板。以为自己能参与核心项目，有人带、有机会锻炼、有技术挑战。每天像工程师一样写代码、开会、提方案，一步步逼近理想中的“职场人”。可真正实习后才发现，现实并不如人所想：更多时候是在打杂，比如跑脚本、填表、写日报；项目边缘化，接触不到核心模块；导师忙得顾不上你，没人有义务手把手教；学到东西的速度比想象中慢太多。不是说实习完全没价值，而是——它不像课堂那样系统，更多的是“自己找机会，自己去拼”。成长不是被安排好的任务，而是从边角料里挖出来的经验。实习，是理想和现实之间的一场碰撞。学得多不多，机会大不大，很大程度上取决于你能不能主动去争。

你以为的实习VS真实的实...

点赞评论收藏

分享

07-22 17:54

青岛理工大学机械工程师

速腾聚创提前批一面

面了差不多40分钟，自我介绍+项目+竞赛+职业规划+城市选择+反问提前批强度很大，主要是问项目，还有竞赛的大概过程已约二面

速腾聚创二面26人在聊

点赞评论收藏

分享

07-06 23:16

大连理工大学机械结构工程师

一个9的工科男简历这样？

我的简历是不是有点low了，大角牛们给指点指点呗😥😥

Vincent777...：实习经历可以考虑放上去，对于软件使用方面可以细化一些，比如调整为:熟悉基于LSDYNA的瞬态动力学仿真分析，熟悉基于WORKBENCH的结构拓扑优化

我的简历长这样

点赞评论收藏

分享

06-13 17:33

门头沟学院 Java

顺序不记了，大致顺序是这样的，有的相同知识点写分开了1.基本数据类型2.基本数据类型和包装类型的区别3.==和equals区别4.ArrayList与LinkedList区别5.hashmap底层原理，put操作时会发生什么6.说出几种树型数据结构7.B树和B+树区别8.jvm加载类机制9.线程池核心参数10.创建线程池的几种方式11.callable与runnable区别12.线程池怎么回收线程13.redis三剑客14.布隆过滤器原理，不要背八股，说说真正使用时遇到了问题没有（我说没有，不知道该怎么回答了）15.堆的内存结构16.自己在写项目时有没有遇见过oom，如何处理，不要背八股，根据真实经验，我说不会17.redis死锁怎么办，watchdog机制如何发现是否锁过期18.如何避免redis红锁19.一个表性别与年龄如何加索引20.自己的项目的QPS怎么测的，有没有真正遇到大数量表21.说一说泛型22.springboot自动装配原理23.springmvc与springboot区别24.aop使用过嘛？动态代理与静态代理区别25.spring循环依赖怎么解决26.你说用过es，es如何分片，怎么存的数据，1000万条数据怎么写入库中27.你说用limit，那么在数据量大之后，如何优化28.rabbitmq如何批次发送，批量读取，答了延迟队列和线程池，都不对29.计网知不知道smtp协议，不知道写了对不对，完全听懵了30.springcloud知道嘛？只是了解反问1.做什么的？短信服务，信息量能到千万级2.对我的建议，基础不错，但是不要只背八股，多去实际开发中理解。面试官人不错，虽然没露脸，但是中间会引导我回答问题，不会的也只是说对我要求没那么高。面完问我在济宁生活有没有困难，最快什么时候到，让人事给我聊薪资了。下午人事打电话，问我27届的会不会跑路，还在想办法如何使我不跑路，不想扣我薪资等。之后我再联系吧，还挺想去的😭，我真不跑路哥😢附一张河科大幽默大专图，科大就是大专罢了

查看30道真题和解析

点赞评论收藏

分享

不愿透露姓名的神秘牛友

07-25 13:59

人才就应该待在人才库里

点赞评论收藏

分享

评论

点赞

1

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 哪些公司开提前批了？ #

27879次浏览 268人参与

# 入职以后才知道的校招谎言 #

88673次浏览 583人参与

# 风评不好的公司，你会去吗？ #

63557次浏览 450人参与

# 华子oc时间线 #

1244592次浏览 6487人参与

# 哪些公司校招卡第一学历 #

70387次浏览 280人参与

# 校招第一份工作你干了多久？ #

95309次浏览 423人参与

# 实习如何「偷」产出？ #

52933次浏览 1355人参与

# 除了主业以外，你还有哪些其他收入？ #

12614次浏览 202人参与

# 不卡学历的大厂有哪些？ #

30649次浏览 232人参与

# 机械人，你的第一份感谢信是谁给的 #

30609次浏览 310人参与

# 校招阶段，学历VS技术哪个更重要？ #

18243次浏览 188人参与

# 职场新人体验 #

27274次浏览 251人参与

# 研究所笔面经互助 #

78583次浏览 483人参与

# 工作丧失热情的瞬间 #

294151次浏览 2372人参与

# 腾讯音乐求职进展汇总 #

98268次浏览 570人参与

# 你的秋招第一场笔试是哪家 #

148273次浏览 1485人参与

# 社恐入职新公司如何融入团队 #

12062次浏览 63人参与

# 华为开奖那些事 #

4094624次浏览 24608人参与

# 校园里的破防时刻 #

12019次浏览 128人参与

# Offer比较，你最看重什么？ #

191885次浏览 1308人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务