牛客943009291号

昨天 22:07 上海财经大学产品经理发布于黑龙江

关注

Python爬取豆瓣TOP250电影全攻略

Python 爬取豆瓣TOP250电影数据的技术实现

爬取豆瓣TOP250电影数据是学习Python网络爬虫的经典案例。通过分析网页结构、发送HTTP请求、解析HTML内容，可以获取电影名称、评分、导演、主演等信息。

环境准备 需要安装requests库发送HTTP请求，BeautifulSoup或lxml库解析HTML内容。安装命令如下：

pip install requests beautifulsoup4

分析网页结构 打开豆瓣TOP250页面（https://movie.douban.com/top250），检查网页源代码。每部电影信息包含在<div class="item">标签中，电影名称在<span class="title">，评分在<span class="rating_num">。

发送HTTP请求 使用requests库发送GET请求获取网页内容。需要设置User-Agent模拟浏览器访问，避免被反爬虫机制拦截。

import requests
from bs4 import BeautifulSoup

url = 'https://movie.douban.com/top250'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url, headers=headers)

解析HTML内容 使用BeautifulSoup解析返回的HTML内容，提取所需数据。

soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.find_all('div', class_='item')
for movie in movies:
    title = movie.find('span', class_='title').text
    rating = movie.find('span', class_='rating_num').text
    print(f'电影名称：{title}，评分：{rating}')

处理分页数据 豆瓣TOP250分为多页显示，需要循环处理每页数据。观察URL规律，发现分页通过start参数控制。

for start in range(0, 250, 25):
    url = f'https://movie.douban.com/top250?start={start}'
    response = requests.get(url, headers=headers)
    # 解析逻辑同上

数据存储 将爬取的数据保存到CSV文件或数据库。使用csv模块实现简单存储。

import csv

with open('douban_top250.csv', 'w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['电影名称', '评分', '导演', '主演'])
    for movie in movies:
        # 提取数据并写入

反爬虫策略应对 豆瓣有反爬虫机制，需要控制请求频率，添加随机延迟。使用time.sleep实现简单延迟。

import time
import random

time.sleep(random.uniform(1, 3))  # 随机延迟1-3秒

完整代码示例

import requests
from bs4 import BeautifulSoup
import csv
import time
import random

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

with open('douban_top250.csv', 'w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['排名', '电影名称', '评分', '导演', '主演', '年份', '地区', '类型'])

    for start in range(0, 250, 25):
        url = f'https://movie.douban.com/top250?start={start}'
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.text, 'html.parser')
        movies = soup.find_all('div', class_='item')

        for movie in movies:
            rank = movie.find('em').text
            title = movie.find('span', class_='title').text
            rating = movie.find('span', class_='rating_num').text
            info = movie.find('div', class_='bd').p.get_text(strip=True).split('\n')[0]
            writer.writerow([rank, title, rating, *info.split('/')])

        time.sleep(random.uniform(1, 3))

注意事项

尊重网站robots.txt协议，控制爬取频率
避免对服务器造成过大压力
爬取数据仅用于学习研究，不得用于商业用途
豆瓣可能会更新页面结构，需要定期维护代码

通过这个案例可以掌握Python爬虫的基本技术要点，包括请求发送、页面解析、数据存储和反爬虫应对策略。

BbS.okacop010.info/PoSt/1120_356610.HtM
BbS.okacop011.info/PoSt/1120_125433.HtM
BbS.okacop012.info/PoSt/1120_524445.HtM
BbS.okacop013.info/PoSt/1120_650039.HtM
BbS.okacop014.info/PoSt/1120_230314.HtM
BbS.okacop015.info/PoSt/1120_986880.HtM
BbS.okacop016.info/PoSt/1120_024203.HtM
BbS.okacop017.info/PoSt/1120_205367.HtM
BbS.okacop018.info/PoSt/1120_792558.HtM
BbS.okacop019.info/PoSt/1120_244415.HtM
BbS.okacop020.info/PoSt/1120_293564.HtM
BbS.okacop021.info/PoSt/1120_846815.HtM
BbS.okacop022.info/PoSt/1120_660564.HtM
BbS.okacop023.info/PoSt/1120_116344.HtM
BbS.okacop024.info/PoSt/1120_202572.HtM
BbS.okacop025.info/PoSt/1120_137726.HtM
BbS.okacop026.info/PoSt/1120_669158.HtM
BbS.okacop027.info/PoSt/1120_392988.HtM
BbS.okacop028.info/PoSt/1120_813756.HtM
BbS.okacop029.info/PoSt/1120_350049.HtM
BbS.okacop020.info/PoSt/1120_298987.HtM
BbS.okacop021.info/PoSt/1120_343895.HtM
BbS.okacop022.info/PoSt/1120_227967.HtM
BbS.okacop023.info/PoSt/1120_480090.HtM
BbS.okacop024.info/PoSt/1120_390966.HtM
BbS.okacop025.info/PoSt/1120_230282.HtM
BbS.okacop026.info/PoSt/1120_171013.HtM
BbS.okacop027.info/PoSt/1120_078739.HtM
BbS.okacop028.info/PoSt/1120_258092.HtM
BbS.okacop029.info/PoSt/1120_609087.HtM
BbS.okacop020.info/PoSt/1120_582831.HtM
BbS.okacop021.info/PoSt/1120_142585.HtM
BbS.okacop022.info/PoSt/1120_598303.HtM
BbS.okacop023.info/PoSt/1120_343113.HtM
BbS.okacop024.info/PoSt/1120_272832.HtM
BbS.okacop025.info/PoSt/1120_349602.HtM
BbS.okacop026.info/PoSt/1120_994269.HtM
BbS.okacop027.info/PoSt/1120_665900.HtM
BbS.okacop028.info/PoSt/1120_672010.HtM
BbS.okacop029.info/PoSt/1120_328131.HtM
BbS.okacop020.info/PoSt/1120_133305.HtM
BbS.okacop021.info/PoSt/1120_348146.HtM
BbS.okacop022.info/PoSt/1120_499403.HtM
BbS.okacop023.info/PoSt/1120_930025.HtM
BbS.okacop024.info/PoSt/1120_266392.HtM
BbS.okacop025.info/PoSt/1120_082160.HtM
BbS.okacop026.info/PoSt/1120_797801.HtM
BbS.okacop027.info/PoSt/1120_994917.HtM
BbS.okacop028.info/PoSt/1120_995588.HtM
BbS.okacop029.info/PoSt/1120_796597.HtM
BbS.okacop020.info/PoSt/1120_191858.HtM
BbS.okacop021.info/PoSt/1120_105323.HtM
BbS.okacop022.info/PoSt/1120_391241.HtM
BbS.okacop023.info/PoSt/1120_002101.HtM
BbS.okacop024.info/PoSt/1120_414925.HtM
BbS.okacop025.info/PoSt/1120_525824.HtM
BbS.okacop026.info/PoSt/1120_568886.HtM
BbS.okacop027.info/PoSt/1120_115984.HtM
BbS.okacop028.info/PoSt/1120_048187.HtM
BbS.okacop029.info/PoSt/1120_412937.HtM
BbS.okacop020.info/PoSt/1120_668609.HtM
BbS.okacop021.info/PoSt/1120_439759.HtM
BbS.okacop022.info/PoSt/1120_135745.HtM
BbS.okacop023.info/PoSt/1120_865013.HtM
BbS.okacop024.info/PoSt/1120_070846.HtM
BbS.okacop025.info/PoSt/1120_985842.HtM
BbS.okacop026.info/PoSt/1120_019037.HtM
BbS.okacop027.info/PoSt/1120_169926.HtM
BbS.okacop028.info/PoSt/1120_480653.HtM
BbS.okacop029.info/PoSt/1120_302123.HtM
BbS.okacop020.info/PoSt/1120_602506.HtM
BbS.okacop021.info/PoSt/1120_384610.HtM
BbS.okacop022.info/PoSt/1120_349226.HtM
BbS.okacop023.info/PoSt/1120_084999.HtM
BbS.okacop024.info/PoSt/1120_270772.HtM
BbS.okacop025.info/PoSt/1120_258504.HtM
BbS.okacop026.info/PoSt/1120_203698.HtM
BbS.okacop027.info/PoSt/1120_330578.HtM
BbS.okacop028.info/PoSt/1120_656434.HtM
BbS.okacop029.info/PoSt/1120_943835.HtM

#牛客AI配图神器#

全部评论

推荐最新楼层

11-18 23:55

美团_SaaS事业部_软件开发工程师

两年前 成功上岸美团两年后 女朋友也上岸了美团不确定 再看一眼

点赞评论收藏

分享

昨天 22:07

北京邮电大学行政专员/助理

Java电商网站开发实战指南

基于Java的小型电子商务网站设计与实现 系统架构设计 采用分层架构模式，分为表现层、业务逻辑层、数据访问层。表现层使用JSP+Servlet技术，业务逻辑层采用Spring框架实现，数据访问层使用MyBatis进行数据库操作。系统模块包括用户管理、商品管理、订单管理、购物车等核心功能。 MVC设计模式贯穿整个系统，Servlet作为控制器负责请求转发，JSP作为视图展示数据，JavaBean封装业务逻辑。这种架构保证了系统的可维护性和扩展性。 数据库设计 MySQL数据库主要包含以下表结构： CREATE TABLE `user` ( `id` int(11) NOT NULL AUTO_I...

点赞评论收藏

分享

昨天 15:34

已编辑

腾讯_算法研究(实习员工)

请问HR的工作职责是不包含对接求职者吗？至少礼貌也得回一句吧

秋招吐槽大会

点赞评论收藏

分享

昨天 22:07

北京师范大学附属实验中学产品经理

华为设备Console口连接全攻略

华为设备Console口连接基础 Console口是华为网络设备（如交换机、路由器）的重要管理接口，通常用于首次配置或故障恢复。通过Console线连接设备与计算机，可使用终端软件进行本地管理。 连接所需工具  Console线：华为设备通常配备RJ45转DB9或USB接口的Console线。部分新设备可能采用Type-C接口。 终端软件：推荐使用SecureCRT、PuTTY或MobaXterm，Windows系统也可用自带超级终端。 驱动程序：若使用USB转串口线，需提前安装对应驱动（如CH340或PL2303驱动）。  物理连接步骤 将Console线的RJ45端插入设备Console口...

点赞评论收藏

分享

11-17 19:05

已编辑

门头沟学院前端工程师

秋招仍是0offer，还是得要去到春招吗

面试战绩： 字节 二面挂美团 一面挂携程 池子已一个月 大概率泡死wps 二面挂深信服 预二面其实还有几家给了面试机会但是眼高手低推掉了😭真的很后悔其余的全笔试挂了我笔试真真真真真的好烂啊，平常没积累实习结束的晚投递得晚没太多时间准备😭，导致根本没有几次面试机会，很多实际场景和项目拷打接的也不是很好只能看后续如果有面试机会再加把劲，多练算法准备春招不要重蹈覆辙了

深情的鳄鱼不放弃：

我也是 0offer

秋招吐槽大会

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 那些年，我收到的‘奇葩’回复 #

10309次浏览 102人参与

# 小马智行求职进展汇总 #

16369次浏览 54人参与

# 腾讯音乐秋招 #

426603次浏览 4757人参与

170485次浏览 1252人参与

# 秋招你经历过哪些无语的事 #

11573次浏览 141人参与

# 职场中那些令人叹为观止的八卦 #

20861次浏览 194人参与

# 百度秋招 #

47765次浏览 373人参与

# 校招薪资来揭秘 #

43799次浏览 312人参与

# 秋招吐槽大会 #

66773次浏览 592人参与

# 你找工作想离家近 or 离家远？ #

12776次浏览 207人参与

# 如果校招重来我最想改变的是 #

335525次浏览 3141人参与

# 租房前辈的忠告 #

283211次浏览 7246人参与

# 多益网络求职进展汇总 #

51064次浏览 241人参与

# 我的职场社死时刻 #

15400次浏览 135人参与

# 哪些公司开始补录了 #

15887次浏览 143人参与

# 一人推荐一个值得去的通信/硬件公司 #

223556次浏览 2054人参与

# 你秋招最后悔的选择 #

12210次浏览 90人参与

# XX请雇我工作 #

11171次浏览 89人参与

# 秋招提前批，你开始投了吗 #

678878次浏览 8395人参与

# 满帮集团求职进展汇总 #

11669次浏览 89人参与

# 毕业租房也有小确幸 #

144734次浏览 4505人参与

# 你父母给过你哪些不靠谱的职场建议？ #

11665次浏览 165人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务