浅析python爬虫(上)

目录

前言

爬虫的分类(不重要)

相关技术介绍(重要)

1HTML

什么是 HTML?


CSS

请求头与响应头




学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您:

想系统/深入学习某技术知识点…
一个人摸索学习很难坚持,想组团高效学习…
想写博客但无从下手,急需写作干货注入能量…
热爱写作,愿意让自己成为更好的人…


前言

在日常刷一些视频的时候,总能看见一些标题为《震惊,python查找1000张美女图片》、《重磅消息:以后这些资料都不用再付钱了》......等等UC震惊部的标题

虽然夸张,但这些视频无一不是使用了python爬虫,这也从侧面衬托出爬虫功能的强大。

有的刚接触爬虫的小白会很激动,因为这意味着他们可以去“随心所欲”地去爬取任意资料,同时还为此暗自害怕与窃喜。

事实上,借用某大佬的比喻来说:爬虫就像是一把菜刀,拿这把菜刀做菜抑或是伤人,取决于使用者。

爬虫的分类(不重要)

由此,爬虫中也有了分类,分别是善意爬虫与恶意爬虫。

善意爬虫是在不破坏网站的前提下,合法合规地搜集信息。

恶意爬虫则是影响网站的正常运营,模拟大量浏览量达到目的(例如抢票),但每个网站对于访问量的数量都不是无限的,这种恶意爬虫很容易使网站宕机。

相关技术介绍(重要)

1HTML

HTML又称超文本标记语言,和大佬们平时接触的语言不同,HTML并没有逻辑结构,只使用标签来进行网站构建。

什么是 HTML?

HTML 是用来描述网页的一种语言。

  • HTML 指的是超文本标记语言 (Hyper Text Markup Language)
  • HTML 不是一种编程语言,而是一种标记语言 (markup language)
  • 标记语言是一套标记标签 (markup tag)
  • HTML 使用标记标签来描述网页

 HTML中的大部分标签都是有始有终的,例如<h1></h1>、<body></body>


CSS

CSS 是一种描述 HTML 文档样式的语言。

CSS 描述应该如何显示 HTML 元素。

例如

		
  1. body {
  2. background-color: lightblue;
  3. }
  4. h1 {
  5. color: white;
  6. text-align: center;
  7. }
  8. p {
  9. font-family: verdana;
  10. font-size: 20px;
  11. }

输出如图

 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。 原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。 互联网大数据时代,给予我们的是生活的便利以及海量数据爆炸式的出现在网络中。(来自华为开发者论坛)


请求头与响应头

 请求头中最常见的一些重要内容(爬虫需要):

1、User-Agent:请求载体的身份标识(用啥发送的请求)

2、Referer:防盗链(这次请求是从哪个页面来的?反爬会用到)

3、cookie:本地字符串数据信息(用户登录信息,反爬的token)

响应头中一些重要内容:

1、cookie:本地字符串数据信息(用户登录信息,反爬的token)

2、各种神奇的莫名其妙的字符串(这个需要经验了,一般是token字样,防止各种攻击和反爬)

未完待续

全部评论
学习的最大理由是想摆脱平庸
点赞 回复 分享
发布于 2022-08-28 17:50 河南

相关推荐

点赞 评论 收藏
分享
06-06 03:40
已编辑
电子科技大学 Java
在秋招的小白菜很想养修勾:一眼 苍穹外卖+谷粒商城,项目换一换吧,可以找一些付费知识星球博主带带,避免烂大街。多投投大厂,背背八股,你这学历乱杀了,等实习经验到位,到时候大厂闭眼选
投递美团等公司8个岗位
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务