2021-03-01 19:29 门头沟学院 Java

关注

爬虫第11节

信息提取的方法

方法一

完整解析信息的标记形式，再提取关键信息
XML JSON YAML
需要标记解释器，如bs4库标签树遍历
优点：信息解析准确
缺点：提取过程繁琐，过程慢

方法二

无视标记形式，直接搜索关键信息
搜索
对信息的文本查找函数即可
优点：提取过程简介，速度较快
缺点：提取结果准确性与信息内容相关

最后要使用的方法

将两者结合起来
example:
提取HTML中所有url链接

思路：
1. 搜索到所有的a标签
2. 解析a标签的格式，提取href后的链接内容

#采用之前的demo例子
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo,'html.parser')
for link in soup.find_all('a')
    print(link.get('href'))

全部评论

推荐最新楼层

07-15 10:22

杭州电子科技大学大数据开发工程师

HR让我凌晨12点上班！！！

大三的时候面试过一家书亦的数据分析实习生当时是技术面已经过了，就等着HR面后面HR让我12点来上班，我想这这会儿已经下午一点了难道说凌晨还要上班？也就没有多问，是指说今晚还是在这吗她愣住了，我也愣住了，不是今晚12点，是明天中午十二点后面环节根本进行不下去

面试尴尬现场

点赞评论收藏

分享

不愿透露姓名的神秘牛友

07-11 11:22

作为hr,我要崩溃了

怎么这么多逆天求职者，救救我救救我救救我😭

flmz_Kk：哈哈哈哈哈哈，这么多求职者，肯定有那一两个逆天的

点赞评论收藏

分享

05-20 15:23

已编辑

第一拖拉机制造厂拖拉机学院嵌入式工程师

答辩大型翻车现场

  豆老师写的论文坑我太深😭

真烦好烦真烦：豆包润色了自己没看看吗，再说了，都说豆包是愚蠢且勤快的大学生，ds才是聪明的研究生，怎么敢让豆包写论文的

你们的毕业论文什么进度了

点赞评论收藏

分享

07-10 12:20

门头沟学院前端工程师

26秋招，好像站在了人生的十字路口

最近暑期实习的尾声和秋招提前批重合，突然又站在了好多选择的面前：国央企/互联网稳定/挑战面试的每一句话，每个offer的确认与拒绝，做出的每一个选择，仿佛背后都是不同的未来几十年的生活...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你被哪些公司秒挂过？ #

9931次浏览 123人参与

# 26届的你们有几段实习？ #

3826次浏览 78人参与

# 如何提高实习转正率？ #

5320次浏览 103人参与

# 第一份工作应该只看薪资吗 #

153041次浏览 1534人参与

# 大厂面试初体验 #

14051次浏览 93人参与

# 你想留在一线还是回老家？ #

49095次浏览 505人参与

# 你认为哪些项目算烂大街？ #

3852次浏览 94人参与

# 你以为的实习VS真实的实习 #

4824次浏览 74人参与

# 选完offer后，你后悔学本专业吗 #

47945次浏览 239人参与

# 离家近房租贵VS离家远但房租低，怎么选 #

9647次浏览 119人参与

# 你后悔自己读研吗？ #

4576次浏览 122人参与

# 最难的技术面是哪家公司？ #

3019次浏览 36人参与

# 拼多多工作体验 #

29501次浏览 201人参与

# 当下环境，你会继续卷互联网，还是看其他行业机会 #

114058次浏览 793人参与

# 月薪多少能在一线城市生存 #

5530次浏览 111人参与

# leader认为你工作不认真怎么办 #

32166次浏览 151人参与

# 如果可以，你希望哪个公司来捞你 #

104781次浏览 509人参与

# 如果公司降薪，你会跳槽吗？ #

80165次浏览 588人参与

# 妈妈治愈了你哪些脆皮时刻 #

29460次浏览 321人参与

# 如果公司给你放一天假，你会怎么度过？ #

17733次浏览 129人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务