爬虫第11节

信息提取的方法

方法一

完整解析信息的标记形式,再提取关键信息
XML JSON YAML
需要标记解释器,如bs4库标签树遍历
优点:信息解析准确
缺点:提取过程繁琐,过程慢

方法二

无视标记形式,直接搜索关键信息
搜索
对信息的文本查找函数即可
优点:提取过程简介,速度较快
缺点:提取结果准确性与信息内容相关

最后要使用的方法

将两者结合起来
example:
提取HTML中所有url链接

思路:
1. 搜索到所有的a标签
2. 解析a标签的格式,提取href后的链接内容

#采用之前的demo例子
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo,'html.parser')
for link in soup.find_all('a')
    print(link.get('href'))
全部评论

相关推荐

不愿透露姓名的神秘牛友
07-11 11:22
怎么这么多逆天求职者,救救我救救我救救我😭
flmz_Kk:哈哈哈哈哈哈,这么多求职者,肯定有那一两个逆天的
点赞 评论 收藏
分享
真烦好烦真烦:豆包润色了自己没看看吗,再说了,都说豆包是愚蠢且勤快的大学生,ds才是聪明的研究生,怎么敢让豆包写论文的
你们的毕业论文什么进度了
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务