如何用Python Beautiful Soup解析HTML内容

当前位置：首页 > 滚动 > >正文

如何用Python Beautiful Soup解析HTML内容

来源：脚本之家时间：2023-05-15 11:52:14

HTML指的是超文本标记语言（Hypertext Markup Language），即一种用于描述网页内容的标记语言。在我们访问一个网页的时候，浏览器便会将HTML内容下载到本地并以可视化的形式展示给我们。但是，在程序员的世界里我们需要能够对HTML内容进行更多的操作，而Beautiful Soup就是这种工具之一。

(资料图片)

Beautiful Soup能够解析HTML内容并转化成一个复杂的树结构，然后可以通过标签名、属性名等多种方式进行内容的查找和修改。使用Beautiful Soup不仅能够让我们更高效地处理HTML内容，而且还能避免很多手动操作引起的误差。

下面我们来详细介绍Beautiful Soup的使用方式和应用场景。

Beautiful Soup的使用

Beautiful Soup提供的解析器有bs3、bs4，其中bs3逐渐被弃用，目前bs4为最新版。我们主要介绍bs4的使用。

首先，我们需要安装Beautiful Soup库。在终端输入以下命令：

pip install beautifulsoup4

安装成功后，我们通过import语句将Beautiful Soup库引入程序中。

from bs4 import BeautifulSoup

接下来假设我们有一个HTML文本：


  
    Beautiful Soup Tutorial
  
  
    
      Python BeautifulSoup Tutorial
      这是一篇Beautiful Soup入门教程
      它将介绍Beautiful Soup的基本用法以及一些高级的应用场景
      点击访问示例网站

我们可以通过以下语句将HTML文本解析成BeautifulSoup对象：

soup = BeautifulSoup(html_doc, "html.parser")

其中，html_doc为上述HTML文本，"html.parser’为指定的解析器。

标签选择器

Beautiful Soup提供了多种标签选择器，能够便捷地从HTML文本中选择需要的内容。

选择标签名为h1的元素：

soup.select("h1")

结果为：

[
Python BeautifulSoup Tutorial
]

选择标签名为p且class属性为“intro”的元素：

soup.select("p.intro")

结果为：

[
这是一篇Beautiful Soup入门教程
]

选择标签名为a且class属性为“link”的元素，其href属性的值为"http://www.example.com"：

soup.select("a.link[href="http://www.example.com"]")

结果为：

[点击访问示例网站]

标签树操作

我们可以通过Beautiful Soup的树型结构，对HTML文本进行各种查找与修改操作。

嵌套选择标签

可以通过嵌套选择标签，定位到HTML文本中需要的标签，例如选择“div”标签下的所有“p”标签。

content = soup.select("div.article > p")

可以看到，选择结果为两个“p”标签。

[

这是一篇Beautiful Soup入门教程

它将介绍Beautiful Soup的基本用法以及一些高级的应用场景

]

.string/.text属性获取标签内容

可以通过.string属性或.text属性获取标签内的文本内容。

例如，获取标题“h1”标签内的文本内容：

title = soup.select("h1")[0].string
print(title)

输出结果为：

Python BeautifulSoup Tutorial

可以看到，.string相比于.text属性更加精确，可以避免获取到标签内的其他内容干扰。

.get()方法获取标签属性值

可以通过.get()方法获取标签内的属性值。例如，获取“a”标签的href属性值：

link = soup.select("a.link")[0].get("href")
print(link)

输出结果为：

http://www.example.com

修改HTML文本

除了查找与获取HTML文本的内容，我们还可以使用Beautiful Soup对HTML文本进行修改操作。

修改标签属性值

通过tag对象的.attrs属性可以获取标签的属性，使用该属性进行修改操作。

例如，将“a”标签的href属性值修改为“http://www.newexample.com”：

link_tag = soup.select("a.link")[0]
link_tag["href"] = "http://www.newexample.com"
print(link_tag)

可以看到，输出结果中href属性值已经被修改。

点击访问示例网站

修改标签文本内容

通过tag对象的.string属性或replace_with()方法可以修改标签的文本内容。

例如，将第一个“p”标签的文本修改为“欢迎来到Beautiful Soup教程”：

p_tag = soup.select("p.intro")[0]
p_tag.string = "欢迎来到Beautiful Soup教程"
print(p_tag)

输出结果为：

欢迎来到Beautiful Soup教程

增加标签和删除标签

我们可以使用Beautiful Soup提供的函数，例如new_tag()、new_string()、append()和insert()等方法，创建新标签或文本，并插入HTML文本当中。

例如，我们通过append()方法在“body”标签的末尾增加一个“div”标签：

new_div = soup.new_tag("div")
new_div.string = "这是Beautiful Soup教程的结尾"
soup.select("body")[0].append(new_div)
print(soup)

可以看到，输出结果中的HTML文本结尾增加了一个新的“div”标签。

应用场景

美食网站信息爬取

我们将以美食网站中的“热门排行榜”为例进行演示。

首先，我们需要通过requests库获取HTML文本。以“热门排行榜”页面为例：

import requests
from bs4 import BeautifulSoup
url = "https://www.meishij.net/chufang/diy/diy_rmphb/"
html = requests.get(url)
soup = BeautifulSoup(html.text, "html.parser")

我们可以通过观察HTML文本，发现热门排行榜的信息在“div”标签中，具体位置在“div.zg_wrap”标签中，而餐品名称在“div.zg_wrap > li > div > p > a”标签中。因此，我们可以使用以下语句提取美食名称：

for i, li in enumerate(soup.select("div.zg_wrap > li")):
    name = li.select("div > p > a")[0].get("title")
    print(f"{i+1}. {name}")

可以看到，我们已成功提取出了美食名称，输出结果如下：

1. 汉堡
2. 糯米饭
3. 明炉烤鸭
4. 龙虾
5. 火锅
6. 美式薯条
7. 叉烧肉
8. 红烧肉
9. 快手美食
10. 韩国泡菜

至此，我们已经成功通过Beautiful Soup解析库，提取出了美食网站的热门排行榜信息，演示了Beautiful Soup在爬虫数据抓取和处理中的重要应用。

总结

Beautiful Soup作为一种解析库，能够方便地解析HTML/XML文本，提供多种标签选择器并支持树型结构操作，可以快速定位和处理HTML/XML中需要的内容，提高了爬虫数据抓取和处理的效率。对于Python爬虫初学者来说，掌握Beautiful Soup的使用是十分重要的。同时需要注意的是，在使用Beautiful Soup时需要遵循网络道德规范，遵守网站的规定，避免对网站造成过度访问和其他影响。

到此这篇关于如何用BeautifulSoup解析HTML内容的文章就介绍到这了,更多相关BeautifulSoup解析HTML内容内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

X 关闭

最近更新

如何用Python Beautiful Soup解析HTML内容

2023-05-15 11:52:14

滚动
农行广东遂溪支行积极开展“防灾减灾救灾日”宣传

2023-05-15 11:20:55

滚动
环球时讯：甘肃省首个全绿电制氢项目开工！

2023-05-15 11:01:29

滚动
怀孕女职工被企业恶意调岗，多部门联手解决侵害女职工劳动权益问题

2023-05-15 10:38:13

滚动
天天快看：河北发布林光互补、草光互补项目建设标准征求意见

2023-05-15 10:19:55

滚动
小区二次供水水箱一年须清洗两次 2023年长沙市城市节约用水宣传周活动启动每日快播

2023-05-15 09:52:04

滚动
雅本化学董秘回复：公司NMN等大健康产品主要通过跨境电商平台销售，目前来看

2023-05-15 09:23:42

滚动
湖南推进中小学生心理健康工作学校每两周安排1节心理健康课

2023-05-15 08:44:42

滚动
加德纳菌阳性怎么治疗可以彻底根治_加德纳菌

2023-05-15 07:54:01

滚动
天天观察：西南交通大学地址在哪里_西南交通大学地址

2023-05-15 06:44:05

滚动
萌猫头像卡通_萌猫头像

2023-05-15 05:58:30

滚动
多举措护航高校毕业生就业_速递

2023-05-15 02:50:16

滚动
全球即时看！脸突然变黑是什么原因引起的怎么治疗_脸突然变黑是什么原因引起的

2023-05-15 01:09:18

滚动
这一世太漫长却止步咫尺天涯间什么歌（咫尺天涯中的咫和尺哪个更长）|天天快资讯

2023-05-14 22:32:37

滚动
杭州传衡教育科技有限公司_关于杭州传衡教育科技有限公司概略-每日聚焦

2023-05-14 21:00:13

滚动
南水北调工程向北方调水突破620亿立方米

2023-05-14 19:53:22

滚动
foxmail邮件撤回操作_foxmail邮件撤回

2023-05-14 18:57:17

滚动
世界视点！destiny怎么读的_destiny怎么读

2023-05-14 17:52:37

滚动
4家商亭卖凉皮未有凉菜制作专间每家收到了1500元的罚单|焦点精选

2023-05-14 16:43:12

滚动
呼朋引伴的意思_呼朋引伴_世界实时

2023-05-14 15:38:59

滚动
高盛、富达最新发声全球机构热议国企投资价值

2023-05-14 14:38:25

滚动
努比亚折叠屏手机将发布：5000多元天天观点

2023-05-14 14:06:21

滚动
当前热门：支付宝心愿储蓄会不会损失本金_支付宝心愿储蓄是个坑

2023-05-14 13:00:35

滚动
【环球播资讯】驻韩美军黑历史再曝光：韩国女性被“献给”美国大兵

2023-05-14 11:35:05

滚动
酸枣树的品性|全球聚焦

2023-05-14 10:57:50

滚动
国寿寿险：弘扬工匠精神，让好服务触手可及

2023-05-14 09:56:19

滚动
初夏“花经济”

2023-05-14 08:45:39

滚动
环球时讯：打通京津冀科创成果“最后一公里” 中关村（智造）中试服务平台本月底正式运营

2023-05-14 07:52:17

滚动
给大地“把脉” 为百姓“放哨”——走近一线地震观测员

2023-05-14 06:14:40

滚动
手提式干粉灭火器多长时间年检_手提式干粉灭火器多久检查一次最资讯

2023-05-14 04:39:08

滚动
二手房买卖增值税率二手房买卖增值税

2023-05-14 01:02:08

滚动
沙海张副官扮演者_张副官扮演者

2023-05-13 22:48:48

滚动
怡怎么读拼音_怡释义-全球播报

2023-05-13 21:34:52

滚动
3个技巧优化直通车高消耗关键词，拒绝浪费预算！让每一分钱都花得值！

2023-05-13 20:16:10

滚动
医疗IT股票今日股价多少？A股医疗IT上市公司有哪些？_天天快播

2023-05-13 19:57:17

滚动
江米丸的做法江米丸的制作过程

2023-05-13 18:33:52

滚动
环球今头条！2023 年了，这些热门的 CSS 框架，你必须要知道！

2023-05-13 17:14:57

滚动
北京：聚焦电子信息、生物医药、新能源汽车等领域着力打造世界级先进制造业集群天天快消息

2023-05-13 16:05:42

滚动
速递！江苏国泰董秘回复：国裕有限公司持有的朗诗绿色管理（HK00106）来源为分红所得

2023-05-13 15:19:44

滚动
☞罗马诺：哈维·西蒙斯要换经纪人，大巴黎有签回他...-每日资讯

2023-05-13 14:15:17

滚动
“扫码点餐”泄露个人信息？专家：要保持谨慎|今日看点

2023-05-13 13:14:24

滚动
世界热消息：吉安市高龄补贴发放标准2023 80以上老人每人每月多少钱？

2023-05-13 11:54:19

滚动
努比亚Z60 Fold可折叠手机曝光：12GB内存、7.3英寸、100W快充全球热点

2023-05-13 11:51:24

滚动
哪个地图卫星图最清晰-环球今头条

2023-05-13 10:49:45

滚动
区域发展新亮点·黑土地上的耕耘丨东北春耕正忙，地里农民为何减少了？——东北三省粮食生产蹲点调研之四_全球微头条

2023-05-13 10:10:36

滚动
我市10家合作社上榜

2023-05-13 08:57:34

滚动
环球时讯：痛心！马拉松运动猝死频发，运动时出现以下症状需警惕

2023-05-13 08:05:52

滚动
京式压力炸鸡的做法?

2023-05-13 07:22:39

滚动
可能再罚款1000万欧元苹果再遭反垄断调查_每日观察

2023-05-13 05:53:49

滚动
河北推广落实十余种有效模式——激发文明实践阵地活力

2023-05-13 04:05:12

滚动
图片pdf怎么做_图片pdf怎么做

2023-05-13 01:19:17

滚动
【天天播资讯】大山岩石图片大全_大山岩

2023-05-12 23:06:01

滚动
漫评美国借乌克兰危机坐收渔利：“要美元不要和平” 环球速讯

2023-05-12 21:54:41

滚动
“五一节后咽喉痛”话题引热议 | 咽喉痛不一定是“二阳”

2023-05-12 21:11:35

滚动
邀青年一代共创产业新样本上海发力“网络视听+”生态

2023-05-12 20:43:36

滚动
焦点速递！闽东医院举办“国际护士节”表彰大会暨护理礼仪表演

2023-05-12 20:10:21

滚动
特斯拉中国召回超110万辆汽车，含 5 款车型，与加速踏板有关

2023-05-12 19:22:40

滚动
破裂剥落型岩爆-每日速看

2023-05-12 18:54:58

滚动
12跌！生益科技净利润降46%，股民吐槽不断、高管集体降薪了|今亮点

2023-05-12 18:27:41

滚动
最费电的五种家电，空调排第二，没想到机顶盒竟然是“耗电大户” 快消息

2023-05-12 17:54:13

滚动
当前视点！一季度广西自贸试验区开放型经济表现亮眼外贸进出口655.1亿元

2023-05-12 17:30:03

滚动
精简人员、缩减投资，福特在华被迫“瘦身”？

2023-05-12 17:06:51

滚动
Mysteel早读：黑色期货夜盘飘绿，国际大宗商品价格普跌

2023-05-12 16:47:05

滚动
世界微资讯！黑龙江职教走上提质培优增值赋能快车道

2023-05-12 16:27:07

滚动
今日白银最新报价（2023年5月12日）|全球时快讯

2023-05-12 16:08:56

滚动
054期樊可双色球预测奖号：历史同期奖号定位分析|世界看点

2023-05-12 15:49:53

滚动
天天消息！商务部答上证报：第三届中国-中东欧国家博览会参展规模创新高

2023-05-11 19:16:51

滚动
天天即时：联想：人工智能等新技术正重塑消费新格局

2023-05-11 17:49:18

滚动
全球快报:张家口桥东区工信局：破题解题“连环招”助推经济高质量发展

2023-05-11 17:22:13

滚动
男子骑摩托车在十字路口转圈秀车技 C1驾照直接扣25分

2023-05-11 17:09:40

滚动
纳豆的功效与作用（纳豆的功效与作用及食用方法）_世界速看

2023-05-11 16:21:57

滚动
学生点外卖：因围墙太高小哥摇树报送餐位置

2023-05-11 15:59:59

滚动
全球快报:高中学籍怎么补充上身份证号码和不同办簿填写

2023-05-11 15:34:57

滚动
上海海事局：长江口水域1人失踪，请过往船舶注意搜救

2023-05-11 15:11:58

滚动
每日速递：中消协官网发布“五一”消费维权舆情分析报告

2023-05-11 14:35:20

滚动
世界观察：杭州大家开发商_杭州大家多立方

2023-05-11 13:54:53

滚动
Failed to connect to zw.gozuowen.com port 80: Timed out 每日速递

2023-05-11 13:09:53

滚动
全球通讯！053期苏苏双色球预测奖号：红球重号连码三区比

2023-05-11 12:35:56

滚动
6400频率内存到手变8000？星曜 D5内存超频|环球热推荐

2023-05-11 12:00:51

滚动
港股异动 | 中航科工(02357)跌超4% 拟向国家产业投资基金发行股份净筹约10亿元精彩看点

2023-05-11 11:47:12

滚动
世界简讯:4月SUV销量排名出炉，新能源高歌猛进，燃油车苦苦挣扎

2023-05-11 11:21:34

滚动
南京2023年第二批次集中供地收官：10宗地块揽金150亿元

2023-05-11 10:41:33

滚动
揭秘“AI+教育”两大核心路径

2023-05-11 10:25:18

滚动
实像和虚像如何区别_虚像和实像怎么区分简介介绍

2023-05-11 10:10:21

滚动
甘肃56家企业线上线下参展_世界新要闻

2023-05-11 09:41:37

滚动
当前黄金价格计入了未来一年约4次的降息预期，中信证券：该预期仍有待调整

2023-05-11 09:10:29

滚动
中泰证券：浮法玻璃景气复苏在途光伏玻璃价格底部具向上弹性

2023-05-11 08:26:07

滚动
快看：thereturner_Thereturn

2023-05-11 07:59:19

滚动
焦点讯息：重点挖掘新主线！

2023-05-11 07:08:05

滚动
「吴山时评」“扫码打零工”服务大民生当前时讯

2023-05-11 06:17:40

滚动
“太空快递”已派送！天舟六号货运飞船发射成功

2023-05-11 05:03:47

滚动
2022避震器十大品牌排行榜_避震器哪个牌子好

2023-05-11 02:54:50

滚动
全球今亮点！杨幂同天两剧发布物料，《狐妖》海报长腿抢镜，在拍剧番位引争议

2023-05-10 23:58:57

滚动
2023年5月10日山东省棕榈油价格最新行情预测世界微动态

2023-05-10 22:14:35

滚动
从港股和A股的走势看市场预期比较悲观

2023-05-10 21:37:48

滚动
张婧仪：正在多点开花的那条路上_世界速看

2023-05-10 20:46:10

滚动
孙悟空大闹蟠桃会的后果孙悟空大闹蟠桃会

2023-05-10 20:03:57

滚动
全球关注：144家房企抢三宗地，厦门土地市场刷新今年新热度

2023-05-10 19:20:36

滚动
世界消息！汽车倒车入库或侧方停车操作技巧_怎么倒车入库和侧方位停车

2023-05-10 19:02:31

滚动
每体：罗贝托将成为巴萨的新队长，阿尔巴和特狮是第二第三队长环球热推荐

2023-05-10 18:18:21

滚动