python beautifulsoup 用于分析网页示例

周海汉
http://abloz.com
2012.10.31 听说11.3要来暖气?

beautifulsoap只有一个py文件，但功能强大，可分析不完整的html页面。下面是用法示例。
安装：
[zhouhh@Hadoop48 test1]$ sudo pip install BeautifulSoup
或者去官网下载：http://www.crummy.com/software/BeautifulSoup/

python操作

&gt;&gt;&gt; from BeautifulSoup import BeautifulSoup

&gt;&gt;&gt; doc = ['&lt;html&gt;&lt;head&gt;&lt;title&gt;用BeautifulSoup对不完整网页分析测试 from abloz.com&lt;/title&gt;&lt;/head&gt;',

... '&lt;body&gt;&lt;p id="f" class="test" &gt;我的网站 &lt;b&gt;分析&lt;/b&gt; from abloz.com.',

... '&lt;p id="s" &gt;第二行',

... '&lt;a href="http://abloz.com"&gt;瀚海星空&lt;/a&gt;',

... '&lt;a href="http://google.com"&gt;google&lt;/a&gt;',

... '&lt;/html&gt;']

&gt;&gt;&gt; soup = BeautifulSoup(''.join(doc))

&gt;&gt;&gt; soup.html.title

&lt;title&gt;用BeautifulSoup对不完整网页分析测试 from abloz.com&lt;/title&gt;

&gt;&gt;&gt; soup.html.body.p

&lt;p id="f" class="test"&gt;我的网站 &lt;b&gt;分析&lt;/b&gt; from abloz.com.&lt;/p&gt;

&gt;&gt;&gt; soup.html.title.name

u'title'

&gt;&gt;&gt; soup.html.title.text

u'u7528BeautifulSoupu5bf9u4e0du5b8cu6574u7f51u9875u5206u6790u6d4bu8bd5 from abloz.com'

&gt;&gt;&gt; soup.html.title.string

u'u7528BeautifulSoupu5bf9u4e0du5b8cu6574u7f51u9875u5206u6790u6d4bu8bd5 from abloz.com'

&gt;&gt;&gt; print soup.html.title.string

用BeautifulSoup对不完整网页分析测试 from abloz.com

&gt;&gt;&gt; soup.title

&lt;title&gt;用BeautifulSoup对不完整网页分析测试 from abloz.com&lt;/title&gt;

&gt;&gt;&gt; ps = soup.findAll("p")

&gt;&gt;&gt; for p in ps:

... print p

...

&lt;p id="f" class="test"&gt;我的网站 &lt;b&gt;分析&lt;/b&gt; from abloz.com.&lt;/p&gt;

&lt;p id="s"&gt;第二行&lt;a href="http://abloz.com"&gt;瀚海星空&lt;/a&gt;&lt;a href="http://google.com"&gt;google&lt;/a&gt;&lt;/p&gt;

&gt;&gt;&gt; ps[1]

&lt;p id="s"&gt;第二行&lt;a href="http://abloz.com"&gt;瀚海星空&lt;/a&gt;&lt;a href="http://google.com"&gt;google&lt;/a&gt;&lt;/p&gt;

&gt;&gt;&gt; ps[0]

&lt;p id="f" class="test"&gt;我的网站 &lt;b&gt;分析&lt;/b&gt; from abloz.com.&lt;/p&gt;

&gt;&gt;&gt; aes=soup.findAll("a")

&gt;&gt;&gt; for a in aes:

... print a.text

... print a["href"]

...

瀚海星空

http://abloz.com

google

http://google.com

&gt;&gt;&gt; import re

&gt;&gt;&gt; ts = soup.findAll(text=re.compile("分析"))

&gt;&gt;&gt; print ts

[]

&gt;&gt;&gt; ts = soup.findAll(text=re.compile("goo"))

&gt;&gt;&gt; print ts

[u'google']

注意如何支持中文：转为unicode

&gt;&gt;&gt; ts = soup.findAll(text=re.compile(u"分析"))
&gt;&gt;&gt; ts
[u'u7528BeautifulSoupu5bf9u4e0du5b8cu6574u7f51u9875u5206u6790u6d4bu8bd5 from abloz.com', u'u5206u6790']
&gt;&gt;&gt; for t in ts:
... print t
...
用BeautifulSoup对不完整网页分析测试 from abloz.com
分析
&gt;&gt;&gt; ids = soup.findAll(id=re.compile("f"))
&gt;&gt;&gt; ids
[&lt;p id="f" class="test"&gt;我的网站 &lt;b&gt;分析&lt;/b&gt; from abloz.com.&lt;/p&gt;]

和上一个等价的方式
&gt;&gt;&gt; ids = soup.findAll(attrs={"id":re.compile("f")})
&gt;&gt;&gt; ids
[&lt;p id="f" class="test"&gt;我的网站 &lt;b&gt;分析&lt;/b&gt; from abloz.com.&lt;/p&gt;]
&gt;&gt;&gt; soup.find("p")
&lt;p id="f" class="test"&gt;我的网站 &lt;b&gt;分析&lt;/b&gt; from abloz.com.&lt;/p&gt;
&gt;&gt;&gt; soup.find("a")
&lt;a href="http://abloz.com"&gt;瀚海星空&lt;/a&gt;

参考：
中文文档：http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html
官网：http://www.crummy.com/software/BeautifulSoup/

python beautifulsoup 用于分析网页示例

Trending Articles

[奇怪机翻组] 双梦相牵 / ふたりの夢もち [RJ01259078] [WebRip] [1080P HEVC-10Bit AAC 2.0]...

HONDA CITY VTI-S 菜單分享

#新闻拍一拍# 新的摩尔定律：黄氏定律

一如既往的痴情能否打动月瓶金蝎？ (豆瓣月亮水瓶小组)

求購按摩椅~'~

「粉红」不是霸凌辜莞允杠部落客：我爽在哪？

Intel 7-10代集成显卡驱动31.0.101.2137完整版

涉Gotbit加密货币市场操纵台男纽约被捕

臺灣法治會計學會2025年第三季研討會

不靠姊姊！張柏芝弟弟開計程車維生

关门一家亲：习远平、张澜澜、徐才厚

剑指offer——24.二叉树中和为某一值的路径

苏珊米勒日晕05.11｜狮子鼓励孩子；处女相信自己 (豆瓣 SUSAN MILLER小组)

【台積電IT卓越新戰略5】台積IT組織5年三次大調整，要靠平臺工程讓DevOps創新再加速

【日语无字】春之钟.Haru.no.kane.1985.JAP.vhsrip.NoSub.by.xiongzaixia&vivi

美籍老公不讓步李愛綺兒子念公立小學

爆杨兰兰对于朦胧一见倾心泄露亲爹习近平致命机密？【阿波罗网报道】

湖州师范学院音乐学院开发的 Kontakt 8 明代魏氏乐琵琶/瑟/月琴音源即将发布

LameXP 4.21.2382 免安裝中文版 - MP3音樂轉檔軟體

免费翻墙节点大全