beautifulsoup4 用于分析网页

安装：
[zhouhh@Hadoop48 ~]$ sudo pip install beautifulsoup4

beautifulsoup4 对css等处理相当强大，提供了新的select方法。

使用：
在scrapy中使用

#!/usr/bin/env python
# coding:utf-8
# author:zhouhh
# date:2012.11.1
import sys, os, re
import cStringIO
from bs4 import BeautifulSoup

from scrapy.spider import BaseSpider
#import HtmlXPathSelector
class TestSpider(BaseSpider):
    name = "test3"
    allowed_domains = ["localhost"]
    start_urls = [
         "http://localhost/test.html"
    ]

    def parse(self, response):
        #print dir(response)
        soup = BeautifulSoup(response.body, from_encoding="gb18030")
        #print response.body
        #titles = soup.findAll('div', {'id':'name'})
        #urls = soup.findAll('a')

        urls = soup.select("div.cname > a")
        #print urls
        for u in urls:
            print u.text
            print "------------"
            print u.get("href")
        #print response.url
        #x = HtmlXPathSelector(response)
        #print x.select("//a/text()").extract()
        #filename = response.url.split("/")[-2]
        #open(filename, 'wb').write(response.body)

执行：
[zhouhh@Hadoop48 test1]$ scrapy crawl test3

参考：
官方文档

beautifulsoup4 用于分析网页

Trending Articles

[奇怪机翻组] 双梦相牵 / ふたりの夢もち [RJ01259078] [WebRip] [1080P HEVC-10Bit AAC 2.0]...

HONDA CITY VTI-S 菜單分享

#新闻拍一拍# 新的摩尔定律：黄氏定律

一如既往的痴情能否打动月瓶金蝎？ (豆瓣月亮水瓶小组)

求購按摩椅~'~

「粉红」不是霸凌辜莞允杠部落客：我爽在哪？

Intel 7-10代集成显卡驱动31.0.101.2137完整版

涉Gotbit加密货币市场操纵台男纽约被捕

臺灣法治會計學會2025年第三季研討會

不靠姊姊！張柏芝弟弟開計程車維生

关门一家亲：习远平、张澜澜、徐才厚

剑指offer——24.二叉树中和为某一值的路径

苏珊米勒日晕05.11｜狮子鼓励孩子；处女相信自己 (豆瓣 SUSAN MILLER小组)

【台積電IT卓越新戰略5】台積IT組織5年三次大調整，要靠平臺工程讓DevOps創新再加速

【日语无字】春之钟.Haru.no.kane.1985.JAP.vhsrip.NoSub.by.xiongzaixia&vivi

美籍老公不讓步李愛綺兒子念公立小學

爆杨兰兰对于朦胧一见倾心泄露亲爹习近平致命机密？【阿波罗网报道】

湖州师范学院音乐学院开发的 Kontakt 8 明代魏氏乐琵琶/瑟/月琴音源即将发布

LameXP 4.21.2382 免安裝中文版 - MP3音樂轉檔軟體

免费翻墙节点大全