HTMLを解析 Beautiful Soup

2012/2/18

Python2.5.7 Beautiful Soup 3.2.0

Beautiful Soup = pythonで動作するHTMLとXMLのパーサー。

ちなみにHTMLなどから必要な部分を抽出することをスクレイピングと呼ぶらしい。

Beautiful Soup
http://www.crummy.com/software/BeautifulSoup/

{PageIndex}

ウェブ上のHTMLソース取得

import urllib

url = "http://sites.google.com/site/tibracode"
f = urllib.urlopen(url)
html_src = f.read()

特定タグで囲まれた部分の取得

import BeautifulSoup

------

soup = BeautifulSoup.BeautifulSoup(html_src)

title = soup.find('title')

print(title)
# <title>TB-code</title>

findメソッドは最初に見つけたのを抽出する。すべて取得したい場合にはfindAllメソッド

all_a = soup.findAll('a')

特定タグで囲まれた部分の文字だけ取得

soup = BeautifulSoup.BeautifulSoup(html_src)

title = soup.find('title')

print(title.string)
# TB-code
タグ名
title.name
# title

特定タグの、さらに特定の属性がついてるものの取得

soup = BeautifulSoup.BeautifulSoup(html_src)

link = soup.find('link',attrs={'rel':'shortcut icon'})

print(link)
# <link rel="shortcut icon" type="image/x-icon" href="//www.google.com/images/icons/product/sites-16.ico" />

タグについてる属性をリストで所得

soup = BeautifulSoup.BeautifulSoup(html_src)
link = soup.find('link',attrs={'rel':'shortcut icon'})

print(link.attrs)
# [(u'rel', u'shortcut icon'), (u'type', u'image/x-icon'), (u'href', u'//www.google.com/images/icons/product/sites-16.ico')]

タグについてる特定の属性の所得

soup = BeautifulSoup.BeautifulSoup(html_src)
link = soup.find('link',attrs={'rel':'shortcut icon'})

icon_url = dict(link.attrs)['href']

print( icon_url )
# //www.google.com/images/icons/product/sites-16.ico