xml.etree.ElementTreeを使ってRSSから記事のタイトルを取り出す

先週のエントリで、RSSフィードから記事のタイトルを表示するスクリプトを書いた。ただ、このときにはタイトルを取り出すのに正規表現を使ったから、記事のタイトルだけじゃなくてブログのタイトルも取り出されてしまっていた。
そこで、今回は xml.etree.ElementTree を使って記事のタイトルだけを取り出してみた。といっても使い方はよくわかってないんだけど。

cf. http://docs.python.jp/2/library/xml.etree.elementtree.html

import sys
import urllib
import xml.etree.ElementTree

url = sys.argv[1]

src = urllib.urlopen(url)
doc = xml.etree.ElementTree.parse(src)

for title in doc.findall(".//item/title"):
    print title.text

xml.etree.ElementTree.parse はファイル名またはファイルオブジェクトを受け取ってDOMを返してくれる。findallはXPath(?)を受け取ってエレメントを返してくれる。・・・らしい。よくわからないけどこれで何とかなった。

実行例:

^o^ > python get_feed2.py https://blog.panicblanket.com/feed
リストのスタック系メソッド
os.walk関数を使ってファイル数を列挙する
urllibモジュールの超簡単なサンプル(その3)
urllibモジュールの超簡単なサンプル(その2)
urllibモジュールの超簡単なサンプル
変数に関数と同じ名前をつけてはいけない
== 演算子と is 演算子
randomモジュール
fileinputモジュール
Rubyで点数を集計するとき、あなたはどうしてますか? をPythonで

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください