• 締切済み

SAXの一例を教えて下さい

あるxmlファイルがあります。UTF-8です。非常に大きいです。 ... <a>...</a> ... <b>...</b> ... の羅列です。ただし、<a>...</a>と<b>...</b>が、必ずこの順番で並んでいるとは限りません(実際には"a","b"ではありません)。 この<a>...</a>と<b>...</b>の"..."を取り出したいです。 これはSAXという方法で出来るようですが、ネットで情報を探すと高所からの説明ばかりで具体例がありません(勿論、自分の力量不足でしょうが)。 Python 2.7を使って、比較的短いコードで実現できるでしょうか。速度や効率は重要ではありません。

みんなの回答

  • hitomura
  • ベストアンサー率48% (325/664)
回答No.1

下記の点、補足願います。 ... <a>あああ</a> ふふふ <b>びびび</b> ... と書かれていた場合、取り出したいのは何ですか。

remokon
質問者

お礼

返答ありがとうございます <a>タグは"あああ" <b>タグは"びびび" が欲しいです。”ふふふ”等は全く不要です。 タグの中にタグがある等の情報も不要です。 それならSAX使う必要ない、と言われるかもしれませんが、よろしくおねがいします。

関連するQ&A