締切済み

Mechanizeでgetしたpageの文字コード変換

2010/02/05 02:56

Mecahnizeを使ってgetしたPageのbodyに対して、文字コード変換したところ、Pageの内容がほとんど消えてしまいます。よって、タグのサーチやフォームの操作などで失敗してしまいます。変換前にlinksメソッドを使うと現象が回避されるのを発見しましたが理由がわかりません。コードは以下のような感じです。 agent = WWW::Mechanize.new page = agent.get(url) p page #=>いろいろ表示される WWW::Mechanize::Page #lnks = page.links #=>これがないとpageの内容がおかしくなる #変数lnksは全く使っていない page.body = page.body.toutf8 # UTF8に変換 p page #=> 1回目と比較して内容がほとんどなくなっている #linksメソッドを使えば現象が起きない rubyは1.8.7 p174 i386-mswin32です。 mechanizeは0.9.3です。 nokogiriは1.4.1, 1.3.3です。理由がわかる方、スマートな回避方法、このコードで使い続けても問題ないか？などご教授ください<(_ _)>

ayudaia
お礼率25% (5/20)

Ruby
回答数1
ありがとう数11

みんなの回答 （1）
専門家の回答

みんなの回答

notnot
ベストアンサー率47% (4901/10362)

2010/02/05 21:18 回答No.1

linksメソッドで直るというのがわかりませんが、もし、・文字コードがUTF-8でなく、EUC-JP,Shift_JIS,ISO-2022-JPである・にもかかわらずJIS規格にない丸付き数字とかローマ数字などを使っているということであれば、文字コードの問題で、回避策があります。

質問者

お礼 2010/05/22 07:23

Mechanizeの研究に時間がかかりすぎてしまいました。ご回答ありがとうございました。

質問者

補足 2010/05/22 07:21

MechanizeからWWW::がなくなりましたね。。。それはさておき、数ヶ月にわたる研究の結果、 @post_connect_hookにコード変換のProcオブジェクトを登録することで解決するようです。

Mechanizeでgetしたpageの文字コード変換

みんなの回答

お礼 2010/05/22 07:23

補足 2010/05/22 07:21

関連するQ&A

WWW::Mechanizeの文字コードについて質問

PerlのWWW**Mechanizeのオブジェクトから中身を取り出す

RubyによるMechanizeを利用したformの取得について

AIは使う人の年齢や市場にも影響する？人工知能の可能性

ruby mechanize アクセス出来ない

Perl WWW::Mechanize

WWW::Mechanizeを使っておられる方、又は使える方に質問です。

Rubyのmechanizeを利用したファイルダウンロードの自動化について

WWW::Mechanizeについて教えてください

method="get"で全角が文字化けてしまう。

Ruby Mechanizeを使う事でサーバに負担を与える可能性はありますか?

クエリ文字列の"?"の後を非表示にする

postやgetで得られたパラメタのエンコードを変換したい

PHPの文字コード変換について

PHPでHTMLをXMLに変換したときに消える内容

同じコードを使っているのにエラーはなぜ？

JSPプログラミング携帯電話用のJSPページを表示

ページング機能はできたのですが、よりコード内容を理解しようと思っており

文字操作をしたjisコードをシフトjisに変えたい

改行コード変換しても、引数の受け渡しが出来ない。

手打ちしたコードがエラーになってしまう現象

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう

Mechanizeでgetしたpageの文字コード変換

みんなの回答

お礼 2010/05/22 07:23

補足 2010/05/22 07:21

関連するQ&A

WWW::Mechanizeの文字コードについて質問

PerlのWWW**Mechanizeのオブジェクトから中身を取り出す

RubyによるMechanizeを利用したformの取得について

AIは使う人の年齢や市場にも影響する？人工知能の可能性

ruby mechanize アクセス出来ない

Perl WWW::Mechanize

WWW::Mechanizeを使っておられる方、又は使える方に質問です。

Rubyのmechanizeを利用したファイルダウンロードの自動化について

WWW::Mechanizeについて教えてください

method="get"で全角が文字化けてしまう。

Ruby Mechanizeを使う事でサーバに負担を与える可能性はありますか?

クエリ文字列の"?"の後を非表示にする

postやgetで得られたパラメタのエンコードを変換したい

PHPの文字コード変換について

PHPでHTMLをXMLに変換したときに消える内容

同じコードを使っているのにエラーはなぜ？

JSPプログラミング 携帯電話用のJSPページを表示

ページング機能はできたのですが、よりコード内容を理解しようと思っており

文字操作をしたjisコードをシフトjisに変えたい

改行コード変換しても、引数の受け渡しが出来ない。

手打ちしたコードがエラーになってしまう現象

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう

JSPプログラミング携帯電話用のJSPページを表示