Ruby正規表現による文字列取得

2014/11/25 16:24

このQ&Aのポイント

正規表現を使って文字列を取得する方法を学びたい。
正規表現を使って取得したい文字列の部分を指定し、取得する方法を知りたい。
質問文章のプログラムの一部で正規表現を使って文字列を取得しようとしているが、うまくいかない。どう直せば良いか教えて欲しい。

Ruby 正規表現による文字列取得

こんにちは。何度か質問させていただいていたのですが、正規表現を使っても正しく取得できない部分があったので質問させていただきました。取得したい文字列の部分にflagをたてて、そこからfalseになるまで取得し続ける形をとっているのですが、どうもfalseになってbreakするはずの部分で取得を終了してくれません。どう直せば良いのでしょうか？ご教授お願い致します。プログラムは以下の通りです。 2 text = "" 3 4 data = "/home/edinet/E05267/S1001YX6/index.html" 5 6 flag = nil 7 IO.foreach(data) do |line2| 8 line2.gsub!(/普通株式/,"\nEOF") 9 case line2 10 when /保有目的が純投資目的以外の目的である投資株式の保有区分|保有目的が純投資目的以外/ 11 flag = true 12 13 when /保有目的が純投資目的である投資株式の前事業年度|EOF|無議決権株式|政府及び地方公共団体|調　整　後　転　換　価　額|保有目的が純投資目的|普通株式|監査報酬の内容等/ 14 flag = false if flag == true 15 16 end 17 18 text << line2.chomp if flag != nil 19 break if flag == false 20 21 end 22 text.gsub!(/<\/td>/,"\t") 23 text.gsub!(/<\/tr>/,"\n") 24 text.gsub!(/<[^>]+>/,"") 25 print text 実行結果ロ　保有目的が純投資目的以外の目的である投資株式の保有区分、銘柄、株式数、貸借対照表計上額及び保有目的 (前事業年度)特定投資株式銘柄株式数(株) 貸借対照表計上額(千円) 保有目的アイサンテクノロジー株式会社 50,000 11,150 取引関係の維持強化セイコーエプソン株式会社 10,000 9,130 取引関係の維持強化株式会社トプコン 10,000 8,570 取引関係の維持強化株式会社大和証券グループ本社 10,000 6,560 取引関係の維持強化株式会社八十二銀行 10,000 5,690 取引関係の維持強化佐田建設株式会社 60,000 4,500 取引関係の維持強化   (当事業年度)特定投資株式銘柄株式数(株) 貸借対照表計上額(千円) 保有目的アイサンテクノロジー株式会社 50,000 43,900 取引関係の維持強化セイコーエプソン株式会社 10,000 32,100 取引関係の維持強化株式会社トプコン 10,000 16,920 取引関係の維持強化株式会社大和証券グループ本社 10,000 8,980 取引関係の維持強化福井コンピュータホールディングス株式会社 10,000 8,650 取引関係の維持強化株式会社八十二銀行 10,000 5,870 取引関係の維持強化   ハ  保有目的が純投資目的である投資株式該当事項はありません。 (6) 会計監査の状況当社は、金融商品取引法監査について有限責任監査法人トーマツより継続的に監査を受けており、正確な経営情報・財務情報の提供に配慮しております。業務を執行した公認会計士の氏名所属する監査法人指定有限責任社員業務執行社員五十幡理一郎有限責任監査法人トーマツ指定有限責任社員業務執行社員小  松     聡有限責任監査法人トーマツ  継続関与年数については、７年以内であるため記載を省略しております。また、公認会計士４名、その他２名が会計監査業務に関っております。  (7) 取締役会で決議することができる株主総会決議事項（自己の株式の取得）当社は、経営環境の変化に対応した機動的な資本政策を行うため、会社法第165条第２項の規定により、「取締役会の決議によって市場取引等により自己の株式を取得することができる。」旨を定款に定めております。 （中間配当）当社は、株主への機動的な利益還元を行うため、会社法第454条第５項の規定により、「取締役会の決議によって、毎年９月30日を基準日として、中間配当を行うことができる。」旨を定款に定めております。 (8) 取締役の定数当社の取締役は、「７名以内とする。」旨を定款に定めております。 (9) 取締役の選任の決議要件当社は、取締役の選任決議について、「株主総会において議決権を行使することができる株主の議決権の３分の１以上を有する株主が出席し、その議決権の過半数をもって行い、かつ累積投票によらない。」旨を定款に定めております。 (10) 株主総会の特別決議要件当社は、株主総会における特別決議の定足数を緩和することにより、株主総会の円滑な運営を行うため、会社法第309条第２項に定める株主総会の特別決議要件について、「議決権を行使することができる株主の議決権の３分の１以上を有する株主が出席し、その議決権の３分の２以上をもって行う。」旨を定款に定めております。 (2) 【監査報酬の内容等】 (1) 【監査公認会計士等に対する報酬の内容】前事業年度当事業年度監査証明業務に基づく報酬(千円) 非監査業務に基づく報酬(千円) 監査証明業務に基づく報酬(千円) 非監査業務に基づく報酬(千円) 14,600 ─ 14,600 500   (2) 【その他重要な報酬の内容】該当事項はありません。 (3) 【監査公認会計士等の提出会社に対する非監査業務の内容】前事業年度該当事項はありません。 当事業年度当社は監査公認会計士等に対して、公認会計士法第２条１項の監査証明業務以外の業務である内部管理体制の整備に関する助言・指導業務について対価を支払っております。 (4) 【監査報酬の決定方針】当社の監査法人に対する監査報酬の決定方針としましては、事前に見積書の提示を受け、監査日数、監査内容及び当社の規模等を総合的に勘案し、監査役会及び関連部門と協議を行ったうえ決定することとしております。 第５【経理の状況】 １．財務諸表の作成方法について当社の財務諸表は、「財務諸表等の用語、様式及び作成方法に関する規則」(昭和38年大蔵省令第59号。以下「財務諸表等規則」という。)に基づいて作成しております。　なお、当事業年度(平成25年４月１日から平成26年３月31日まで)の財務諸表に含まれる比較情報については、「財務諸表等の用語、様式及び作成方法に関する規則等の一部を改正する内閣府令」（平成24年９月21日内閣府令第61号）附則第２条第２項により、改正前の財務諸表等規則に基づいて作成しております。 ２．監査証明について当社は、金融商品取引法第193条の２第１項の規定に基づき、事業年度(平成25年４月１日から平成26年３月31日まで)の財務諸表について、有限責任監査法人トーマツにより監査を受けております。 ３．連結財務諸表について当社は子会社がありませんので、連結財務諸表を作成しておりません。 ４．財務諸表等の適正性を確保するための特段の取組みについて当社は、財務諸表等の適正性を確保するための特段の取組みを行っております。具体的には、会計基準等の内容を適切に把握し、又は会計基準等の変更等について適切に対応することができる体制を整備するため、公益財団法人財務会計基準機構へ加入し、同機構が開催する研修等へ参加しております。 ※長いためこれ以降は割愛します。よろしくお願いします。

alpacasan15
お礼率13% (4/30)

Ruby
回答数2
ありがとう数7

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

tatsu99
ベストアンサー率52% (391/751)

2014/11/25 17:27 回答No.2

ＯＳ不明の為、linux前提で回答します。 /home/edinet/E05267/S1001YX6/index.html このデータの改行がrubyできちんと認識されていないように見えます。（htmlなのでブラウザでは改行されているように見えるかと思います。） cat -n /home/edinet/E05267/S1001YX6/index.html として、行番号付きで表示したとき、きちんと表示されるでしょうか。例えば、index.htmlが１行で記述されていたなどということはないでしょうか。提示されたスクリプトは、index.htmlが（rubyから見て）きちんと改行されていることが前提です。

質問者

補足 2014/11/25 18:17

回答ありがとうございます。調べたところ、確かに改行の数が少なく、長く取得してしまう原因となっているようでした。そこで対策を取りたいのですが、これは元々のhtmlに置換などで改行文字を与えてやれば良いのでしょうか？それともRubyの方でまた別のメソッドがあるのでしょうか。お願いします。

その他の回答 (1)

tatsu99
ベストアンサー率52% (391/751)

2014/11/25 18:52 回答No.3

#2です。 >そこで対策を取りたいのですが、これは元々のhtmlに置換などで改行文字を与えてやれば良いのでしょうか？もし、それが簡単にできるようでしたら、その方法を推奨します。（１案） >それともRubyの方でまた別のメソッドがあるのでしょうか。特に、rubyに簡単にできるメソッドが用意されているわけではありません。もし、行うとすれば、スクリプトの全面的な作り替えになります。考えられる方法としては、以下のような方法があります。（２案）１．index.htmlを全て読み込み、改行を全て削除した文字列を作成する。２．その文字列に対して、マッチングを行い、希望する文字列を取り出す。従って、１案を推奨します。１案を何らかの理由でさけたい場合のみ、2案を行うのがよいかと。