Ruby 改行文字の認識
こんにちは。
最近質問させていただいているRubyのスクローリングの際に1行ごとに文章を判定し、flagを立てて取得しているのですが、下記のプログラムで改行文字「¥n」を事前に挿入しているにもかかわらずflagがうまく機能しないため質問させていただきました。
読み込んでいるhtmlファイルは改行が少ないファイルであるため、改行を入れてあげなければ余計な部分まで取得してしまう状態です。
以下プログラムです。
1 text = ""
2 data = "/home/edinet/E05267/S1001YX6/index.html"
3
4 flag = nil
5
6 File.open(data) do |f|
7
8 f.each_line do |file|
9 file.gsub!(/<\/tr>/,"\n")
10
11 #IO.foreach(file) do |line2|
12 file.each_line do |line2|
13 case line2
14 when /保有目的が純投資目的以外の目的である投資株式の保有区分|保有目的が純投資目的以外/
15 flag = true
16
17 when /保有目的が純投資目的である投資株式|EOF|無議決権株式|政府及び地方公共団体|普通株式|【監査報酬の内容等】/
18 flag = false if flag == true
19
20 end
21
22 text << line2 if flag != nil
23 break if flag == false
24
25 end
26 text.gsub!(/<\/td>/,"\t")
27 #text.gsub!(/<\/tr>/,"\n")
28 text.gsub!(/<[^>]+>/,"")
29 print text
30
31 end
32 end
ご回答の程よろしくお願い致します。
お礼
無知ゆえ、結局、わかりませんでした。 ゴリ押しっぽいですが、pdfファイルをtxtファイルに変換し、 再度読み込む手法をとることにしました。 ありがとうございました。