Pythonで改行を除去し、会社名を変更する方法と正規表現で数字を抜き出す方法

2009/07/09 03:33

このQ&Aのポイント

Pythonのプログラムを使用して、改行を除去して会社名を変更する方法について教えてください。
また、Pythonの正規表現を使用して、テキストから数字を抜き出す方法についても教えてください。
説明された方法を使用することで、改行を除去し、会社名を変更することができます。また、正規表現を使用することで、テキストから数字を抜き出すこともできます。

dfadsfadad
お礼率38% (41/106)

Python
回答数4
ありがとう数6

みんなの回答 （4）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

rinkun
ベストアンサー率44% (706/1571)

2009/07/09 09:38 回答No.1

Pythonは2.x系しかやってないので、3.x系だと少し違うかもしれません。質問の場合、companyの文字列の最後に改行が含まれているのでしょう。 > company2= company +"(株)" の部分を < company2= company.rstrip() +"(株)" とすれば、company行末の空白文字(改行を含む)が除去されますので、改行されなくなると思います。 # 行頭の>や<は引用記号です。実際のプログラムには入れないでください正規表現の方ですが import re r=re.compile(".*- (\d+)\..") としておいて x = r.match("Yahoo!・ユ・。・、・ハ・鵐ケ - 8872.q") とすると x.group(1)で文字列'8872'が取れます。整数で取りたければint(x.group(1))としてください。

質問者

お礼 2009/07/09 19:01

ありがとうございます。問題解決いたしました。後1つ質問よろしいでしょうか。 Yahoo!・ユ・。・、・ハ・鵐ケ - 8801.t Yahoo!・ユ・。・、・ハ・鵐ケ - 8928.o Yahoo!・ユ・。・、・ハ・鵐ケ - 8999.t Yahoo!・ユ・。・、・ハ・鵐ケ - 3235.f のような文字列が現れた場合とそれ以外の文字列が現れた場合で処理を分岐させたいのですが、この場合 if… else と書きたいのですが…の部分はどう書けばよろしいでしょうか。・ユ・。・、・ハ・鵐ケ - の部分は半角です。

その他の回答 (3)

rinkun
ベストアンサー率44% (706/1571)

2009/07/11 00:55 回答No.4

解釈するのがHTMLなら、正規表現で処理するよりhtmllib等のHTML解析器を使った方が後々修正などし易いと思う。まあ、最初はちょっと勉強しないといけないでしょうけど。

質問者

お礼 2009/07/18 03:03

ありがとうございます。ちょっと勉強しなおしてきます。丁寧な解説をありがとうございました。

rinkun
ベストアンサー率44% (706/1571)

2009/07/10 08:51 回答No.3

ANo.2へのお礼について。まず、ここの表示では行頭空白が削除されるので、全角空白でも使って書かないとPythonコードは読めないよ。閑話休題。行ごとに処理しているコードの中で次の行を読むのは正しく動作できないので止めた方が良い。フラグを立てておいて、繰り返しの初めにフラグチェックして書き出すとか、そういう方法で対応できそうだけど。

質問者

お礼 2009/07/10 23:53

いろいろとありがとうございました。ちょっと自分で十分に考えて見ます。丁寧に解説をしてくださり誠にありがとうございました。

質問者

補足 2009/07/10 19:38

ちょっと良くわからない質問ですみませんでした。 pythonの練習として http://charge.biz.yahoo.co.jp/report/sector33/brand_report/2730.html というサイトの <td align="center" bgcolor="#ffffee">2009ヌッ3キ・/small></td> <td align="right">803,004</td> <td align="right">1,232</td> <td align="right">11,751</td> <td align="right">-13,506</td> </tr><tr bgcolor="#ffffff"> <td align="center" bgcolor="#ffffee">2008ヌッ3キ・/small></td> <td align="right">851,205</td> <td align="right">8,480</td> <td align="right">21,227</td> <td align="right">6,754</td> の数値（803,004等）を年代別に抜き出したいのですが d = urllib.urlopen("http://charge.biz.yahoo.co.jp/report/sector33/brand_report/2730.html") txt=d.read() lines2 = txt.split("\n") としたのですがこの続きがイマイチわからないのですがどうしたら効率よく抜き出せますか？

rinkun
ベストアンサー率44% (706/1571)

2009/07/09 21:00 回答No.2

ANo.1へのお礼に書かれた質問について。「のような」「それ以外」というのがどんな文字列を想定しているのか分からないのでif条件が書けません。

質問者

お礼 2009/07/10 02:56

少し整理したので見てもらえないでしょうか for line2 in lines2: if "あいうえお" in line2: frag=1 if frag==1: if "かきくけこ": 　　　　　　　　　　　　（…）ここの（…）の部分に現在読み込んでいる行の次の行からprint文で書きだしたいのですが次の行というのはどうやって書けばよろしいでしょうか。