awk初心者の私が困っていることとは？

2010/01/27 18:39

このQ&Aのポイント

awk初心者の私が、固定長のファイルを処理する方法に悩んでいます。
特に、ファイル1とファイル2の数字部分を比較する方法がわかりません。
ファイルの内容を結合する際にも、スペースの処理に苦労しています。

すいません、とある課題でawkに挑戦しなければならなくなったのでが

すいません、とある課題でawkに挑戦しなければならなくなったのでが案の定詰まってしまい助けを求めにきました。 file.1 01 aaaaaaaaabbbbbbbbbあああああ 02 cccccccccdddddddddいいいいいい 03 eeeeeeee fffffffffうううう 04 ggggggggghhhhhhhhhええええええええ： file.2 01001 iiiiiiiiijjjjjjjjjおおおおお 01002 kkkkkkkk lllllllllかかかかかか 02001 mmmmmmm nnnnnnn きききき 02002 ooooooooopppppppppくくくくくく 02003 qqqqqqqqqrrrrrrr けけけけ 02004 ssssssss tttttttttこここここ 03001 uuuuuuuuuvvvvvvvvvささささ 03002 wwwwwwwwwxxxxxxxxxししししし　　　　　　　　： file.3 01001 iiiiiiiiijjjjjjjjjあああああおおおおお 01002 kkkkkkkk lllllllllあああああかかかかかか 02001 mmmmmmm nnnnnnn いいいいいいきききき 02002 ooooooooopppppppppいいいいいいくくくくくく 02003 qqqqqqqqqrrrrrrr いいいいいいけけけけ 02004 ssssssss tttttttttいいいいいいこここここ 03001 uuuuuuuuuvvvvvvvvvううううささささ 03002 wwwwwwwwwxxxxxxxxxううううししししし： fileの最初の数字は固定長11文字分、アルファベットの部分は計18文字文あります。私がやりたいのは、file1の数字の部分とfile2の上2桁が一致したならfile.3のように file.1のひらがな部分をfile.2のひらがな部分の前にくっつけたいんです。これをawkでやらないといけないんですが、なにぶんawkはほぼ初めてに近いので最初の1文を書くのにも苦労する次第です。固定長なので、FIELDWIDTHSでの行を分割して、file1とfile2の数字部分を比較しようをと考えたのですが、スペースが途中に入ると区切りがうまくいかないので、なかなか処理できません。こんな素人の自分に、どなたかアドバイスをいただけないでしょうか？御願い致します。

yxia001
お礼率19% (13/67)

その他（プログラミング・開発）
回答数3
ありがとう数5

みんなの回答 （3）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

sakusaker7
ベストアンサー率62% (800/1280)

2010/01/30 14:13 回答No.3

まず、file2で必要になるのは行の先頭二桁の数字と、行丸ごとなのでフィールド分解は忘れます。次に比較のためのfile1の情報をどうするかですが、メモリに余裕があれば (今ならメモリ不足の心配はまずいらないでしょう)最初にまるごと配列に読み込むのが良いと思いますが、今回はそうしないでgetlineという組み込み関数を使ってちまちま必要に応じて読むことにします。で BEGIN { file1 = ARGV[1] ARGV[1] = "" } { if (num < substr($0, 1, 2)) { getline t < file1 num = substr(t, 1, 2) pastedata = substr(t, 1+2+1+9+9, 15) } if (num == substr($0, 1, 2)) print $0 pastedata } こんな感じでとりあえず質問に貼られているデータは処理できると思います。 FIELDWITHSにまかせるのではなくて、自分でsubstr()関数を使って必要なところを切り出して使います。スクリプトのここが分からないという質問には答えますが実は問題はこうだったので書き直せというリクエストはお断りしたいです。組み込み関数の仕様などは検索すればすぐに見つけられます。

質問者

お礼 2010/02/12 08:57

有難う御座います。自分の、勉強不足が良くわかったので、勉強しなおします。

ログインすると、全ての回答が全文表示されます。

その他の回答 (2)

sakusaker7
ベストアンサー率62% (800/1280)

2010/01/29 02:36 回答No.2

あー、awk の動作をだいぶ勘違いされているようですね。入力を同時に並行して二つのところから得ようとするのは結構面倒ですよ。あともうひとつ確認。 file2 の方には file1 の 01 や 02 などに対応する行が複数あるのですね? つまり、file1 の 01 の行から切り出したのをくっつけるのは file2 の 01001 iiiiiiiiijjjjjjjjjおおおおお 01002 kkkkkkkk lllllllllかかかかかかの二行で、以下同様に02, 03, ... と繰り返すと。

質問者

補足 2010/01/29 08:56

そうですね。上2桁をキーにしてfile1とfile2でマッチングをかけて、同じものにfile1のひらがな部分をfile2のひらがな部分の前にくっつけるという感じです。

ログインすると、全ての回答が全文表示されます。

sakusaker7
ベストアンサー率62% (800/1280)

2010/01/27 20:43 回答No.1

awkでやらなければってありますけど、FIRLDWIDTHS使った固定長の分割って gawk固有の拡張ですがいいんでしょうか? ＞スペースが途中に入ると区切りがうまくいかないので、なかなか処理できません。そのうまくいかないというのでよいのでスクリプトを見せてください。あ、あと使っている環境(OSなど)もお願いします。ひらがなとかあるとその辺面倒があったりするので。

質問者

補足 2010/01/28 09:07

一応書いたソースは BEGIN{ FIELDWIDTHS="2 9 9 9 15" } FILENAME == ARGV[1]{fdata[$1] = $5} FILENAME == ARGV[2]{print$1 $2 $3 $4 fdata[$1]$5} unix系のサーバを使っているます。最後のひらがな部分は漢字とひらがなもあります。

ログインすると、全ての回答が全文表示されます。