締切済み

バッチファイル、awkスクリプトの作成について

2004/08/11 07:43

日本語の文章を単語ごとに分け、さらにその単語の品詞を表示し、頻度ごとに並び替えるというバッチファイルかａｗｋスクリプトを教えてください。同様に品詞ごとに分けた上で、頻度ごとに並び替えるバッチファイルかａｗｋスクリプトも教えていただけたら幸いです。

tatujin
お礼率12% (1/8)

その他（プログラミング・開発）
回答数4
ありがとう数8

みんなの回答 （4）
専門家の回答

みんなの回答

nightowl
ベストアンサー率44% (490/1101)

2004/08/17 02:14 回答No.4

前の回答を読み返してみて我ながら不親切だと思ったので、 awk でのサンプルを示します。でも awk でソートなどするのは面倒ですよ。このプログラムのソートも半分インチキです。 asort() という関数もありますが gawk(GNU awk)の独自拡張だし。すべてにおいて awk がベストの解ではありません。統計なら Excel を使ってもいいし。スクリプト言語で全部賄う必要があるなら、ここはもう Perl や Ruby などの出番だと個人的には思います。 { while (getline) { if (!/EOS/) { # 句読点をはねたいときはここに追加 freq[$0]++ lineno++ if (freq[$0] > maxfreq) maxfreq = freq[$0] } } } END { for (i = maxfreq; i > 0; i--) # 昇順にするにはここを書き換え for (line in freq) if (freq[line] == i) printf("%10d(%.3g%%) %s\n", freq[line], 100*freq[line]/lineno, line) } 茶筅の出力をパイプでこのスクリプトに食べさせてください。後はこれを叩き台にして頑張ってください。

参考URL：: http://lagendra.s.kanazawa-u.ac.jp/ogurisu/manuals/awk/intro/,http://infoshako.sk.tsukuba.ac.jp/jdoc/GNU/AWK/jgawk-jman/

nightowl
ベストアンサー率44% (490/1101)

2004/08/15 22:51 回答No.3

こんばんは。この間はお返事ありがとうございました。どのようなテキストからどのような処理結果がほしいのか、大まかなイメージだけでも示していただきたかったです。「バッチファイル」とおっしゃるからには Windows 環境でしょうか。まずは No.2 の方も URL つきで紹介されていますが、奈良先端大で開発されている形態素解析システム「茶筌」(ChaSen)をインストールしましょう。 Windows 版の「WinCha」もあります。以下はあなたの質問文を茶筌にかけてみた結果の一部です。頻度ヒンド頻度名詞-一般ごとゴトごと名詞-接尾-一般にニに助詞-格助詞-一般並びナラビ並ぶ動詞-自立五段・バ行連用形替えるカエル替える動詞-自立一段基本形というトイウという助詞-格助詞-連語バッチバッチバッチ名詞-一般ファイルファイルファイル名詞-一般かカか助詞-副助詞／並立助詞／終助詞ａｗｋ未知語スクリプトスクリプトスクリプト名詞-一般をヲを助詞-格助詞-一般教えオシエ教える動詞-自立一段連用形てテて助詞-接続助詞くださいクダサイくださる動詞-非自立五段・ラ行特殊命令ｉ。。。記号-句点また No.1 の方の取り上げられたケースですが、 >「にわにはにわにわとりがいます」 →「に/わに(鰐)/はにわ(埴輪)/にわとり/が/い/ます」確かに茶筌でも解析誤りに陥ってしまいました。かしこのような一種「病的」なケースは入力を漢字仮名交じり文とすれば問題なく回避できます。さて、原文はファイル「source」に入っているものとして形態素の出現頻度ごとにソートしてみます。茶筌の出力フォーマットを指定し、見出し語と品詞のみを表示させます。参考までに、Linux での処理結果は以下のようになりました。 chasen -F "%m\t%U/%H/\n" source | grep -v EOS | sort | uniq -c | sort -nr 5 に助詞 4 ごと名詞 3 を助詞 3 、記号 2 並び動詞 2 分け動詞 2 頻度名詞 2 品詞名詞 2 単語名詞 2 替える動詞 2 教え動詞 2 ファイル名詞 2 バッチ名詞 2 スクリプト名詞 2 の助詞 2 て助詞 2 か助詞 2 ａｗｋ未知語 2 。記号 1 文章名詞 1 表示名詞 1 日本語名詞 1 同様名詞 1 上名詞 1 幸い副詞 1 も助詞 1 という助詞 1 です助動詞 1 で助詞 1 たら助動詞 1 た助動詞 1 その連体詞 1 し動詞 1 さらに副詞 1 ください動詞 1 いただけ動詞気がついたら awk をまったく使っていませんでした。このように、UNIX/Linux なら単機能のテキストツールを援用してコマンドラインから１行でいけます。 Windows で本格的にテキスト処理を続けるおつもりなら、 Windows に UNIX 環境を提供する「Cygwin」などの導入をお勧めします。 (この件についての追加質問はお受けいたしかねます)

参考URL：: http://www.cygwin.com/,http://www.mars.dti.ne.jp/~sohda/cygwin/

nota55
ベストアンサー率37% (138/366)

2004/08/11 16:37 回答No.2

それ自体はバッチやawkの仕事じゃないので，茶筌でも使ってゴリゴリやる方法を考えたら？ http://chasen.aist-nara.ac.jp/hiki/ChaSen/

参考URL：: http://chasen.aist-nara.ac.jp/hiki/ChaSen/

はなおかじった（@Jitta）
ベストアンサー率42% (69/161)

2004/08/11 08:07 回答No.1

　そこまでできれば翻訳ソフトの約半分ができるので、バッチやスクリプトでは無理、と思うのですが。　例えば、「にわにはにわにわとりがいる」「ははははははとわらった」という入力があった場合、どのように“単語”を分けましょうか？“単語帳”が要りますよね。英語と違って、日本語の構文解析はかなり難しいですよ。ご参考： http://www.google.com/search?q=%E6%97%A5%E6%9C%AC%E8%AA%9E+%E6%A7%8B%E6%96%87%E8%A7%A3%E6%9E%90&sourceid=opera&num=25&ie=utf-8&oe=utf-8