• 締切済み

mecabでの形態素解析で複合名詞を抽出

http://d.hatena.ne.jp/toku-hiro/20090121 こちらのブログ記事のプログラムを参考に、形態素解析を行っています。 このプログラムから複合名詞を抽出したいのですが、方法がわかりません。 わかる方がいらっしゃいましたら、よろしくお願いします。

みんなの回答

  • 1minn
  • ベストアンサー率57% (52/90)
回答No.1

mecabだけで複合名詞を取り出すのはおそらく無理です。 mecabでは最少単位の単語を切りだすレベルの形態素解析としては、それなりに優秀だとおもいますが、それ以上の機能までは持っていません。 形態素解析をおこなった段階で「名詞」「助詞」などの判定も返してくれるので、「名詞」「名詞」と連続したときに複合名詞と判定できるかと言えば、必ずしもそうではないですよね? また、「名詞」「動詞」を組み合わせたものも、複合名詞と呼ばれたりもします。 2つの語句が並んでいてそれを複合名詞と判定するには、その辞書が必要となります。 それを自前で用意できれば、ユーザー辞書としての追加も出来たと思うので、不可能ではないかもしれませんが、現実的ではないですね・・・ あくまで単純に「2つ並んだ名詞を抜き出す」のであれば、参考サイトでは if ($tmp[1] == '名詞') { という判定があるので、ここでカウンタつけて2回続いたら抜き出すというようにすればよいかと。

関連するQ&A