• ベストアンサー

PerlかRubyを使って、形態素解析器なしで名詞(句)を取り出すこと

PerlかRubyを使って、形態素解析器なしで名詞(句)を取り出すことはできるでしょうか?よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • uwi
  • ベストアンサー率74% (55/74)
回答No.2

> 人工無能のロイディは形態素解析器なしで名詞(句)を取り出しています。 なぜそう思ったのかがよくわかりませんが、当然ながら形態素解析をしてます。ソース公開されてるので見ればわかります。 名詞などを取り出す(文を分解する)ことを形態素解析というので、形態素解析器なしで名詞(句)を取り出すというのは文章として変だと思います。 ChaSenや、Mecabなどの形態素解析ツールを使わずに自前で形態素解析できるかという意味で書いてあるのであれば、ちょっと勉強すればそれなりのものはできると思います。 完全を求めると難易度が跳ね上がりますが。

LLR4
質問者

お礼

ありがとうございました。

LLR4
質問者

補足

http://neoinspire.net/archives/61 のサイトで正規表現を使って名詞を取り出しています。あいにくPHPで書いてあるので良くわかりません。Perlも初心者なので良くわかりません。これをPerlで書くとしたらおどうなるんでしょうか?よろしくお願いいたします。

その他の回答 (1)

回答No.1

★一度出した質問をすぐに消さないでください。回答を書いている人間の立場もお考えください。 新しい質問では形態素解析なしということですが、 これは無理です。絶対にできません。 ここから先は先の質問に対するものです。 大変困難ですが、記述可能と思われます。 また、Ruby/Perlに限らず、ほとんどの言語でその手段は大差ありません。 まず、与えられた文章をどのように分解するのか、というところに第一関門があります。 日本語は小学校1年の教科書を除けば単語と単語の区切りにスペースを置きません。 よって単語の区切りを行うアルゴリズムを作る必要があります。 次に、日本語は膠着語なので語幹と語尾の分解が必要です。 これを正確に行えないと続きの処理ができません。 その次に、名詞と副詞・連体詞・感動詞といった語尾を持たない単語の区別を行う必要があります。 英語のように、ある程度語順が固定化される言語の場合は前後の単語を判定すれば名詞とそれ以外の品詞の区別は何とかなると思いますが、 日本語は語順が極めて自由な言語のため、前後関係を文脈として解釈していかなければ判定できません。 そして得られた独立語を辞書に問い合わせて名詞であることを確定させれば解が得られます。 よって、今申し上げた部分も含めて、 日本語の構造を科学的に解析し尽くせば、自ずとプログラムは完成するでしょう。 大変作業量が大きいですが、是非取り組んでみてください。 非常に価値のある成果物が得られます。

LLR4
質問者

お礼

大変失礼いたしました。ご回答ありがとうございました。

LLR4
質問者

補足

人工無能のロイディは形態素解析器なしで名詞(句)を取り出しています。