- ベストアンサー
新聞記事から企業名を抽出する方法
形態素解析を行い、分割されてしまった企業名(ライブ+ドア→ライブドア)などは復元した新聞データから企業名のみを取り出したいと考えているのですがいい方法が思いつきません良い方法などがあれば教えていただけるとうれしいです。それと参考になる論文などがあれば教えてください。
- みんなの回答 (1)
- 専門家の回答
質問者が選んだベストアンサー
「分割された企業名」というのは、単に改行などで分けられてしまったものを指すのでしょうか? それなら改行コードを削除して無改行テキストにするだけで解決すると思います。間に不特定文字列が混入するような状況だと、文字種や文字数などの絞り込み条件によっては、かなり判別が難しくなるでしょう。 形態素解析をして細かい文字列に分割した素材から、実在する企業名を検索するには、あらかじめ企業年鑑などから企業名データを作成しておく必要がありますね。ただし、新聞の日時によっては現在の企業名と異なる可能性がありますので、企業名の変遷と関連も含めた企業名データがいるかもしれません。 さらに、吸収合併などで混在した企業名になっている場合、必要以上に細かく分割されてしまって、本来の企業名として認識できない可能性もあります。 どのようなデータからどのような作業をしたいのかを、もっと具体的に書き込んでもらえれば、より適切な情報が得られるかもしれません。