• ベストアンサー

日本語を100万語記載したデータベースが欲しいです。

日本語を100万語記載したデータベースが欲しいです。 もちろん、有料で構いません。 「支離滅裂」とか「好き」とか「海苔」とか日本語のデータベースが欲しいです。 どこかにあれば教えて頂けないでしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
  • chimbocau
  • ベストアンサー率40% (6/15)
回答No.1

国立国語研究所の日本語コーパスがいいのではないでしょうか。無償だそうです。2010年3月現在以下の6種類のデータから4600万語が収集されているそうです。 ・一般の書籍から無作為抽出したサンプル(8821件、約2500万語) ・政府刊行白書から無作為抽出したサンプル(1500件、約500万語) ・過去30年間の国会会議録から無作為抽出したサンプル(159会議、約500万語) ・2005年度版の検定教科書から無作為抽出したサンプル(412件、約100万語) ・参加者同士で知識を教えあうことを目的としたQ&A形式のナレッジコミュニティーサービスである「Yahoo!知恵袋」から無作為抽出したサンプル(45725件、約500万語) ・「Yahoo!ブログ」より無作為抽出したサンプル(24027件、約500万語) 100万語というのは100種類の言葉という意味でしょうか?またデータはご自分で加工したりすることが目的でファイルとして入手されたいのでしょうか。

kleenex111
質問者

お礼

早速の回答ありがとうございます。 国立国語研究所の日本語コーパスですが、自分でも調べてみていた所でした。 それによると、配布制限として、「日本語研究関連機関」、個人ですと大学院生が対象のようです… そのため、自分には無理かと… >100万語というのは100種類の言葉という意味でしょうか?またデータはご自分で加工したりすることが>目的でファイルとして入手されたいのでしょうか。 100万語は100万種類の日本語(単語)の意味です。 入手後は、加工したりしないので、ダウンロードか、記憶媒体で販売している所があればBESTなのですが。

関連するQ&A