- 締切済み
大規模データの集計・分析時のソフトウェアについて
ある団体の保有しているデータの集計・分析作業を行うことになりました.以前同様の業務をしたことがあったのですが,そのときはデータを保有していた先方のシステムをお借りできたので何も考えずに集計・分析作業に集中できました.しかし,今回は先方にそのような環境がないとのことで,環境も構築する必要があります. 以下のような状況の場合,安価に集計・分析するためにはどのようなデータベースのソフトを選択するのが良いでしょうか? ・集計・分析の対象となるデータは月ごとに多くて5億件(これを四半期分なので三ヶ月分) ・1件あたりのデータに含まれる情報はせいぜい100バイト ・集計方法は単純な合計・平均がメインですが,ミクロな分析も必要なので,SQLなどでの制御も考えています. ・集計・分析時にデータの更新などは発生せず,利用者(分析者)は同時に複数アクセスすることはありません. ・データベースを動かす環境の候補は Windows か Linux (i386) のどちらかです. このような場合,どういったデータベースソフトを選択するのが良いでしょうか.よろしくお願いします.
- みんなの回答 (3)
- 専門家の回答
みんなの回答
#2です。ご呈示いただいた条件があまりにも特殊(に思える)もので、責任ある回答はできませんが(^^; 特徴を整理すると 1.件数が莫大である 2.元データが複数の形式 3.更新や同時複数アクセスはない 以上を考えるとOracleやSQL Serverなどの高価なシステムは必要ないようです。高価なシステム原価はスピード交情よりもデータ整合性や安全性に大きく関わっていると考えるためです。 従いMySQLあるいはPostgreSQLなどの中で、質問者が使い慣れたDBとフロントエンドを使用されればよいのでは。
>集計・分析の対象となるデータは月ごとに多くて5億件(これを四半期分なので三ヶ月分) これだけ大量のデータをまさかテキスト形式などでもっているわけじゃないですよね。 するとそのデータベースは?
お礼
早速のご回答をどうもありがとうございます. 拠点で利用しているデータベースを使うという案もありましたが,負荷の点で使わない(使えない)方向になったようです(実は下請なので詳しい事情が良くわかっていません). データ形式については今のところサンプルデータしか手渡されていませんが,データ収集箇所ごとの日ごとのデータが CSV 形式でたくさんあるという感じでした.本番までにどういったデータが来るのかも含めて確認してもらっています.
補足
質問を投稿してからデータを眺めたところ,データの形式がまちまちであることが判明しました(といっても四種類くらいですが,それはそれで量が多いので手間がかかりそうだということに...).といいますのも,実はデータはいろいろな場所で収集されていて,それらを夜中~明け方にバッチ処理でいくつかの拠点へ転送する仕組みになってしました.いくつかの拠点ではデータベースで管理しているようです.
- yambejp
- ベストアンサー率51% (3827/7415)
Oracleじゃないですかねぇ・・・ データの容量からみてもそれなりのソリューションで 運営しないと保守もままならないでしょう。 安価ってどのくらいが安価なのかわかりませんが、 システム会社にまるなげで委託して、1億円くらい で作ってもらう感覚でしょうか。 信頼性とかある程度犠牲にしてよいなら MySQLで組んで、PC込みで40~50万ってとこすかね。 仕様によってそのくらいふり幅が大きな案件だと 思います
お礼
早速のご回答をどうもありがとうございます. 明確な予算はかけませんが,64bitマシンなどを使う予定なのでいろいろとコストがかかってしまいそうです. Oracle も含めて検討したいと思います.
お礼
ご回答をどうもありがとうございます. Oracle等を導入するのはコスト的に少々厳しそうな具合ですので,ご回答の中にもありました MySQL を軸に検討しようと思っております.