並列処理(SCore)とは？

2010/01/12 16:11

このQ&Aのポイント

初心者がSCOREを用いて並列処理を行う方法について説明します。
4つのPCで1ノードずつを並列接続した場合の演算性能の向上について質問します。
プログラムによって演算性能の向上の度合いが異なる可能性があるか質問します。

並列処理(SCore)

並列処理(SCore) 自分はSCOREを用いて並列処理を行おうとしている初心者です。 [環境] ・CPU Intel Core2 Quad 2.83GHz ・メモリ 8GB ・スイッチングハブ FXG-08IMB（ギガビット）これをサーバー兼計算ホスト1台、計算ホスト３台の計4台でSCoreによって並列環境として接続しました。・使用したプログラムは、初期値を設定し、ラプラス方程式を逐次的に計算させるプログラムです。・並列処理を行うためのプログラムとして、MPIを使用しました。いろいろなパターンでプログラムを実行した結果を図に貼り付けておきます。クアッドコアなので、１PCで４ノード扱うことができています。やや頭でっかちとなってしまいましたが、ここからが質問です。 [質問?] たとえば、１つのPCで、4ノードで並列処理を行った場合と、 4つのPCで各1ノードずつ、合計4ノードで並列処理を行った場合に、４PCで1ノードずつを並列接続したほうが"約1.8倍"の演算性能を誇っているのはなぜでしょうか？ [質問?] 今回は初期値を設定して、ラプラス方程式を解く逐次プログラムを使用しましたが、プログラムによっては、質問?のような結果にならない場合もあるのでしょうか？もしあるなら、どのようなタイプのプログラムなら、1台で4ﾉｰﾄﾞ、4台で4ﾉｰﾄﾞの演算性能がほとんど同じ程度になるのでしょうか？できれば、?も?も上記した環境を踏まえて回答していただけると幸いです。申し訳ありませんが、初心者ということを分かって回答していただけると助かります。面倒だとは思いますが、回答よろしくおねがいします。 [以下プログラム] この逐次プログラムをMPI関数によって並列処理可能にしたものが実際使用したプログラムです。（文字数が足りなかったので、並列化する前の逐次プログラムをせめて載せておきます。） #include<math.h> #include<stdio.h> #include<sys/time.h> #define SIZE (1024*3 - 2) #define EPS 1.0e-1 double u[SIZE+2] [SIZE+2], uu[SIZE+2][SIZE+2]; double second() { struct timeval tv; gettimeofday(&tv, NULL); return tv.tv_sec + tv.tv_usec / 1000000.0; } void init(double u[SIZE+2][SIZE+2]) { int i,j; memset (u,0,sizeof(double)*(SIZE+2)*(SIZE+2)); for (i=1;i<=SIZE;i++) for(j=1;j<=SIZE;j++) u[i][j]=sin((j-1)/(SIZE*M_PI))+cos((j-1)/(SIZE*M_PI)); } int main() { double start,time,err; int i,j,iter=0; init(u); init(uu); start=second(); do{ {iter ++;} for(i=1;i<=SIZE;i++) for(j=1;j<=SIZE;j++) uu[i][j]=u[i][j]; for(i=1;i<=SIZE;i++) for(j=1;j<=SIZE;j++) u[i][j]=(uu[i-1][j]+uu[i+1][j]+uu[i][j-1]+uu[i][j+1])/4.0; {err=0.0;} for(i=1;i<=SIZE;i++) for(j=1;j<=SIZE;j++) err+=(uu[i][j]-u[i][j])*(uu[i][j]-u[i][j]); }while (err>EPS); time = second()-start; printf("time=%f seconds, iteration=%d,performance=%f MFLOPS\n", time,iter,(8.0*SIZE*SIZE*iter)/time/1.0e6); return 0; }

この投稿のマルチメディアは削除されているためご覧いただけません。

qwe1232
お礼率17% (7/41)

C・C++・C#
回答数2
ありがとう数2

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

和泉博（@hiroshi09s）
ベストアンサー率54% (59/109)

2010/01/15 20:26 回答No.2

#1さんに追加補足質問１、２：　同じデータ並列ですが、実行環境が違うことと、ひとつのプロセスですべてのコアを占有する thread はコアを２個使えば２倍、３個使えば３倍それぞれ速くはならない。一方、PCを組み合わせて使う場合、それは完全に独立しており、データ並列のために分割されて計算量が縮小された分、PC組み合わせ数にほぼ比例して速くなる。その違いです。　↓に簡単な円周率の threadプログラムを示しますから、「THREAD_NUM」を１～４に変えて体験してください。 /* Simple sircular constant program by thread on Mac OSX * file name: qwe.c * compile: gcc qwe.c -lpthread * execution: ./a.out */ #include <stdio.h> #include <sys/time.h> #include <pthread.h> // gcc #define THREAD_NUM 3 #define TIMES 1000000000 typedef struct _thread_arg { int id; double *sum; } thread_arg_t; void thread_func(void *arg) { thread_arg_t* targ = (thread_arg_t *)arg; long c_start, c_end, range; long i; double x, pi, step, *temp_idsum; range = (double)TIMES / (double)THREAD_NUM; c_start = 1 + targ->id * range; if (targ->id > 0) c_start += 1; c_end = 1 + (targ->id + 1) * range; if (c_end > TIMES) c_end = TIMES; temp_idsum = targ->sum; step = 1.0 / (double)TIMES; for (i = c_start; i <= c_end; i++) { x = (i - 0.5) * step; *temp_idsum += 4.0 / (1.0 + x * x); } } int main(void) { pthread_t handle[THREAD_NUM]; thread_arg_t targ[THREAD_NUM]; double sums[THREAD_NUM], total_sum, pi; long i; struct timeval tv; struct timezone tz; double before, after; for (i = 0; i < THREAD_NUM; i++) sums[i] = 0.0; printf("program running: "); fflush(stdout); gettimeofday(&tv, &tz); before = (double)tv.tv_sec + (double)tv.tv_usec * 1.0e-6; for (i = 0; i < THREAD_NUM; i++) { targ[i].id = i; targ[i].sum = &sums[i]; pthread_create(&handle[i], NULL, (void *)thread_func, (void *)&targ[i]); } for (i = 0; i < THREAD_NUM; i++) pthread_join(handle[i], NULL); total_sum = 0.0; for (i = 0; i < THREAD_NUM; i++) total_sum += sums[i]; pi = total_sum / TIMES; gettimeofday(&tv, &tz); after = (double)tv.tv_sec + (double)tv.tv_usec * 1.0e-6; fprintf(stderr, "%.3f sec\n", after - before); printf("\tpi = %.11f\n", pi); return 0; }

質問者

補足 2010/01/21 17:58

質問者です。＞ひとつのプロセスですべてのコアを占有するスレッドとはどういうことでしょうか？初歩的な質問ですいません。

その他の回答 (1)

Yanch
ベストアンサー率50% (114/225)

2010/01/13 17:24 回答No.1

●PC数が多い方が演算性能が優れているのはなぜ？ > [質問?] > たとえば、１つのPCで、4ノードで並列処理を行った場合と、 > 4つのPCで各1ノードずつ、合計4ノードで並列処理を行った場合に、 > ４PCで1ノードずつを並列接続したほうが"約1.8倍"の演算性能を誇っているのはなぜでしょうか？実行結果の図を見たところ、スレッド切り替えのオーバーヘッドが影響しているのではないかと、思われます。数字とにらめっこしているだけではわかりにくいと思いますので、色々な方法でグラフ化してみてると、傾向がつかみやすいかと思います。 ●どのようなプログラムならノード数が同じ時に、同じ演算性能になるのか？ > [質問?] > 今回は初期値を設定して、ラプラス方程式を解く逐次プログラムを使用しましたが、 > プログラムによっては、質問?のような結果にならない場合もあるのでしょうか？ > もしあるなら、どのようなタイプのプログラムなら、1台で4ノード、4台で4ノードの演算性能がほとんど同じ程度になるのでしょうか？スレッド切り替えのオーバーヘッドが影響するのが、演算性能低下の理由であるとすれば、プログラムの種類にかかわらず、同じような処理結果の傾向になると予想されます。 ●補足並列処理時に、１台のPCでも、複数のプロセッサを搭載していれば、スレッド切り替えのオーバーヘッドが発生しないと思うかもしれませんが、実際のところ、スレッドが取り扱うリソースはCPU以外にも存在しますので、スレッド切り替えのオーバーヘッドが0にはなりません。