ARMプロセッサ，NEONの並列化について

2011/03/24 17:13

このQ&Aのポイント

ARMプロセッサのNEONを用いてプログラムの並列化を試みていますがうまくいきません．．．一般的なCソースに対してループ内の配列に"__restrict"をつけて，遅くなってしまいます．またアセンブラを見てもNEON固有の命令が見つかりません．
NEONを用いたARMプロセッサの並列化についての質問です．NEONを使ったループ内の配列演算に"__restrict"をつけることで遅くなってしまいます．またアセンブラを確認したところ，NEON固有の命令が見つかりませんでした．どなたか解決策を教えていただけると助かります．
ARMプロセッサのNEONを使用したプログラムの並列化について質問です．NEONを使ったループ内の配列の演算に"__restrict"をつけると逆に遅くなってしまいます．アセンブラも確認したのですが，NEON固有の命令が見当たりません．どなたか原因や解決策をご教示いただけると幸いです．

ARMプロセッサ，NEONの並列化について

現在組み込み化プログラムの勉強をしております． ARMプロセッサのNEONを用いて並列化を試みているのですがうまくいきません．．．一般的なCソースに対して，ループ内の配列に，"__restrict"をつけて，下記のコマンドを用いております．すると，__restrictをつけた方がなぜか遅くなる始末．．．また-Sで出力したアセンブラを見てもNEON固有の命令 (先頭にVがつくもの)が無いようです．どなたかお分かりになりますでしょうか．．．よろしくお願いします．　<(_ _)> コマンド arm-none-linux-gnueabi-gcc -Wall -O3 -march=armv7-a -mtune=cortex-a8 -ftree-vectorize -mhard-float -mfloat-abi=softfp -mfpu=neon -mvectorize-with-neon-quad -fno-strict-aliasing -o output_file input_file /********************ここからソース********************/ //NEONの自動化を検証するプログラム #include <stdio.h> #include <stdlib.h> #include <string.h> #include <time.h> #include <arm_neon.h> #define NUM_VAL 10 #define LOP_VAL 100000000 char* __restrict vmla(char* __restrict a, char* __restrict x, char* __restrict y, char* __restrict z); int main(void); char* __restrict vmla(char* __restrict a, char* __restrict x, char* __restrict y, char* __restrict z){ //ポインタの初期化 char p = 0; a = &p; x = &p; y = &p; z = &p; int i, j; for(j = 0; j < LOP_VAL; j ++){ for(i = 0; i < NUM_VAL; i++){ a[i] = x[i] * y[i] * z[i]; } } return a; } int main(void){ char an = 0; char a_val[NUM_VAL]; char x_val[NUM_VAL]; char y_val[NUM_VAL]; char z_val[NUM_VAL]; for(an = 0; an < NUM_VAL; an ++){ a_val[an] = 0; x_val[an] = 0; y_val[an] = 0; z_val[an] = 0; } time_t time_start; time_t time_stop; printf("Start\n"); time_start = clock(); vmla(a_val, x_val, y_val, z_val); time_stop = clock(); printf("Processing time is %f\n", (double)(time_stop - time_start)); return 0; }

kukky
お礼率65% (46/70)

その他（プログラミング・開発）
回答数2
ありがとう数0

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

salsberry
ベストアンサー率69% (495/711)

2011/03/25 22:18 回答No.2

> この場合，ポインタの初期化を行う必お湯はありますでしょうか．ポインタって、vmla()の中のa, x, y, zのことを指して言っていますか？もしそうなら、これらの変数はvmla()が呼ばれたときに値が既に与えられています。その値をそのまま使いたいのであれば&pを代入する必要はありませんし、元の値を捨てて別のポインタで演算をしたいのであれば質問中にあるように改めて初期化する必要があります。 vmla()で何をやりたいのかは質問者さんにしか分かりません (とは言え、&pを代入するのはきっと間違っているだろうとは推測できます)。もう一点気になるのはコンパイルオプションです。 http://gcc.gnu.org/onlinedocs/gcc/ARM-Options.htmlを見ると-mhard-floatは-mfloat-abi=hardと同じ意味と書かれていますから、それと-mfloat-abi=softfpを同時に指定するのは矛盾していて意味がありません。

質問者

補足 2011/03/25 23:05

返答どうもありがとうございます．おっしゃる通り，値が与えられますね．そもそもポインタの初期化をした理由ははじめにSegmentation faultしたためです．原因を調べた際に，初期化をしないとポインタが示すアドレスがかぶることがある云々とあったためです．しかしすべてに&pではまずいですね．この場合は必要ないということでしょうか．ちなみに返答にありました通り，初期化をコメントアウトして行いましたがどうも並列化の恩恵はありませんでした．また，オプションに関してですが，今回のgccがまだ-mfloat-abi=hardをサポートしていないため -mfloat-abi=softfpを指定しております． http://blog.kmckk.com/archives/1565251.html -mhard-floatをつけると暗黙のうちに -mfloat-abi=hard になりますが、現状ARMのコンパイラではfloatのABIでhardはサポートされていません。なので、必ず -mhard-float を指定したら　-mfloat-abi=softfp も指定する必要があります。次にでてくるgcc 4.5 ではARMでの-mfloat-api=hardがサポートされるようです。

ログインすると、全ての回答が全文表示されます。

その他の回答 (1)

salsberry
ベストアンサー率69% (495/711)

2011/03/24 22:11 回答No.1

並列化どうこうの前に、vmla()の内容が間違っています。 a, x, y, zが全てpへのポインタで上書きされていて、main()で準備したa_val, x_val, y_val, z_valはvmla()での計算に使われていません。 pは配列ではないので、i≠0のときx[i]やa[i]にアクセスするのは正しくありません。

質問者