Gather

Top: 6 lines / tails

Par: 15 lines

Problem Statement

$Y[i, j] = X[i, I[i, j]]$ を計算してください。

なお、デバッグを容易にするため、$X[0]$ には [0.1, 1.1, 2.1, ..., 1023.1] が格納されています。

補足：厳密には、$0.1$ は表現不可能なので、これに一番近い倍精度浮動小数点数が格納されています。

Explanation

PE 単体で問題を考えると、 $1$ 次元配列 $X$, $I$ に対し、$Y[j] = X[I[j]]$ を計算してくださいという問題になります。詳しくは Inputs をご覧ください。

変数 $x$ の値に応じて配列 $A$ の中から特定の場所の値を得る操作である間接参照 $A[x]$ は、プログラミングを行う上では馴染み深いでしょう。

MN-Core では T レジスタを用いることで、LM0 の固定ではない、自由なアドレスにアクセスすることができます（T レジスタ間接参照。SDM 3.6.1.6「LM0」）。

T レジスタ（SDM 3.6.1.12「T レジスタ」）は PE あたりの容量が $8$ 長語の、非常に小さいレジスタです。アドレス指定は無く、サイクルごとに独立した $2$ 長語領域へ自動的に切り替わり、$t, $lt, $llt で GRF や LM と同様に入出力できます。常に $2$ 長語でアクセスされるので、先の $3$ つの表記はすべて $llt と同じ扱いになります。

さて、間接参照では、LM0 へのアクセスで $lm0v のように書いていたところを $lmt0v のように t を付け加えます。

そうすると $1$ ステップ内の各サイクルで T レジスタから読み出された整数値ぶん、アクセスするアドレス値に加算されます。

このとき、単語 $mt0v、長語 $lmt0v、二長語 $llmt0v などの語長指定に関わらず、T レジスタからはサイクルごとに対応した単一の長語が読み出されます。

以下の VSM をご覧ください。

ipassa $subpeid $t nop ipassa $mt100v $n0v

$subpeid とは、各 PE の PE 番号を得られる、$0$～$3$ の整数値です（SDM 3.6.1.20「固定値入力オペランド」）。

もし $m100v と指定した場合、全ての PE が $4$ サイクルかけて $m[100,101,102,103] へアクセスします。

$mt100v のように T レジスタ間接参照を用いると、このプログラムでは T レジスタに PE 番号を書いているので、PE0 は $m[100,101,102,103] へ、PE3 は $m[103,104,105,106] へ、というように、PE 番号の分だけずれた場所にアクセスされます。

自動インクリメントが必要なければ、$mt100 と指定することで、アドレス $100$ を基準に、毎サイクルの T レジスタの内容を元にアクセス先が決定されます。

T レジスタの値が先程の例と一緒であれば、PE0 は $m[100,100,100,100] へ、PE3 は $m[103,103,103,103] へアクセスされます。

なお、$lmt100v のような長語アクセスを行いたい場合、アドレス値は単語基準であり、長語のアドレスは $2$ の倍数しか許されないため、端数は切り捨てられます。

また T レジスタへの代入時に、lpassa $n0v $t のように入力として単語を指定した場合、T レジスタに関しては $t と記述しても $lt と記述しても $2$ 長語アクセスとなるため、単語で読み込んだ $32$ bit 値が先頭に詰められて残りが $0$ 埋めされたものが、T レジスタに書き込まれます。

そのため、T レジスタを長語で読み出したとき、$64$ bit の長語範囲のうち末尾 $32$ bit は $0$ になり、間接参照のために読み出すアドレス値が $0$ 扱いになるのでお気をつけください。

ipassa $ln0v $t であれば、長語で読み込んだ値を（単語単位で転送演算したのち）T レジスタに書き込むので問題ありません。

$subpeid のような固定値入力も $2$ 長語分を並べたものが入力されるため問題ありません。

折りたたみ： MN-Core の間接参照は不便？

A[i, j] のような間接参照は、特にループと組み合わせて配列の $i$ 行 $j$ 列目の要素を取得する操作として頻出です。

それにもかかわらず MN-Core の間接参照は、一旦 T レジスタに値を入れ、T レジスタの書き込み完了に $1$ ステップ待った上で、LM0 にアクセスしないといけません。

また、LM1 や GRF0/1 など、他のレジスタは間接参照に対応していません。

このように、お世辞にも便利とは言えない MN-Core の間接参照ですが、MN-Core の主な計算ターゲットではコンパイル時にループ量などが既知であり、またコンパイル時にループアンロールも行われるため、基本的にコンパイル時にアクセスするアドレスが決定されます。

したがって、MN-Core の主なワークロードでは間接参照が必要になることが少ないため、このような最低限の設計になっています。

Inputs

$X$ ($0 \le X[{i, j}] \le 10000$): Double $lm[0:2048], /((16_MAB:1), (1024:1); B@[PE,L1B,L2B])
?
$I$ ($0 \le I[{i, j}] \le 1023$): ULong $lm[2048:2080], /((16_MAB:1), (16:1); B@[PE,L1B,L2B])
?

Outputs

$Y$: Double $ln[0:32], /((16_MAB:1), (16:1))
?

Testcases

testcase.vsm

Submission

ログイン / 新規登録