// c += d; b ^= c; b <<<= 7
vadd.u32 q10, q10, q11
- vext.32 q11, q11, q11, #3
+ vext.32 q11, q11, q11, #3
veor q9, q9, q10
- vext.32 q10, q10, q10, #2
+ vext.32 q10, q10, q10, #2
vshl.u32 q0, q9, #7
vshr.u32 q9, q9, #25
vorr q9, q9, q0
// c += d; b ^= c; b <<<= 7
vadd.u32 q10, q10, q11
- vext.32 q11, q11, q11, #1
+ vext.32 q11, q11, q11, #1
veor q9, q9, q10
- vext.32 q10, q10, q10, #2
+ vext.32 q10, q10, q10, #2
vshl.u32 q0, q9, #7
vshr.u32 q9, q9, #25
vorr q9, q9, q0
// c += d; b ^= c; b <<<= 7
paddd xmm2, xmm3
- pshufd xmm3, xmm3, ROTL
+ pshufd xmm3, xmm3, ROTL
pxor xmm1, xmm2
- pshufd xmm2, xmm2, ROT2
+ pshufd xmm2, xmm2, ROT2
movdqa xmm4, xmm1
pslld xmm1, 7
psrld xmm4, 25
// c += d; b ^= c; b <<<= 7
paddd xmm2, xmm3
- pshufd xmm3, xmm3, ROTR
+ pshufd xmm3, xmm3, ROTR
pxor xmm1, xmm2
- pshufd xmm2, xmm2, ROT2
+ pshufd xmm2, xmm2, ROT2
movdqa xmm4, xmm1
pslld xmm1, 7
psrld xmm4, 25
// d ^= (c + b) <<< 13
vadd.u32 q0, q10, q11
- vext.32 q11, q11, q11, #3
+ vext.32 q11, q11, q11, #3
vshl.u32 q1, q0, #13
vshr.u32 q0, q0, #19
vorr q0, q0, q1
// a ^= (d + c) <<< 18
vadd.u32 q0, q9, q10
- vext.32 q10, q10, q10, #2
- vext.32 q9, q9, q9, #1
+ vext.32 q10, q10, q10, #2
+ vext.32 q9, q9, q9, #1
vshl.u32 q1, q0, #18
vshr.u32 q0, q0, #14
vorr q0, q0, q1
// d ^= (c + b) <<< 13
vadd.u32 q0, q10, q9
- vext.32 q9, q9, q9, #3
+ vext.32 q9, q9, q9, #3
vshl.u32 q1, q0, #13
vshr.u32 q0, q0, #19
vorr q0, q0, q1
// a ^= (d + c) <<< 18
vadd.u32 q0, q11, q10
- vext.32 q10, q10, q10, #2
- vext.32 q11, q11, q11, #1
+ vext.32 q10, q10, q10, #2
+ vext.32 q11, q11, q11, #1
vshl.u32 q1, q0, #18
vshr.u32 q0, q0, #14
vorr q0, q0, q1
// d ^= (c + b) <<< 13
movdqa xmm4, xmm2
paddd xmm4, xmm1
- pshufd xmm1, xmm1, ROTL
+ pshufd xmm1, xmm1, ROTL
movdqa xmm5, xmm4
pslld xmm4, 13
psrld xmm5, 19
// a ^= (d + c) <<< 18
movdqa xmm4, xmm3
- pshufd xmm3, xmm3, ROTR
+ pshufd xmm3, xmm3, ROTR
paddd xmm4, xmm2
- pshufd xmm2, xmm2, ROT2
+ pshufd xmm2, xmm2, ROT2
movdqa xmm5, xmm4
pslld xmm4, 18
psrld xmm5, 14
// d ^= (c + b) <<< 13
movdqa xmm4, xmm2
paddd xmm4, xmm3
- pshufd xmm3, xmm3, ROTL
+ pshufd xmm3, xmm3, ROTL
movdqa xmm5, xmm4
pslld xmm4, 13
psrld xmm5, 19
// a ^= (d + c) <<< 18
movdqa xmm4, xmm1
- pshufd xmm1, xmm1, ROTR
+ pshufd xmm1, xmm1, ROTR
paddd xmm4, xmm2
- pshufd xmm2, xmm2, ROT2
+ pshufd xmm2, xmm2, ROT2
movdqa xmm5, xmm4
pslld xmm4, 18
psrld xmm5, 14
// latency, so arrange to start a new shuffle into a temporary as
// soon as we've written out the old value.
paddd xmm0, SAVE0
- pshufd xmm4, xmm0, 0x39
+ pshufd xmm4, xmm0, 0x39
movd [OUT + 0], xmm0
paddd xmm1, SAVE1
- pshufd xmm5, xmm1, ROTL
+ pshufd xmm5, xmm1, ROTL
movd [OUT + 16], xmm1
paddd xmm2, SAVE2
- pshufd xmm6, xmm2, ROT2
+ pshufd xmm6, xmm2, ROT2
movd [OUT + 32], xmm2
paddd xmm3, SAVE3
- pshufd xmm7, xmm3, ROTR
+ pshufd xmm7, xmm3, ROTR
movd [OUT + 48], xmm3
movd [OUT + 4], xmm7
- pshufd xmm7, xmm3, ROT2
+ pshufd xmm7, xmm3, ROT2
movd [OUT + 24], xmm7
- pshufd xmm3, xmm3, ROTL
+ pshufd xmm3, xmm3, ROTL
movd [OUT + 44], xmm3
movd [OUT + 8], xmm6
- pshufd xmm6, xmm2, ROTL
+ pshufd xmm6, xmm2, ROTL
movd [OUT + 28], xmm6
- pshufd xmm2, xmm2, ROTR
+ pshufd xmm2, xmm2, ROTR
movd [OUT + 52], xmm2
movd [OUT + 12], xmm5
- pshufd xmm5, xmm1, ROTR
+ pshufd xmm5, xmm1, ROTR
movd [OUT + 36], xmm5
- pshufd xmm1, xmm1, ROT2
+ pshufd xmm1, xmm1, ROT2
movd [OUT + 56], xmm1
movd [OUT + 20], xmm4
- pshufd xmm4, xmm0, ROT2
+ pshufd xmm4, xmm0, ROT2
movd [OUT + 40], xmm4
- pshufd xmm0, xmm0, ROTL
+ pshufd xmm0, xmm0, ROTL
movd [OUT + 60], xmm0
// Tidy things up.