~ubuntu-branches/ubuntu/utopic/fftw3/utopic

/* Generated by: ../../../genfft/gen_r2cb -fma -reorder-insns -schedule-for-pipeline -compact -variables 4 -pipeline-latency 4 -sign 1 -n 12 -name r2cbIII_12 -dft-III -include r2cbIII.h */

/* Generated by: ../../../genfft/gen_r2cb.native -fma -reorder-insns -schedule-for-pipeline -compact -variables 4 -pipeline-latency 4 -sign 1 -n 12 -name r2cbIII_12 -dft-III -include r2cbIII.h */

* This function contains 42 FP additions, 20 FP multiplications,

DK(KP1_414213562, +1.414213562373095048801688724209698078569671875);

DK(KP1_732050807, +1.732050807568877293527446341505872366942805254);

DK(KP2_000000000, +2.000000000000000000000000000000000000000000000);

INT i;

for (i = v; i > 0; i = i - 1, R0 = R0 + ovs, R1 = R1 + ovs, Cr = Cr + ivs, Ci = Ci + ivs, MAKE_VOLATILE_STRIDE(rs), MAKE_VOLATILE_STRIDE(csr), MAKE_VOLATILE_STRIDE(csi)) {

E TE, TD, TF, TG;

{

E Tx, T6, Te, Tb, T5, Tw, Ts, To, Th, Ti, T9, TA;

{

E T1, Tq, Tc, Td, T4, T2, T3, T7, T8, Tr;

{

INT i;

for (i = v; i > 0; i = i - 1, R0 = R0 + ovs, R1 = R1 + ovs, Cr = Cr + ivs, Ci = Ci + ivs, MAKE_VOLATILE_STRIDE(rs), MAKE_VOLATILE_STRIDE(csr), MAKE_VOLATILE_STRIDE(csi)) {

E TE, TD, TF, TG;

{

E Tx, T6, Te, Tb, T5, Tw, Ts, To, Th, Ti, T9, TA;

{

E T1, Tq, Tc, Td, T4, T2, T3, T7, T8, Tr;

T1 = Cr[WS(csr, 1)];

T2 = Cr[WS(csr, 5)];

T3 = Cr[WS(csr, 2)];

Tq = Ci[WS(csi, 1)];

Tc = Ci[WS(csi, 5)];

Td = Ci[WS(csi, 2)];

T4 = T2 + T3;

Tx = T2 - T3;

T6 = Cr[WS(csr, 4)];

Te = Tc + Td;

Tr = Td - Tc;

Tb = FNMS(KP2_000000000, T1, T4);

T5 = T1 + T4;

T7 = Cr[0];

Tw = FMA(KP2_000000000, Tq, Tr);

Ts = Tq - Tr;

T8 = Cr[WS(csr, 3)];

To = Ci[WS(csi, 4)];

Th = Ci[0];

Ti = Ci[WS(csi, 3)];

T9 = T7 + T8;

TA = T7 - T8;

}

{

E Tl, Tm, Tv, TC;

{

E Tf, Ty, Tk, TB;

{

E Tj, Tn, Tg, Ta;

Tl = FNMS(KP1_732050807, Te, Tb);

Tf = FMA(KP1_732050807, Te, Tb);

Tj = Th + Ti;

Tn = Ti - Th;

Tg = FNMS(KP2_000000000, T6, T9);

Ta = T6 + T9;

{

E Tu, Tt, Tz, Tp;

Ty = FMA(KP1_732050807, Tx, Tw);

TE = FNMS(KP1_732050807, Tx, Tw);

Tz = FMA(KP2_000000000, To, Tn);

Tp = Tn - To;

Tm = FMA(KP1_732050807, Tj, Tg);

Tk = FNMS(KP1_732050807, Tj, Tg);

Tu = T5 - Ta;

R0[0] = KP2_000000000 * (T5 + Ta);

Tt = Tp - Ts;

R0[WS(rs, 3)] = KP2_000000000 * (Ts + Tp);

Tv = Tk - Tf;

TD = FMA(KP1_732050807, TA, Tz);

100

TB = FNMS(KP1_732050807, TA, Tz);

101

R1[WS(rs, 4)] = KP1_414213562 * (Tu + Tt);

102

R1[WS(rs, 1)] = KP1_414213562 * (Tt - Tu);

103

}

104

}

105

R0[WS(rs, 2)] = Tf + Tk;

106

TC = Ty + TB;

107

R0[WS(rs, 5)] = TB - Ty;

108

}

109

R1[WS(rs, 3)] = KP707106781 * (Tv + TC);

110

R1[0] = KP707106781 * (Tv - TC);

111

TF = Tl - Tm;

112

R0[WS(rs, 4)] = -(Tl + Tm);

113

}

114

}

115

R0[WS(rs, 1)] = TD - TE;

116

TG = TE + TD;

117

R1[WS(rs, 5)] = KP707106781 * (TF - TG);

118

R1[WS(rs, 2)] = KP707106781 * (TF + TG);

119

}

120

}

121

}

122

123

static const kr2c_desc desc = { 12, "r2cbIII_12", {30, 8, 12, 0}, &GENUS };

124

125

void X(codelet_r2cbIII_12) (planner *p) {

126

X(kr2c_register) (p, r2cbIII_12, &desc);

127

}

128

129

#else /* HAVE_FMA */

130

131

/* Generated by: ../../../genfft/gen_r2cb.native -compact -variables 4 -pipeline-latency 4 -sign 1 -n 12 -name r2cbIII_12 -dft-III -include r2cbIII.h */

132

133

134

* This function contains 42 FP additions, 20 FP multiplications,

135

* (or, 38 additions, 16 multiplications, 4 fused multiply/add),

136

* 25 stack variables, 4 constants, and 24 memory accesses

137

138

#include "r2cbIII.h"

139

140

static void r2cbIII_12(R *R0, R *R1, R *Cr, R *Ci, stride rs, stride csr, stride csi, INT v, INT ivs, INT ovs)

141

{

142

DK(KP1_414213562, +1.414213562373095048801688724209698078569671875);

143

DK(KP2_000000000, +2.000000000000000000000000000000000000000000000);

144

DK(KP500000000, +0.500000000000000000000000000000000000000000000);

145

DK(KP866025403, +0.866025403784438646763723170752936183471402627);

146

{

147

INT i;

148

for (i = v; i > 0; i = i - 1, R0 = R0 + ovs, R1 = R1 + ovs, Cr = Cr + ivs, Ci = Ci + ivs, MAKE_VOLATILE_STRIDE(rs), MAKE_VOLATILE_STRIDE(csr), MAKE_VOLATILE_STRIDE(csi)) {

149

E T5, Tw, Tb, Te, Tx, Ts, Ta, TA, Tg, Tj, Tz, Tp, Tt, Tu;

150

{

151

E T1, T2, T3, T4;

152

T1 = Cr[WS(csr, 1)];

153

T2 = Cr[WS(csr, 5)];

154

T3 = Cr[WS(csr, 2)];

155

T4 = T2 + T3;

156

T5 = T1 + T4;

157

Tw = KP866025403 * (T2 - T3);

158

Tb = FNMS(KP500000000, T4, T1);

159

}

160

{

161

E Tq, Tc, Td, Tr;

162

Tq = Ci[WS(csi, 1)];

163

Tc = Ci[WS(csi, 5)];

164

Td = Ci[WS(csi, 2)];

T4 = T2 + T3;

Tx = T2 - T3;

165

Tr = Td - Tc;

166

Te = KP866025403 * (Tc + Td);

167

Tx = FMA(KP500000000, Tr, Tq);

168

Ts = Tq - Tr;

169

}

170

{

171

E T6, T7, T8, T9;

172

T6 = Cr[WS(csr, 4)];

Te = Tc + Td;

Tr = Td - Tc;

Tb = FNMS(KP2_000000000, T1, T4);

T5 = T1 + T4;

173

T7 = Cr[0];

Tw = FMA(KP2_000000000, Tq, Tr);

Ts = Tq - Tr;

174

T8 = Cr[WS(csr, 3)];

175

T9 = T7 + T8;

176

Ta = T6 + T9;

177

TA = KP866025403 * (T7 - T8);

178

Tg = FNMS(KP500000000, T9, T6);

179

}

180

{

181

E To, Th, Ti, Tn;

182

To = Ci[WS(csi, 4)];

183

Th = Ci[0];

184

Ti = Ci[WS(csi, 3)];

T9 = T7 + T8;

TA = T7 - T8;

}

{

E Tl, Tm, Tv, TC;

{

E Tf, Ty, Tk, TB;

{

E Tj, Tn, Tg, Ta;

Tl = FNMS(KP1_732050807, Te, Tb);

Tf = FMA(KP1_732050807, Te, Tb);

Tj = Th + Ti;

Tn = Ti - Th;

Tg = FNMS(KP2_000000000, T6, T9);

Ta = T6 + T9;

{

E Tu, Tt, Tz, Tp;

Ty = FMA(KP1_732050807, Tx, Tw);

TE = FNMS(KP1_732050807, Tx, Tw);

Tz = FMA(KP2_000000000, To, Tn);

Tp = Tn - To;

Tm = FMA(KP1_732050807, Tj, Tg);

Tk = FNMS(KP1_732050807, Tj, Tg);

Tu = T5 - Ta;

R0[0] = KP2_000000000 * (T5 + Ta);

Tt = Tp - Ts;

R0[WS(rs, 3)] = KP2_000000000 * (Ts + Tp);

Tv = Tk - Tf;

TD = FMA(KP1_732050807, TA, Tz);

TB = FNMS(KP1_732050807, TA, Tz);

100

R1[WS(rs, 4)] = KP1_414213562 * (Tu + Tt);

101

R1[WS(rs, 1)] = KP1_414213562 * (Tt - Tu);

102

}

103

}

104

R0[WS(rs, 2)] = Tf + Tk;

105

TC = Ty + TB;

106

R0[WS(rs, 5)] = TB - Ty;

107

}

108

R1[WS(rs, 3)] = KP707106781 * (Tv + TC);

109

R1[0] = KP707106781 * (Tv - TC);

110

TF = Tl - Tm;

111

R0[WS(rs, 4)] = -(Tl + Tm);

112

}

113

}

114

R0[WS(rs, 1)] = TD - TE;

115

TG = TE + TD;

116

R1[WS(rs, 5)] = KP707106781 * (TF - TG);

117

R1[WS(rs, 2)] = KP707106781 * (TF + TG);

118

}

119

}

120

121

static const kr2c_desc desc = { 12, "r2cbIII_12", {30, 8, 12, 0}, &GENUS };

122

123

void X(codelet_r2cbIII_12) (planner *p) {

124

X(kr2c_register) (p, r2cbIII_12, &desc);

125

}

126

127

#else /* HAVE_FMA */

128

129

/* Generated by: ../../../genfft/gen_r2cb -compact -variables 4 -pipeline-latency 4 -sign 1 -n 12 -name r2cbIII_12 -dft-III -include r2cbIII.h */

130

131

132

* This function contains 42 FP additions, 20 FP multiplications,

133

* (or, 38 additions, 16 multiplications, 4 fused multiply/add),

134

* 25 stack variables, 4 constants, and 24 memory accesses

135

136

#include "r2cbIII.h"

137

138

static void r2cbIII_12(R *R0, R *R1, R *Cr, R *Ci, stride rs, stride csr, stride csi, INT v, INT ivs, INT ovs)

139

{

140

DK(KP1_414213562, +1.414213562373095048801688724209698078569671875);

141

DK(KP2_000000000, +2.000000000000000000000000000000000000000000000);

142

DK(KP500000000, +0.500000000000000000000000000000000000000000000);

143

DK(KP866025403, +0.866025403784438646763723170752936183471402627);

144

INT i;

145

for (i = v; i > 0; i = i - 1, R0 = R0 + ovs, R1 = R1 + ovs, Cr = Cr + ivs, Ci = Ci + ivs, MAKE_VOLATILE_STRIDE(rs), MAKE_VOLATILE_STRIDE(csr), MAKE_VOLATILE_STRIDE(csi)) {

146

E T5, Tw, Tb, Te, Tx, Ts, Ta, TA, Tg, Tj, Tz, Tp, Tt, Tu;

147

{

148

E T1, T2, T3, T4;

149

T1 = Cr[WS(csr, 1)];

150

T2 = Cr[WS(csr, 5)];

151

T3 = Cr[WS(csr, 2)];

152

T4 = T2 + T3;

153

T5 = T1 + T4;

154

Tw = KP866025403 * (T2 - T3);

155

Tb = FNMS(KP500000000, T4, T1);

156

}

157

{

158

E Tq, Tc, Td, Tr;

159

Tq = Ci[WS(csi, 1)];

160

Tc = Ci[WS(csi, 5)];

161

Td = Ci[WS(csi, 2)];

162

Tr = Td - Tc;

163

Te = KP866025403 * (Tc + Td);

164

Tx = FMA(KP500000000, Tr, Tq);

165

Ts = Tq - Tr;

166

}

167

{

168

E T6, T7, T8, T9;

169

T6 = Cr[WS(csr, 4)];

170

T7 = Cr[0];

171

T8 = Cr[WS(csr, 3)];

172

T9 = T7 + T8;

173

Ta = T6 + T9;

174

TA = KP866025403 * (T7 - T8);

175

Tg = FNMS(KP500000000, T9, T6);

176

}

177

{

178

E To, Th, Ti, Tn;

179

To = Ci[WS(csi, 4)];

180

Th = Ci[0];

181

Ti = Ci[WS(csi, 3)];

182

Tn = Ti - Th;

183

Tj = KP866025403 * (Th + Ti);

184

Tz = FMA(KP500000000, Tn, To);

185

Tp = Tn - To;

186

}

187

R0[0] = KP2_000000000 * (T5 + Ta);

188

R0[WS(rs, 3)] = KP2_000000000 * (Ts + Tp);

189

Tt = Tp - Ts;

190

Tu = T5 - Ta;

191

R1[WS(rs, 1)] = KP1_414213562 * (Tt - Tu);

192

R1[WS(rs, 4)] = KP1_414213562 * (Tu + Tt);

193

{

194

E Tf, Tk, Tv, Ty, TB, TC;

195

Tf = Tb - Te;

196

Tk = Tg + Tj;

197

Tv = Tf - Tk;

198

Ty = Tw + Tx;

199

TB = Tz - TA;

200

TC = Ty + TB;

201

R0[WS(rs, 2)] = -(KP2_000000000 * (Tf + Tk));

202

R0[WS(rs, 5)] = KP2_000000000 * (TB - Ty);

203

R1[0] = KP1_414213562 * (Tv - TC);

204

R1[WS(rs, 3)] = KP1_414213562 * (Tv + TC);

205

}

206

{

207

E Tl, Tm, TF, TD, TE, TG;

208

Tl = Tb + Te;

209

Tm = Tg - Tj;

210

TF = Tm - Tl;

211

TD = TA + Tz;

212

TE = Tx - Tw;

213

TG = TE + TD;

214

R0[WS(rs, 4)] = KP2_000000000 * (Tl + Tm);

215

R1[WS(rs, 2)] = KP1_414213562 * (TF + TG);

216

R0[WS(rs, 1)] = KP2_000000000 * (TD - TE);

217

R1[WS(rs, 5)] = KP1_414213562 * (TF - TG);

185

Tn = Ti - Th;

186

Tj = KP866025403 * (Th + Ti);

187

Tz = FMA(KP500000000, Tn, To);

188

Tp = Tn - To;

189

}

190

R0[0] = KP2_000000000 * (T5 + Ta);

191

R0[WS(rs, 3)] = KP2_000000000 * (Ts + Tp);

192

Tt = Tp - Ts;

193

Tu = T5 - Ta;

194

R1[WS(rs, 1)] = KP1_414213562 * (Tt - Tu);

195

R1[WS(rs, 4)] = KP1_414213562 * (Tu + Tt);

196

{

197

E Tf, Tk, Tv, Ty, TB, TC;

198

Tf = Tb - Te;

199

Tk = Tg + Tj;

200

Tv = Tf - Tk;

201

Ty = Tw + Tx;

202

TB = Tz - TA;

203

TC = Ty + TB;

204

R0[WS(rs, 2)] = -(KP2_000000000 * (Tf + Tk));

205

R0[WS(rs, 5)] = KP2_000000000 * (TB - Ty);

206

R1[0] = KP1_414213562 * (Tv - TC);

207

R1[WS(rs, 3)] = KP1_414213562 * (Tv + TC);

208

}

209

{

210

E Tl, Tm, TF, TD, TE, TG;

211

Tl = Tb + Te;

212

Tm = Tg - Tj;

213

TF = Tm - Tl;

214

TD = TA + Tz;

215

TE = Tx - Tw;

216

TG = TE + TD;

217

R0[WS(rs, 4)] = KP2_000000000 * (Tl + Tm);

218

R1[WS(rs, 2)] = KP1_414213562 * (TF + TG);

219

R0[WS(rs, 1)] = KP2_000000000 * (TD - TE);

220

R1[WS(rs, 5)] = KP1_414213562 * (TF - TG);

221

}

218

222

}

219

223

}

220

224

}

Older »