~ubuntu-branches/ubuntu/trusty/gst-libav1.0/trusty-proposed

if(in_ch == 5 && out_ch == 2 && !(matrix_cmp[0][1]|matrix_cmp[2][0]|matrix_cmp[3][1]|matrix_cmp[4][0]|(matrix_cmp[1][0]^matrix_cmp[1][1])|(matrix_cmp[0][0]^matrix_cmp[2][1]))) {

2139

MIX5(IF0,IF1);

2140

} else if(in_ch == 5 && out_ch == 1 && matrix_cmp[0][0]==matrix_cmp[2][0] && matrix_cmp[3][0]==matrix_cmp[4][0]) {

2141

MIX5(IF1,IF0);

2142

} else {

2143

DECLARE_ALIGNED(16, float, matrix_simd)[AC3_MAX_CHANNELS][2][4];

2144

j = 2*in_ch*sizeof(float);

2145

__asm__ volatile(

2146

"1: \n"

2147

"sub $8, %0 \n"

2148

"movss (%2,%0), %%xmm4 \n"

2149

"movss 4(%2,%0), %%xmm5 \n"

2150

"shufps $0, %%xmm4, %%xmm4 \n"

2151

"shufps $0, %%xmm5, %%xmm5 \n"

2152

"movaps %%xmm4, (%1,%0,4) \n"

2153

"movaps %%xmm5, 16(%1,%0,4) \n"

2154

"jg 1b \n"

2155

:"+&r"(j)

2156

:"r"(matrix_simd), "r"(matrix)

2157

:"memory"

2158

);

2159

if(out_ch == 2) {

2160

MIX_MISC(IF1);

2161

} else {

2162

MIX_MISC(IF0);

2163

}

2164

}

2165

}

2166

2167

static void vector_fmul_3dnow(float *dst, const float *src0, const float *src1, int len){

2168

x86_reg i = (len-4)*4;

2169

__asm__ volatile(

2170

"1: \n\t"

2171

"movq (%2,%0), %%mm0 \n\t"

2172

"movq 8(%2,%0), %%mm1 \n\t"

2173

"pfmul (%3,%0), %%mm0 \n\t"

2174

"pfmul 8(%3,%0), %%mm1 \n\t"

2175

"movq %%mm0, (%1,%0) \n\t"

2176

"movq %%mm1, 8(%1,%0) \n\t"

2177

"sub $16, %0 \n\t"

2178

"jge 1b \n\t"

2179

"femms \n\t"

2180

:"+r"(i)

2181

:"r"(dst), "r"(src0), "r"(src1)

2182

:"memory"

2183

);

2184

}

2185

static void vector_fmul_sse(float *dst, const float *src0, const float *src1, int len){

2186

x86_reg i = (len-8)*4;

2187

__asm__ volatile(

2188

"1: \n\t"

2189

"movaps (%2,%0), %%xmm0 \n\t"

2190

"movaps 16(%2,%0), %%xmm1 \n\t"

2191

"mulps (%3,%0), %%xmm0 \n\t"

2192

"mulps 16(%3,%0), %%xmm1 \n\t"

2193

"movaps %%xmm0, (%1,%0) \n\t"

2194

"movaps %%xmm1, 16(%1,%0) \n\t"

2195

"sub $32, %0 \n\t"

2196

"jge 1b \n\t"

2197

:"+r"(i)

2198

:"r"(dst), "r"(src0), "r"(src1)

2199

:"memory"

2200

);

2201

}

2202

2203

static void vector_fmul_reverse_3dnow2(float *dst, const float *src0, const float *src1, int len){

2204

x86_reg i = len*4-16;

2205

__asm__ volatile(

2206

"1: \n\t"

2207

"pswapd 8(%1), %%mm0 \n\t"

2208

"pswapd (%1), %%mm1 \n\t"

2209

"pfmul (%3,%0), %%mm0 \n\t"

2210

"pfmul 8(%3,%0), %%mm1 \n\t"

2211

"movq %%mm0, (%2,%0) \n\t"

2212

"movq %%mm1, 8(%2,%0) \n\t"

2213

"add $16, %1 \n\t"

2214

"sub $16, %0 \n\t"

2215

"jge 1b \n\t"

2216

:"+r"(i), "+r"(src1)

2217

:"r"(dst), "r"(src0)

2218

);

2219

__asm__ volatile("femms");

2220

}

2221

static void vector_fmul_reverse_sse(float *dst, const float *src0, const float *src1, int len){

2222

x86_reg i = len*4-32;

2223

__asm__ volatile(

2224

"1: \n\t"

2225

"movaps 16(%1), %%xmm0 \n\t"

2226

"movaps (%1), %%xmm1 \n\t"

2227

"shufps $0x1b, %%xmm0, %%xmm0 \n\t"

2228

"shufps $0x1b, %%xmm1, %%xmm1 \n\t"

2229

"mulps (%3,%0), %%xmm0 \n\t"

2230

"mulps 16(%3,%0), %%xmm1 \n\t"

2231

"movaps %%xmm0, (%2,%0) \n\t"

2232

"movaps %%xmm1, 16(%2,%0) \n\t"

2233

"add $32, %1 \n\t"

2234

"sub $32, %0 \n\t"

2235

"jge 1b \n\t"

2236

:"+r"(i), "+r"(src1)

2237

:"r"(dst), "r"(src0)

2238

);

2239

}

2240

2241

static void vector_fmul_add_3dnow(float *dst, const float *src0, const float *src1,

2242

const float *src2, int len){

2243

x86_reg i = (len-4)*4;

2244

__asm__ volatile(

2245

"1: \n\t"

2246

"movq (%2,%0), %%mm0 \n\t"

2247

"movq 8(%2,%0), %%mm1 \n\t"

2248

"pfmul (%3,%0), %%mm0 \n\t"

2249

"pfmul 8(%3,%0), %%mm1 \n\t"

2250

"pfadd (%4,%0), %%mm0 \n\t"

2251

"pfadd 8(%4,%0), %%mm1 \n\t"

2252

"movq %%mm0, (%1,%0) \n\t"

2253

"movq %%mm1, 8(%1,%0) \n\t"

2254

"sub $16, %0 \n\t"

2255

"jge 1b \n\t"

2256

:"+r"(i)

2257

:"r"(dst), "r"(src0), "r"(src1), "r"(src2)

2258

:"memory"

2259

);

2260

__asm__ volatile("femms");

2261

}

2262

static void vector_fmul_add_sse(float *dst, const float *src0, const float *src1,

2263

const float *src2, int len){

2264

x86_reg i = (len-8)*4;

2265

__asm__ volatile(

2266

"1: \n\t"

2267

"movaps (%2,%0), %%xmm0 \n\t"

2268

"movaps 16(%2,%0), %%xmm1 \n\t"

2269

"mulps (%3,%0), %%xmm0 \n\t"

2270

"mulps 16(%3,%0), %%xmm1 \n\t"

2271

"addps (%4,%0), %%xmm0 \n\t"

2272

"addps 16(%4,%0), %%xmm1 \n\t"

2273

"movaps %%xmm0, (%1,%0) \n\t"

2274

"movaps %%xmm1, 16(%1,%0) \n\t"

2275

"sub $32, %0 \n\t"

2276

"jge 1b \n\t"

2277

:"+r"(i)

2278

:"r"(dst), "r"(src0), "r"(src1), "r"(src2)

2279

:"memory"

2280

);

1889

: "+m"(mag[i]), "+m"(ang[i])

1890

:: "memory"

1891

);

1892

}

2281

1893

}

2282

1894

2283

1895

#if HAVE_6REGS

2284

static void vector_fmul_window_3dnow2(float *dst, const float *src0, const float *src1,

2285

const float *win, int len){

2286

x86_reg i = -len*4;

2287

x86_reg j = len*4-8;

2288

__asm__ volatile(

2289

"1: \n"

2290

"pswapd (%5,%1), %%mm1 \n"

2291

"movq (%5,%0), %%mm0 \n"

2292

"pswapd (%4,%1), %%mm5 \n"

2293

"movq (%3,%0), %%mm4 \n"

2294

"movq %%mm0, %%mm2 \n"

2295

"movq %%mm1, %%mm3 \n"

2296

"pfmul %%mm4, %%mm2 \n" // src0[len+i]*win[len+i]

2297

"pfmul %%mm5, %%mm3 \n" // src1[ j]*win[len+j]

2298

"pfmul %%mm4, %%mm1 \n" // src0[len+i]*win[len+j]

2299

"pfmul %%mm5, %%mm0 \n" // src1[ j]*win[len+i]

2300

"pfadd %%mm3, %%mm2 \n"

2301

"pfsub %%mm0, %%mm1 \n"

2302

"pswapd %%mm2, %%mm2 \n"

2303

"movq %%mm1, (%2,%0) \n"

2304

"movq %%mm2, (%2,%1) \n"

2305

"sub $8, %1 \n"

2306

"add $8, %0 \n"

2307

"jl 1b \n"

2308

"femms \n"

2309

:"+r"(i), "+r"(j)

2310

:"r"(dst+len), "r"(src0+len), "r"(src1), "r"(win+len)

1896

static void vector_fmul_window_3dnowext(float *dst, const float *src0,

1897

const float *src1, const float *win,

1898

int len)

1899

{

1900

x86_reg i = -len * 4;

1901

x86_reg j = len * 4 - 8;

1902

__asm__ volatile (

1903

"1: \n"

1904

"pswapd (%5, %1), %%mm1 \n"

1905

"movq (%5, %0), %%mm0 \n"

1906

"pswapd (%4, %1), %%mm5 \n"

1907

"movq (%3, %0), %%mm4 \n"

1908

"movq %%mm0, %%mm2 \n"

1909

"movq %%mm1, %%mm3 \n"

1910

"pfmul %%mm4, %%mm2 \n" // src0[len + i] * win[len + i]

1911

"pfmul %%mm5, %%mm3 \n" // src1[j] * win[len + j]

1912

"pfmul %%mm4, %%mm1 \n" // src0[len + i] * win[len + j]

1913

"pfmul %%mm5, %%mm0 \n" // src1[j] * win[len + i]

1914

"pfadd %%mm3, %%mm2 \n"

1915

"pfsub %%mm0, %%mm1 \n"

1916

"pswapd %%mm2, %%mm2 \n"

1917

"movq %%mm1, (%2, %0) \n"

1918

"movq %%mm2, (%2, %1) \n"

1919

"sub $8, %1 \n"

1920

"add $8, %0 \n"

1921

"jl 1b \n"

1922

"femms \n"

1923

: "+r"(i), "+r"(j)

1924

: "r"(dst + len), "r"(src0 + len), "r"(src1), "r"(win + len)

2311

1925

);

2312

1926

}

2313

1927

2314

static void vector_fmul_window_sse(float *dst, const float *src0, const float *src1,

2315

const float *win, int len){

2316

x86_reg i = -len*4;

2317

x86_reg j = len*4-16;

2318

__asm__ volatile(

2319

"1: \n"

2320

"movaps (%5,%1), %%xmm1 \n"

2321

"movaps (%5,%0), %%xmm0 \n"

2322

"movaps (%4,%1), %%xmm5 \n"

2323

"movaps (%3,%0), %%xmm4 \n"

2324

"shufps $0x1b, %%xmm1, %%xmm1 \n"

2325

"shufps $0x1b, %%xmm5, %%xmm5 \n"

2326

"movaps %%xmm0, %%xmm2 \n"

2327

"movaps %%xmm1, %%xmm3 \n"

2328

"mulps %%xmm4, %%xmm2 \n" // src0[len+i]*win[len+i]

2329

"mulps %%xmm5, %%xmm3 \n" // src1[ j]*win[len+j]

2330

"mulps %%xmm4, %%xmm1 \n" // src0[len+i]*win[len+j]

2331

"mulps %%xmm5, %%xmm0 \n" // src1[ j]*win[len+i]

2332

"addps %%xmm3, %%xmm2 \n"

2333

"subps %%xmm0, %%xmm1 \n"

2334

"shufps $0x1b, %%xmm2, %%xmm2 \n"

2335

"movaps %%xmm1, (%2,%0) \n"

2336

"movaps %%xmm2, (%2,%1) \n"

2337

"sub $16, %1 \n"

2338

"add $16, %0 \n"

2339

"jl 1b \n"

2340

:"+r"(i), "+r"(j)

2341

:"r"(dst+len), "r"(src0+len), "r"(src1), "r"(win+len)

1928

static void vector_fmul_window_sse(float *dst, const float *src0,

1929

const float *src1, const float *win, int len)

1930

{

1931

x86_reg i = -len * 4;

1932

x86_reg j = len * 4 - 16;

1933

__asm__ volatile (

1934

"1: \n"

1935

"movaps (%5, %1), %%xmm1 \n"

1936

"movaps (%5, %0), %%xmm0 \n"

1937

"movaps (%4, %1), %%xmm5 \n"

1938

"movaps (%3, %0), %%xmm4 \n"

1939

"shufps $0x1b, %%xmm1, %%xmm1 \n"

1940

"shufps $0x1b, %%xmm5, %%xmm5 \n"

1941

"movaps %%xmm0, %%xmm2 \n"

1942

"movaps %%xmm1, %%xmm3 \n"

1943

"mulps %%xmm4, %%xmm2 \n" // src0[len + i] * win[len + i]

1944

"mulps %%xmm5, %%xmm3 \n" // src1[j] * win[len + j]

1945

"mulps %%xmm4, %%xmm1 \n" // src0[len + i] * win[len + j]

1946

"mulps %%xmm5, %%xmm0 \n" // src1[j] * win[len + i]

1947

"addps %%xmm3, %%xmm2 \n"

1948

"subps %%xmm0, %%xmm1 \n"

1949

"shufps $0x1b, %%xmm2, %%xmm2 \n"

1950

"movaps %%xmm1, (%2, %0) \n"

1951

"movaps %%xmm2, (%2, %1) \n"

1952

"sub $16, %1 \n"

1953

"add $16, %0 \n"

1954

"jl 1b \n"

1955

: "+r"(i), "+r"(j)

1956

: "r"(dst + len), "r"(src0 + len), "r"(src1), "r"(win + len)

2342

1957

);

2343

1958

}

2344

1959

#endif /* HAVE_6REGS */

2345

1960

2346

static void vector_clipf_sse(float *dst, const float *src, float min, float max,

2347

int len)

1961

static void vector_clipf_sse(float *dst, const float *src,

1962

float min, float max, int len)

2348

1963

{

2349

x86_reg i = (len-16)*4;

2350

__asm__ volatile(

2351

"movss %3, %%xmm4 \n"

2352

"movss %4, %%xmm5 \n"

2353

"shufps $0, %%xmm4, %%xmm4 \n"

2354

"shufps $0, %%xmm5, %%xmm5 \n"

2355

"1: \n\t"

2356

"movaps (%2,%0), %%xmm0 \n\t" // 3/1 on intel

2357

"movaps 16(%2,%0), %%xmm1 \n\t"

2358

"movaps 32(%2,%0), %%xmm2 \n\t"

2359

"movaps 48(%2,%0), %%xmm3 \n\t"

2360

"maxps %%xmm4, %%xmm0 \n\t"

2361

"maxps %%xmm4, %%xmm1 \n\t"

2362

"maxps %%xmm4, %%xmm2 \n\t"

2363

"maxps %%xmm4, %%xmm3 \n\t"

2364

"minps %%xmm5, %%xmm0 \n\t"

2365

"minps %%xmm5, %%xmm1 \n\t"

2366

"minps %%xmm5, %%xmm2 \n\t"

2367

"minps %%xmm5, %%xmm3 \n\t"

2368

"movaps %%xmm0, (%1,%0) \n\t"

2369

"movaps %%xmm1, 16(%1,%0) \n\t"

2370

"movaps %%xmm2, 32(%1,%0) \n\t"

2371

"movaps %%xmm3, 48(%1,%0) \n\t"

2372

"sub $64, %0 \n\t"

2373

"jge 1b \n\t"

2374

:"+&r"(i)

2375

:"r"(dst), "r"(src), "m"(min), "m"(max)

2376

:"memory"

1964

x86_reg i = (len - 16) * 4;

1965

__asm__ volatile (

1966

"movss %3, %%xmm4 \n\t"

1967

"movss %4, %%xmm5 \n\t"

1968

"shufps $0, %%xmm4, %%xmm4 \n\t"

1969

"shufps $0, %%xmm5, %%xmm5 \n\t"

1970

"1: \n\t"

1971

"movaps (%2, %0), %%xmm0 \n\t" // 3/1 on intel

1972

"movaps 16(%2, %0), %%xmm1 \n\t"

1973

"movaps 32(%2, %0), %%xmm2 \n\t"

1974

"movaps 48(%2, %0), %%xmm3 \n\t"

1975

"maxps %%xmm4, %%xmm0 \n\t"

1976

"maxps %%xmm4, %%xmm1 \n\t"

1977

"maxps %%xmm4, %%xmm2 \n\t"

1978

"maxps %%xmm4, %%xmm3 \n\t"

1979

"minps %%xmm5, %%xmm0 \n\t"

1980

"minps %%xmm5, %%xmm1 \n\t"

1981

"minps %%xmm5, %%xmm2 \n\t"

1982

"minps %%xmm5, %%xmm3 \n\t"

1983

"movaps %%xmm0, (%1, %0) \n\t"

1984

"movaps %%xmm1, 16(%1, %0) \n\t"

1985

"movaps %%xmm2, 32(%1, %0) \n\t"

1986

"movaps %%xmm3, 48(%1, %0) \n\t"

1987

"sub $64, %0 \n\t"

1988

"jge 1b \n\t"

1989

: "+&r"(i)

1990

: "r"(dst), "r"(src), "m"(min), "m"(max)

1991

: "memory"

2377

1992

);

2378

1993

}

2379

1994

2380

void ff_vp3_idct_mmx(int16_t *input_data);

2381

void ff_vp3_idct_put_mmx(uint8_t *dest, int line_size, DCTELEM *block);

2382

void ff_vp3_idct_add_mmx(uint8_t *dest, int line_size, DCTELEM *block);

2383

2384

void ff_vp3_idct_dc_add_mmx2(uint8_t *dest, int line_size, const DCTELEM *block);

2385

2386

void ff_vp3_v_loop_filter_mmx2(uint8_t *src, int stride, int *bounding_values);

2387

void ff_vp3_h_loop_filter_mmx2(uint8_t *src, int stride, int *bounding_values);

2388

2389

void ff_vp3_idct_sse2(int16_t *input_data);

2390

void ff_vp3_idct_put_sse2(uint8_t *dest, int line_size, DCTELEM *block);

2391

void ff_vp3_idct_add_sse2(uint8_t *dest, int line_size, DCTELEM *block);

2392

2393

int32_t ff_scalarproduct_int16_mmx2(const int16_t *v1, const int16_t *v2, int order, int shift);

2394

int32_t ff_scalarproduct_int16_sse2(const int16_t *v1, const int16_t *v2, int order, int shift);

2395

int32_t ff_scalarproduct_and_madd_int16_mmx2(int16_t *v1, const int16_t *v2, const int16_t *v3, int order, int mul);

2396

int32_t ff_scalarproduct_and_madd_int16_sse2(int16_t *v1, const int16_t *v2, const int16_t *v3, int order, int mul);

2397

int32_t ff_scalarproduct_and_madd_int16_ssse3(int16_t *v1, const int16_t *v2, const int16_t *v3, int order, int mul);

2398

2399

void ff_apply_window_int16_mmxext (int16_t *output, const int16_t *input,

2400

const int16_t *window, unsigned int len);

2401

void ff_apply_window_int16_mmxext_ba (int16_t *output, const int16_t *input,

2402

const int16_t *window, unsigned int len);

2403

void ff_apply_window_int16_sse2 (int16_t *output, const int16_t *input,

2404

const int16_t *window, unsigned int len);

2405

void ff_apply_window_int16_sse2_ba (int16_t *output, const int16_t *input,

2406

const int16_t *window, unsigned int len);

2407

void ff_apply_window_int16_ssse3 (int16_t *output, const int16_t *input,

2408

const int16_t *window, unsigned int len);

1995

#endif /* HAVE_INLINE_ASM */

1996

1997

int32_t ff_scalarproduct_int16_mmxext(const int16_t *v1, const int16_t *v2,

1998

int order);

1999

int32_t ff_scalarproduct_int16_sse2(const int16_t *v1, const int16_t *v2,

2000

int order);

2001

int32_t ff_scalarproduct_and_madd_int16_mmxext(int16_t *v1, const int16_t *v2,

2002

const int16_t *v3,

2003

int order, int mul);

2004

int32_t ff_scalarproduct_and_madd_int16_sse2(int16_t *v1, const int16_t *v2,

2005

const int16_t *v3,

2006

int order, int mul);

2007

int32_t ff_scalarproduct_and_madd_int16_ssse3(int16_t *v1, const int16_t *v2,

2008

const int16_t *v3,

2009

int order, int mul);

2010

2011

void ff_apply_window_int16_round_mmxext(int16_t *output, const int16_t *input,

2012

const int16_t *window, unsigned int len);

2013

void ff_apply_window_int16_round_sse2(int16_t *output, const int16_t *input,

2014

const int16_t *window, unsigned int len);

2015

void ff_apply_window_int16_mmxext(int16_t *output, const int16_t *input,

2016

const int16_t *window, unsigned int len);

2017

void ff_apply_window_int16_sse2(int16_t *output, const int16_t *input,

2018

const int16_t *window, unsigned int len);

2019

void ff_apply_window_int16_ssse3(int16_t *output, const int16_t *input,

2020

const int16_t *window, unsigned int len);

2409

2021

void ff_apply_window_int16_ssse3_atom(int16_t *output, const int16_t *input,

2410

2022

const int16_t *window, unsigned int len);

2411

2023

2412

void ff_add_hfyu_median_prediction_mmx2(uint8_t *dst, const uint8_t *top, const uint8_t *diff, int w, int *left, int *left_top);

2413

int ff_add_hfyu_left_prediction_ssse3(uint8_t *dst, const uint8_t *src, int w, int left);

2414

int ff_add_hfyu_left_prediction_sse4(uint8_t *dst, const uint8_t *src, int w, int left);

2024

void ff_bswap32_buf_ssse3(uint32_t *dst, const uint32_t *src, int w);

2025

void ff_bswap32_buf_sse2(uint32_t *dst, const uint32_t *src, int w);

2026

2027

void ff_add_hfyu_median_prediction_mmxext(uint8_t *dst, const uint8_t *top,

2028

const uint8_t *diff, int w,

2029

int *left, int *left_top);

2030

int ff_add_hfyu_left_prediction_ssse3(uint8_t *dst, const uint8_t *src,

2031

int w, int left);

2032

int ff_add_hfyu_left_prediction_sse4(uint8_t *dst, const uint8_t *src,

2033

int w, int left);

2415

2034

2416

2035

float ff_scalarproduct_float_sse(const float *v1, const float *v2, int order);

2417

2036

2418

void ff_vector_clip_int32_mmx (int32_t *dst, const int32_t *src, int32_t min,

2419

int32_t max, unsigned int len);

2420

void ff_vector_clip_int32_sse2 (int32_t *dst, const int32_t *src, int32_t min,

2421

int32_t max, unsigned int len);

2422

void ff_vector_clip_int32_int_sse2(int32_t *dst, const int32_t *src, int32_t min,

2423

int32_t max, unsigned int len);

2424

void ff_vector_clip_int32_sse4 (int32_t *dst, const int32_t *src, int32_t min,

2425

int32_t max, unsigned int len);

2037

void ff_vector_fmul_reverse_sse(float *dst, const float *src0,

2038

const float *src1, int len);

2039

void ff_vector_fmul_reverse_avx(float *dst, const float *src0,

2040

const float *src1, int len);

2041

2042

void ff_vector_fmul_add_sse(float *dst, const float *src0, const float *src1,

2043

const float *src2, int len);

2044

void ff_vector_fmul_add_avx(float *dst, const float *src0, const float *src1,

2045

const float *src2, int len);

2046

2047

void ff_vector_clip_int32_mmx (int32_t *dst, const int32_t *src,

2048

int32_t min, int32_t max, unsigned int len);

2049

void ff_vector_clip_int32_sse2 (int32_t *dst, const int32_t *src,

2050

int32_t min, int32_t max, unsigned int len);

2051

void ff_vector_clip_int32_int_sse2(int32_t *dst, const int32_t *src,

2052

int32_t min, int32_t max, unsigned int len);

2053

void ff_vector_clip_int32_sse4 (int32_t *dst, const int32_t *src,

2054

int32_t min, int32_t max, unsigned int len);

2426

2055

2427

2056

extern void ff_butterflies_float_interleave_sse(float *dst, const float *src0,

2428

2057

const float *src1, int len);

2429

2058

extern void ff_butterflies_float_interleave_avx(float *dst, const float *src0,

2430

2059

const float *src1, int len);

2431

2060

2432

void dsputil_init_mmx(DSPContext* c, AVCodecContext *avctx)

2061

#define SET_QPEL_FUNCS(PFX, IDX, SIZE, CPU, PREFIX) \

2062

do { \

2063

c->PFX ## _pixels_tab[IDX][ 0] = PREFIX ## PFX ## SIZE ## _mc00_ ## CPU; \

2064

c->PFX ## _pixels_tab[IDX][ 1] = PREFIX ## PFX ## SIZE ## _mc10_ ## CPU; \

2065

c->PFX ## _pixels_tab[IDX][ 2] = PREFIX ## PFX ## SIZE ## _mc20_ ## CPU; \

2066

c->PFX ## _pixels_tab[IDX][ 3] = PREFIX ## PFX ## SIZE ## _mc30_ ## CPU; \

2067

c->PFX ## _pixels_tab[IDX][ 4] = PREFIX ## PFX ## SIZE ## _mc01_ ## CPU; \

2068

c->PFX ## _pixels_tab[IDX][ 5] = PREFIX ## PFX ## SIZE ## _mc11_ ## CPU; \

2069

c->PFX ## _pixels_tab[IDX][ 6] = PREFIX ## PFX ## SIZE ## _mc21_ ## CPU; \

2070

c->PFX ## _pixels_tab[IDX][ 7] = PREFIX ## PFX ## SIZE ## _mc31_ ## CPU; \

2071

c->PFX ## _pixels_tab[IDX][ 8] = PREFIX ## PFX ## SIZE ## _mc02_ ## CPU; \

2072

c->PFX ## _pixels_tab[IDX][ 9] = PREFIX ## PFX ## SIZE ## _mc12_ ## CPU; \

2073

c->PFX ## _pixels_tab[IDX][10] = PREFIX ## PFX ## SIZE ## _mc22_ ## CPU; \

2074

c->PFX ## _pixels_tab[IDX][11] = PREFIX ## PFX ## SIZE ## _mc32_ ## CPU; \

2075

c->PFX ## _pixels_tab[IDX][12] = PREFIX ## PFX ## SIZE ## _mc03_ ## CPU; \

2076

c->PFX ## _pixels_tab[IDX][13] = PREFIX ## PFX ## SIZE ## _mc13_ ## CPU; \

2077

c->PFX ## _pixels_tab[IDX][14] = PREFIX ## PFX ## SIZE ## _mc23_ ## CPU; \

2078

c->PFX ## _pixels_tab[IDX][15] = PREFIX ## PFX ## SIZE ## _mc33_ ## CPU; \

2079

} while (0)

2080

2081

#define SET_HPEL_FUNCS(PFX, IDX, SIZE, CPU) \

2082

do { \

2083

c->PFX ## _pixels_tab[IDX][0] = PFX ## _pixels ## SIZE ## _ ## CPU; \

2084

c->PFX ## _pixels_tab[IDX][1] = PFX ## _pixels ## SIZE ## _x2_ ## CPU; \

2085

c->PFX ## _pixels_tab[IDX][2] = PFX ## _pixels ## SIZE ## _y2_ ## CPU; \

2086

c->PFX ## _pixels_tab[IDX][3] = PFX ## _pixels ## SIZE ## _xy2_ ## CPU; \

2087

} while (0)

2088

2089

#define H264_QPEL_FUNCS(x, y, CPU) \

2090

do { \

2091

c->put_h264_qpel_pixels_tab[0][x + y * 4] = put_h264_qpel16_mc ## x ## y ## _ ## CPU; \

2092

c->put_h264_qpel_pixels_tab[1][x + y * 4] = put_h264_qpel8_mc ## x ## y ## _ ## CPU; \

2093

c->avg_h264_qpel_pixels_tab[0][x + y * 4] = avg_h264_qpel16_mc ## x ## y ## _ ## CPU; \

2094

c->avg_h264_qpel_pixels_tab[1][x + y * 4] = avg_h264_qpel8_mc ## x ## y ## _ ## CPU; \

2095

} while (0)

2096

2097

#define H264_QPEL_FUNCS_10(x, y, CPU) \

2098

do { \

2099

c->put_h264_qpel_pixels_tab[0][x + y * 4] = ff_put_h264_qpel16_mc ## x ## y ## _10_ ## CPU; \

2100

c->put_h264_qpel_pixels_tab[1][x + y * 4] = ff_put_h264_qpel8_mc ## x ## y ## _10_ ## CPU; \

2101

c->avg_h264_qpel_pixels_tab[0][x + y * 4] = ff_avg_h264_qpel16_mc ## x ## y ## _10_ ## CPU; \

2102

c->avg_h264_qpel_pixels_tab[1][x + y * 4] = ff_avg_h264_qpel8_mc ## x ## y ## _10_ ## CPU; \

2103

} while (0)

2104

2105

static void dsputil_init_mmx(DSPContext *c, AVCodecContext *avctx, int mm_flags)

2106

{

2107

const int high_bit_depth = avctx->bits_per_raw_sample > 8;

2108

2109

#if HAVE_INLINE_ASM

2110

c->put_pixels_clamped = ff_put_pixels_clamped_mmx;

2111

c->put_signed_pixels_clamped = ff_put_signed_pixels_clamped_mmx;

2112

c->add_pixels_clamped = ff_add_pixels_clamped_mmx;

2113

2114

if (!high_bit_depth) {

2115

c->clear_block = clear_block_mmx;

2116

c->clear_blocks = clear_blocks_mmx;

2117

c->draw_edges = draw_edges_mmx;

2118

2119

SET_HPEL_FUNCS(put, 0, 16, mmx);

2120

SET_HPEL_FUNCS(put_no_rnd, 0, 16, mmx);

2121

SET_HPEL_FUNCS(avg, 0, 16, mmx);

2122

SET_HPEL_FUNCS(avg_no_rnd, 0, 16, mmx);

2123

SET_HPEL_FUNCS(put, 1, 8, mmx);

2124

SET_HPEL_FUNCS(put_no_rnd, 1, 8, mmx);

2125

SET_HPEL_FUNCS(avg, 1, 8, mmx);

2126

SET_HPEL_FUNCS(avg_no_rnd, 1, 8, mmx);

2127

2128

switch (avctx->idct_algo) {

2129

case FF_IDCT_AUTO:

2130

case FF_IDCT_SIMPLEMMX:

2131

c->idct_put = ff_simple_idct_put_mmx;

2132

c->idct_add = ff_simple_idct_add_mmx;

2133

c->idct = ff_simple_idct_mmx;

2134

c->idct_permutation_type = FF_SIMPLE_IDCT_PERM;

2135

break;

2136

case FF_IDCT_XVIDMMX:

2137

c->idct_put = ff_idct_xvid_mmx_put;

2138

c->idct_add = ff_idct_xvid_mmx_add;

2139

c->idct = ff_idct_xvid_mmx;

2140

break;

2141

}

2142

}

2143

2144

c->gmc = gmc_mmx;

2145

2146

c->add_bytes = add_bytes_mmx;

2147

2148

if (CONFIG_H263_DECODER || CONFIG_H263_ENCODER) {

2149

c->h263_v_loop_filter = h263_v_loop_filter_mmx;

2150

c->h263_h_loop_filter = h263_h_loop_filter_mmx;

2151

}

2152

#endif /* HAVE_INLINE_ASM */

2153

2154

#if HAVE_YASM

2155

if (!high_bit_depth && CONFIG_H264CHROMA) {

2156

c->put_h264_chroma_pixels_tab[0] = ff_put_h264_chroma_mc8_rnd_mmx;

2157

c->put_h264_chroma_pixels_tab[1] = ff_put_h264_chroma_mc4_mmx;

2158

}

2159

2160

c->vector_clip_int32 = ff_vector_clip_int32_mmx;

2161

#endif

2162

2163

}

2164

2165

static void dsputil_init_mmxext(DSPContext *c, AVCodecContext *avctx,

2166

int mm_flags)

2167

{

2168

const int bit_depth = avctx->bits_per_raw_sample;

2169

const int high_bit_depth = bit_depth > 8;

2170

2171

#if HAVE_INLINE_ASM

2172

SET_QPEL_FUNCS(avg_qpel, 0, 16, mmxext, );

2173

SET_QPEL_FUNCS(avg_qpel, 1, 8, mmxext, );

2174

SET_QPEL_FUNCS(avg_2tap_qpel, 0, 16, mmxext, );

2175

SET_QPEL_FUNCS(avg_2tap_qpel, 1, 8, mmxext, );

2176

2177

SET_QPEL_FUNCS(put_qpel, 0, 16, mmxext, );

2178

SET_QPEL_FUNCS(put_qpel, 1, 8, mmxext, );

2179

SET_QPEL_FUNCS(put_2tap_qpel, 0, 16, mmxext, );

2180

SET_QPEL_FUNCS(put_2tap_qpel, 1, 8, mmxext, );

2181

SET_QPEL_FUNCS(put_no_rnd_qpel, 0, 16, mmxext, );

2182

SET_QPEL_FUNCS(put_no_rnd_qpel, 1, 8, mmxext, );

2183

2184

if (!high_bit_depth) {

2185

c->put_pixels_tab[0][1] = put_pixels16_x2_mmxext;

2186

c->put_pixels_tab[0][2] = put_pixels16_y2_mmxext;

2187

2188

c->avg_pixels_tab[0][0] = avg_pixels16_mmxext;

2189

c->avg_pixels_tab[0][1] = avg_pixels16_x2_mmxext;

2190

c->avg_pixels_tab[0][2] = avg_pixels16_y2_mmxext;

2191

2192

c->put_pixels_tab[1][1] = put_pixels8_x2_mmxext;

2193

c->put_pixels_tab[1][2] = put_pixels8_y2_mmxext;

2194

2195

c->avg_pixels_tab[1][0] = avg_pixels8_mmxext;

2196

c->avg_pixels_tab[1][1] = avg_pixels8_x2_mmxext;

2197

c->avg_pixels_tab[1][2] = avg_pixels8_y2_mmxext;

2198

}

2199

2200

if (!(avctx->flags & CODEC_FLAG_BITEXACT)) {

2201

if (!high_bit_depth) {

2202

c->put_no_rnd_pixels_tab[0][1] = put_no_rnd_pixels16_x2_mmxext;

2203

c->put_no_rnd_pixels_tab[0][2] = put_no_rnd_pixels16_y2_mmxext;

2204

c->put_no_rnd_pixels_tab[1][1] = put_no_rnd_pixels8_x2_mmxext;

2205

c->put_no_rnd_pixels_tab[1][2] = put_no_rnd_pixels8_y2_mmxext;

2206

2207

c->avg_pixels_tab[0][3] = avg_pixels16_xy2_mmxext;

2208

c->avg_pixels_tab[1][3] = avg_pixels8_xy2_mmxext;

2209

}

2210

}

2211

2212

if (!high_bit_depth && avctx->idct_algo == FF_IDCT_XVIDMMX) {

2213

c->idct_put = ff_idct_xvid_mmxext_put;

2214

c->idct_add = ff_idct_xvid_mmxext_add;

2215

c->idct = ff_idct_xvid_mmxext;

2216

}

2217

2218

if (CONFIG_VP3_DECODER && (avctx->codec_id == AV_CODEC_ID_VP3 ||

2219

avctx->codec_id == AV_CODEC_ID_THEORA)) {

2220

c->put_no_rnd_pixels_tab[1][1] = put_no_rnd_pixels8_x2_exact_mmxext;

2221

c->put_no_rnd_pixels_tab[1][2] = put_no_rnd_pixels8_y2_exact_mmxext;

2222

}

2223

#endif /* HAVE_INLINE_ASM */

2224

2225

#if HAVE_MMXEXT_EXTERNAL

2226

if (CONFIG_H264QPEL) {

2227

if (!high_bit_depth) {

2228

SET_QPEL_FUNCS(put_h264_qpel, 0, 16, mmxext, );

2229

SET_QPEL_FUNCS(put_h264_qpel, 1, 8, mmxext, );

2230

SET_QPEL_FUNCS(put_h264_qpel, 2, 4, mmxext, );

2231

SET_QPEL_FUNCS(avg_h264_qpel, 0, 16, mmxext, );

2232

SET_QPEL_FUNCS(avg_h264_qpel, 1, 8, mmxext, );

2233

SET_QPEL_FUNCS(avg_h264_qpel, 2, 4, mmxext, );

2234

} else if (bit_depth == 10) {

2235

#if !ARCH_X86_64

2236

SET_QPEL_FUNCS(avg_h264_qpel, 0, 16, 10_mmxext, ff_);

2237

SET_QPEL_FUNCS(put_h264_qpel, 0, 16, 10_mmxext, ff_);

2238

SET_QPEL_FUNCS(put_h264_qpel, 1, 8, 10_mmxext, ff_);

2239

SET_QPEL_FUNCS(avg_h264_qpel, 1, 8, 10_mmxext, ff_);

2240

#endif

2241

SET_QPEL_FUNCS(put_h264_qpel, 2, 4, 10_mmxext, ff_);

2242

SET_QPEL_FUNCS(avg_h264_qpel, 2, 4, 10_mmxext, ff_);

2243

}

2244

}

2245

2246

if (!high_bit_depth && CONFIG_H264CHROMA) {

2247

c->avg_h264_chroma_pixels_tab[0] = ff_avg_h264_chroma_mc8_rnd_mmxext;

2248

c->avg_h264_chroma_pixels_tab[1] = ff_avg_h264_chroma_mc4_mmxext;

2249

c->avg_h264_chroma_pixels_tab[2] = ff_avg_h264_chroma_mc2_mmxext;

2250

c->put_h264_chroma_pixels_tab[2] = ff_put_h264_chroma_mc2_mmxext;

2251

}

2252

if (bit_depth == 10 && CONFIG_H264CHROMA) {

2253

c->put_h264_chroma_pixels_tab[2] = ff_put_h264_chroma_mc2_10_mmxext;

2254

c->avg_h264_chroma_pixels_tab[2] = ff_avg_h264_chroma_mc2_10_mmxext;

2255

c->put_h264_chroma_pixels_tab[1] = ff_put_h264_chroma_mc4_10_mmxext;

2256

c->avg_h264_chroma_pixels_tab[1] = ff_avg_h264_chroma_mc4_10_mmxext;

2257

}

2258

2259

/* slower than cmov version on AMD */

2260

if (!(mm_flags & AV_CPU_FLAG_3DNOW))

2261

c->add_hfyu_median_prediction = ff_add_hfyu_median_prediction_mmxext;

2262

2263

c->scalarproduct_int16 = ff_scalarproduct_int16_mmxext;

2264

c->scalarproduct_and_madd_int16 = ff_scalarproduct_and_madd_int16_mmxext;

2265

2266

if (avctx->flags & CODEC_FLAG_BITEXACT) {

2267

c->apply_window_int16 = ff_apply_window_int16_mmxext;

2268

} else {

2269

c->apply_window_int16 = ff_apply_window_int16_round_mmxext;

2270

}

2271

#endif /* HAVE_MMXEXT_EXTERNAL */

2272

}

2273

2274

static void dsputil_init_3dnow(DSPContext *c, AVCodecContext *avctx,

2275

int mm_flags)

2276

{

2277

const int high_bit_depth = avctx->bits_per_raw_sample > 8;

2278

2279

#if HAVE_INLINE_ASM

2280

if (!high_bit_depth) {

2281

c->put_pixels_tab[0][1] = put_pixels16_x2_3dnow;

2282

c->put_pixels_tab[0][2] = put_pixels16_y2_3dnow;

2283

2284

c->avg_pixels_tab[0][0] = avg_pixels16_3dnow;

2285

c->avg_pixels_tab[0][1] = avg_pixels16_x2_3dnow;

2286

c->avg_pixels_tab[0][2] = avg_pixels16_y2_3dnow;

2287

2288

c->put_pixels_tab[1][1] = put_pixels8_x2_3dnow;

2289

c->put_pixels_tab[1][2] = put_pixels8_y2_3dnow;

2290

2291

c->avg_pixels_tab[1][0] = avg_pixels8_3dnow;

2292

c->avg_pixels_tab[1][1] = avg_pixels8_x2_3dnow;

2293

c->avg_pixels_tab[1][2] = avg_pixels8_y2_3dnow;

2294

2295

if (!(avctx->flags & CODEC_FLAG_BITEXACT)){

2296

c->put_no_rnd_pixels_tab[0][1] = put_no_rnd_pixels16_x2_3dnow;

2297

c->put_no_rnd_pixels_tab[0][2] = put_no_rnd_pixels16_y2_3dnow;

2298

c->put_no_rnd_pixels_tab[1][1] = put_no_rnd_pixels8_x2_3dnow;

2299

c->put_no_rnd_pixels_tab[1][2] = put_no_rnd_pixels8_y2_3dnow;

2300

2301

c->avg_pixels_tab[0][3] = avg_pixels16_xy2_3dnow;

2302

c->avg_pixels_tab[1][3] = avg_pixels8_xy2_3dnow;

2303

}

2304

}

2305

2306

if (CONFIG_VP3_DECODER && (avctx->codec_id == AV_CODEC_ID_VP3 ||

2307

avctx->codec_id == AV_CODEC_ID_THEORA)) {

2308

c->put_no_rnd_pixels_tab[1][1] = put_no_rnd_pixels8_x2_exact_3dnow;

2309

c->put_no_rnd_pixels_tab[1][2] = put_no_rnd_pixels8_y2_exact_3dnow;

2310

}

2311

2312

c->vorbis_inverse_coupling = vorbis_inverse_coupling_3dnow;

2313

#endif /* HAVE_INLINE_ASM */

2314

2315

#if HAVE_YASM

2316

if (!high_bit_depth && CONFIG_H264CHROMA) {

2317

c->avg_h264_chroma_pixels_tab[0] = ff_avg_h264_chroma_mc8_rnd_3dnow;

2318

c->avg_h264_chroma_pixels_tab[1] = ff_avg_h264_chroma_mc4_3dnow;

2319

}

2320

#endif /* HAVE_YASM */

2321

}

2322

2323

static void dsputil_init_3dnowext(DSPContext *c, AVCodecContext *avctx,

2324

int mm_flags)

2325

{

2326

#if HAVE_AMD3DNOWEXT_INLINE && HAVE_6REGS

2327

c->vector_fmul_window = vector_fmul_window_3dnowext;

2328

#endif

2329

}

2330

2331

static void dsputil_init_sse(DSPContext *c, AVCodecContext *avctx, int mm_flags)

2332

{

2333

const int high_bit_depth = avctx->bits_per_raw_sample > 8;

2334

2335

#if HAVE_INLINE_ASM

2336

if (!high_bit_depth) {

2337

if (!(CONFIG_MPEG_XVMC_DECODER && avctx->xvmc_acceleration > 1)) {

2338

/* XvMCCreateBlocks() may not allocate 16-byte aligned blocks */

2339

c->clear_block = clear_block_sse;

2340

c->clear_blocks = clear_blocks_sse;

2341

}

2342

}

2343

2344

c->vorbis_inverse_coupling = vorbis_inverse_coupling_sse;

2345

2346

#if HAVE_6REGS

2347

c->vector_fmul_window = vector_fmul_window_sse;

2348

#endif

2349

2350

c->vector_clipf = vector_clipf_sse;

2351

#endif /* HAVE_INLINE_ASM */

2352

2353

#if HAVE_YASM

2354

c->vector_fmul_reverse = ff_vector_fmul_reverse_sse;

2355

c->vector_fmul_add = ff_vector_fmul_add_sse;

2356

2357

c->scalarproduct_float = ff_scalarproduct_float_sse;

2358

c->butterflies_float_interleave = ff_butterflies_float_interleave_sse;

2359

#endif /* HAVE_YASM */

2360

}

2361

2362

static void dsputil_init_sse2(DSPContext *c, AVCodecContext *avctx,

2363

int mm_flags)

2364

{

2365

const int bit_depth = avctx->bits_per_raw_sample;

2366

const int high_bit_depth = bit_depth > 8;

2367

2368

#if HAVE_SSE2_INLINE

2369

if (!high_bit_depth && avctx->idct_algo == FF_IDCT_XVIDMMX) {

2370

c->idct_put = ff_idct_xvid_sse2_put;

2371

c->idct_add = ff_idct_xvid_sse2_add;

2372

c->idct = ff_idct_xvid_sse2;

2373

c->idct_permutation_type = FF_SSE2_IDCT_PERM;

2374

}

2375

#endif /* HAVE_SSE2_INLINE */

2376

2377

#if HAVE_SSE2_EXTERNAL

2378

if (!(mm_flags & AV_CPU_FLAG_SSE2SLOW)) {

2379

// these functions are slower than mmx on AMD, but faster on Intel

2380

if (!high_bit_depth) {

2381

c->put_pixels_tab[0][0] = ff_put_pixels16_sse2;

2382

c->put_no_rnd_pixels_tab[0][0] = ff_put_pixels16_sse2;

2383

c->avg_pixels_tab[0][0] = ff_avg_pixels16_sse2;

2384

if (CONFIG_H264QPEL)

2385

H264_QPEL_FUNCS(0, 0, sse2);

2386

}

2387

}

2388

2389

if (!high_bit_depth && CONFIG_H264QPEL) {

2390

H264_QPEL_FUNCS(0, 1, sse2);

2391

H264_QPEL_FUNCS(0, 2, sse2);

2392

H264_QPEL_FUNCS(0, 3, sse2);

2393

H264_QPEL_FUNCS(1, 1, sse2);

2394

H264_QPEL_FUNCS(1, 2, sse2);

2395

H264_QPEL_FUNCS(1, 3, sse2);

2396

H264_QPEL_FUNCS(2, 1, sse2);

2397

H264_QPEL_FUNCS(2, 2, sse2);

2398

H264_QPEL_FUNCS(2, 3, sse2);

2399

H264_QPEL_FUNCS(3, 1, sse2);

2400

H264_QPEL_FUNCS(3, 2, sse2);

2401

H264_QPEL_FUNCS(3, 3, sse2);

2402

}

2403

2404

if (bit_depth == 10) {

2405

if (CONFIG_H264QPEL) {

2406

SET_QPEL_FUNCS(put_h264_qpel, 0, 16, 10_sse2, ff_);

2407

SET_QPEL_FUNCS(put_h264_qpel, 1, 8, 10_sse2, ff_);

2408

SET_QPEL_FUNCS(avg_h264_qpel, 0, 16, 10_sse2, ff_);

2409

SET_QPEL_FUNCS(avg_h264_qpel, 1, 8, 10_sse2, ff_);

2410

H264_QPEL_FUNCS_10(1, 0, sse2_cache64);

2411

H264_QPEL_FUNCS_10(2, 0, sse2_cache64);

2412

H264_QPEL_FUNCS_10(3, 0, sse2_cache64);

2413

}

2414

if (CONFIG_H264CHROMA) {

2415

c->put_h264_chroma_pixels_tab[0] = ff_put_h264_chroma_mc8_10_sse2;

2416

c->avg_h264_chroma_pixels_tab[0] = ff_avg_h264_chroma_mc8_10_sse2;

2417

}

2418

}

2419

2420

c->scalarproduct_int16 = ff_scalarproduct_int16_sse2;

2421

c->scalarproduct_and_madd_int16 = ff_scalarproduct_and_madd_int16_sse2;

2422

if (mm_flags & AV_CPU_FLAG_ATOM) {

2423

c->vector_clip_int32 = ff_vector_clip_int32_int_sse2;

2424

} else {

2425

c->vector_clip_int32 = ff_vector_clip_int32_sse2;

2426

}

2427

if (avctx->flags & CODEC_FLAG_BITEXACT) {

2428

c->apply_window_int16 = ff_apply_window_int16_sse2;

2429

} else if (!(mm_flags & AV_CPU_FLAG_SSE2SLOW)) {

2430

c->apply_window_int16 = ff_apply_window_int16_round_sse2;

2431

}

2432

c->bswap_buf = ff_bswap32_buf_sse2;

2433

#endif /* HAVE_SSE2_EXTERNAL */

2434

}

2435

2436

static void dsputil_init_ssse3(DSPContext *c, AVCodecContext *avctx,

2437

int mm_flags)

2438

{

2439

#if HAVE_SSSE3_EXTERNAL

2440

const int high_bit_depth = avctx->bits_per_raw_sample > 8;

2441

const int bit_depth = avctx->bits_per_raw_sample;

2442

2443

if (!high_bit_depth && CONFIG_H264QPEL) {

2444

H264_QPEL_FUNCS(1, 0, ssse3);

2445

H264_QPEL_FUNCS(1, 1, ssse3);

2446

H264_QPEL_FUNCS(1, 2, ssse3);

2447

H264_QPEL_FUNCS(1, 3, ssse3);

2448

H264_QPEL_FUNCS(2, 0, ssse3);

2449

H264_QPEL_FUNCS(2, 1, ssse3);

2450

H264_QPEL_FUNCS(2, 2, ssse3);

2451

H264_QPEL_FUNCS(2, 3, ssse3);

2452

H264_QPEL_FUNCS(3, 0, ssse3);

2453

H264_QPEL_FUNCS(3, 1, ssse3);

2454

H264_QPEL_FUNCS(3, 2, ssse3);

2455

H264_QPEL_FUNCS(3, 3, ssse3);

2456

}

2457

if (bit_depth == 10 && CONFIG_H264QPEL) {

2458

H264_QPEL_FUNCS_10(1, 0, ssse3_cache64);

2459

H264_QPEL_FUNCS_10(2, 0, ssse3_cache64);

2460

H264_QPEL_FUNCS_10(3, 0, ssse3_cache64);

2461

}

2462

if (!high_bit_depth && CONFIG_H264CHROMA) {

2463

c->put_h264_chroma_pixels_tab[0] = ff_put_h264_chroma_mc8_rnd_ssse3;

2464

c->avg_h264_chroma_pixels_tab[0] = ff_avg_h264_chroma_mc8_rnd_ssse3;

2465

c->put_h264_chroma_pixels_tab[1] = ff_put_h264_chroma_mc4_ssse3;

2466

c->avg_h264_chroma_pixels_tab[1] = ff_avg_h264_chroma_mc4_ssse3;

2467

}

2468

c->add_hfyu_left_prediction = ff_add_hfyu_left_prediction_ssse3;

2469

if (mm_flags & AV_CPU_FLAG_SSE4) // not really sse4, just slow on Conroe

2470

c->add_hfyu_left_prediction = ff_add_hfyu_left_prediction_sse4;

2471

2472

if (mm_flags & AV_CPU_FLAG_ATOM)

2473

c->apply_window_int16 = ff_apply_window_int16_ssse3_atom;

2474

else

2475

c->apply_window_int16 = ff_apply_window_int16_ssse3;

2476

if (!(mm_flags & (AV_CPU_FLAG_SSE42|AV_CPU_FLAG_3DNOW))) // cachesplit

2477

c->scalarproduct_and_madd_int16 = ff_scalarproduct_and_madd_int16_ssse3;

2478

c->bswap_buf = ff_bswap32_buf_ssse3;

2479

#endif /* HAVE_SSSE3_EXTERNAL */

2480

}

2481

2482

static void dsputil_init_sse4(DSPContext *c, AVCodecContext *avctx,

2483

int mm_flags)

2484

{

2485

#if HAVE_SSE4_EXTERNAL

2486

c->vector_clip_int32 = ff_vector_clip_int32_sse4;

2487

#endif /* HAVE_SSE4_EXTERNAL */

2488

}

2489

2490

static void dsputil_init_avx(DSPContext *c, AVCodecContext *avctx, int mm_flags)

2491

{

2492

#if HAVE_AVX_EXTERNAL

2493

const int bit_depth = avctx->bits_per_raw_sample;

2494

2495

if (bit_depth == 10) {

2496

// AVX implies !cache64.

2497

// TODO: Port cache(32|64) detection from x264.

2498

if (CONFIG_H264QPEL) {

2499

H264_QPEL_FUNCS_10(1, 0, sse2);

2500

H264_QPEL_FUNCS_10(2, 0, sse2);

2501

H264_QPEL_FUNCS_10(3, 0, sse2);

2502

}

2503

2504

if (CONFIG_H264CHROMA) {

2505

c->put_h264_chroma_pixels_tab[0] = ff_put_h264_chroma_mc8_10_avx;

2506

c->avg_h264_chroma_pixels_tab[0] = ff_avg_h264_chroma_mc8_10_avx;

2507

}

2508

}

2509

c->butterflies_float_interleave = ff_butterflies_float_interleave_avx;

2510

c->vector_fmul_reverse = ff_vector_fmul_reverse_avx;

2511

c->vector_fmul_add = ff_vector_fmul_add_avx;

2512

#endif /* HAVE_AVX_EXTERNAL */

2513

}

2514

2515

void ff_dsputil_init_mmx(DSPContext *c, AVCodecContext *avctx)

2433

2516

{

2434

2517

int mm_flags = av_get_cpu_flags();

2435

const int high_bit_depth = avctx->bits_per_raw_sample > 8;

2436

const int bit_depth = avctx->bits_per_raw_sample;

2437

2438

if (avctx->dsp_mask) {

2439

if (avctx->dsp_mask & AV_CPU_FLAG_FORCE)

2440

mm_flags |= (avctx->dsp_mask & 0xffff);

2441

else

2442

mm_flags &= ~(avctx->dsp_mask & 0xffff);

2443

}

2444

2445

#if 0

2446

av_log(avctx, AV_LOG_INFO, "libavcodec: CPU flags:");

2518

2519

#if HAVE_7REGS && HAVE_INLINE_ASM

2520

if (mm_flags & AV_CPU_FLAG_CMOV)

2521

c->add_hfyu_median_prediction = add_hfyu_median_prediction_cmov;

2522

#endif

2523

2447

2524

if (mm_flags & AV_CPU_FLAG_MMX)

2448

av_log(avctx, AV_LOG_INFO, " mmx");

2449

if (mm_flags & AV_CPU_FLAG_MMX2)

2450

av_log(avctx, AV_LOG_INFO, " mmx2");

2525

dsputil_init_mmx(c, avctx, mm_flags);

2526

2527

if (mm_flags & AV_CPU_FLAG_MMXEXT)

2528

dsputil_init_mmxext(c, avctx, mm_flags);

2529

2451

2530

if (mm_flags & AV_CPU_FLAG_3DNOW)

2452

av_log(avctx, AV_LOG_INFO, " 3dnow");

2531

dsputil_init_3dnow(c, avctx, mm_flags);

2532

2533

if (mm_flags & AV_CPU_FLAG_3DNOWEXT)

2534

dsputil_init_3dnowext(c, avctx, mm_flags);

2535

2453

2536

if (mm_flags & AV_CPU_FLAG_SSE)

2454

av_log(avctx, AV_LOG_INFO, " sse");

2537

dsputil_init_sse(c, avctx, mm_flags);

2538

2455

2539

if (mm_flags & AV_CPU_FLAG_SSE2)

2456

av_log(avctx, AV_LOG_INFO, " sse2");

2457

av_log(avctx, AV_LOG_INFO, "\n");

2458

#endif

2459

2460

if (mm_flags & AV_CPU_FLAG_MMX) {

2461

const int idct_algo= avctx->idct_algo;

2462

2463

if (avctx->lowres == 0 && avctx->bits_per_raw_sample <= 8) {

2464

if(idct_algo==FF_IDCT_AUTO || idct_algo==FF_IDCT_SIMPLEMMX){

2465

c->idct_put= ff_simple_idct_put_mmx;

2466

c->idct_add= ff_simple_idct_add_mmx;

2467

c->idct = ff_simple_idct_mmx;

2468

c->idct_permutation_type= FF_SIMPLE_IDCT_PERM;

2469

#if CONFIG_GPL

2470

}else if(idct_algo==FF_IDCT_LIBMPEG2MMX){

2471

if(mm_flags & AV_CPU_FLAG_MMX2){

2472

c->idct_put= ff_libmpeg2mmx2_idct_put;

2473

c->idct_add= ff_libmpeg2mmx2_idct_add;

2474

c->idct = ff_mmxext_idct;

2475

}else{

2476

c->idct_put= ff_libmpeg2mmx_idct_put;

2477

c->idct_add= ff_libmpeg2mmx_idct_add;

2478

c->idct = ff_mmx_idct;

2479

}

2480

c->idct_permutation_type= FF_LIBMPEG2_IDCT_PERM;

2481

#endif

2482

}else if((CONFIG_VP3_DECODER || CONFIG_VP5_DECODER || CONFIG_VP6_DECODER) &&

2483

idct_algo==FF_IDCT_VP3 && HAVE_YASM){

2484

if(mm_flags & AV_CPU_FLAG_SSE2){

2485

c->idct_put= ff_vp3_idct_put_sse2;

2486

c->idct_add= ff_vp3_idct_add_sse2;

2487

c->idct = ff_vp3_idct_sse2;

2488

c->idct_permutation_type= FF_TRANSPOSE_IDCT_PERM;

2489

}else{

2490

c->idct_put= ff_vp3_idct_put_mmx;

2491

c->idct_add= ff_vp3_idct_add_mmx;

2492

c->idct = ff_vp3_idct_mmx;

2493

c->idct_permutation_type= FF_PARTTRANS_IDCT_PERM;

2494

}

2495

}else if(idct_algo==FF_IDCT_CAVS){

2496

c->idct_permutation_type= FF_TRANSPOSE_IDCT_PERM;

2497

}else if(idct_algo==FF_IDCT_XVIDMMX){

2498

if(mm_flags & AV_CPU_FLAG_SSE2){

2499

c->idct_put= ff_idct_xvid_sse2_put;

2500

c->idct_add= ff_idct_xvid_sse2_add;

2501

c->idct = ff_idct_xvid_sse2;

2502

c->idct_permutation_type= FF_SSE2_IDCT_PERM;

2503

}else if(mm_flags & AV_CPU_FLAG_MMX2){

2504

c->idct_put= ff_idct_xvid_mmx2_put;

2505

c->idct_add= ff_idct_xvid_mmx2_add;

2506

c->idct = ff_idct_xvid_mmx2;

2507

}else{

2508

c->idct_put= ff_idct_xvid_mmx_put;

2509

c->idct_add= ff_idct_xvid_mmx_add;

2510

c->idct = ff_idct_xvid_mmx;

2511

}

2512

}

2513

}

2514

2515

c->put_pixels_clamped = ff_put_pixels_clamped_mmx;

2516

c->put_signed_pixels_clamped = ff_put_signed_pixels_clamped_mmx;

2517

c->add_pixels_clamped = ff_add_pixels_clamped_mmx;

2518

if (!high_bit_depth) {

2519

c->clear_block = clear_block_mmx;

2520

c->clear_blocks = clear_blocks_mmx;

2521

if ((mm_flags & AV_CPU_FLAG_SSE) &&

2522

!(CONFIG_MPEG_XVMC_DECODER && avctx->xvmc_acceleration > 1)){

2523

/* XvMCCreateBlocks() may not allocate 16-byte aligned blocks */

2524

c->clear_block = clear_block_sse;

2525

c->clear_blocks = clear_blocks_sse;

2526

}

2527

}

2528

2529

#define SET_HPEL_FUNCS(PFX, IDX, SIZE, CPU) \

2530

c->PFX ## _pixels_tab[IDX][0] = PFX ## _pixels ## SIZE ## _ ## CPU; \

2531

c->PFX ## _pixels_tab[IDX][1] = PFX ## _pixels ## SIZE ## _x2_ ## CPU; \

2532

c->PFX ## _pixels_tab[IDX][2] = PFX ## _pixels ## SIZE ## _y2_ ## CPU; \

2533

c->PFX ## _pixels_tab[IDX][3] = PFX ## _pixels ## SIZE ## _xy2_ ## CPU

2534

2535

if (!high_bit_depth) {

2536

SET_HPEL_FUNCS(put, 0, 16, mmx);

2537

SET_HPEL_FUNCS(put_no_rnd, 0, 16, mmx);

2538

SET_HPEL_FUNCS(avg, 0, 16, mmx);

2539

SET_HPEL_FUNCS(avg_no_rnd, 0, 16, mmx);

2540

SET_HPEL_FUNCS(put, 1, 8, mmx);

2541

SET_HPEL_FUNCS(put_no_rnd, 1, 8, mmx);

2542

SET_HPEL_FUNCS(avg, 1, 8, mmx);

2543

SET_HPEL_FUNCS(avg_no_rnd, 1, 8, mmx);

2544

}

2545

2546

#if ARCH_X86_32 || !HAVE_YASM

2547

c->gmc= gmc_mmx;

2548

#endif

2549

#if ARCH_X86_32 && HAVE_YASM

2550

if (!high_bit_depth)

2551

c->emulated_edge_mc = emulated_edge_mc_mmx;

2552

#endif

2553

2554

c->add_bytes= add_bytes_mmx;

2555

c->add_bytes_l2= add_bytes_l2_mmx;

2556

2557

if (!high_bit_depth)

2558

c->draw_edges = draw_edges_mmx;

2559

2560

if (CONFIG_H263_DECODER || CONFIG_H263_ENCODER) {

2561

c->h263_v_loop_filter= h263_v_loop_filter_mmx;

2562

c->h263_h_loop_filter= h263_h_loop_filter_mmx;

2563

}

2564

2565

#if HAVE_YASM

2566

if (!high_bit_depth && CONFIG_H264CHROMA) {

2567

c->put_h264_chroma_pixels_tab[0]= ff_put_h264_chroma_mc8_mmx_rnd;

2568

c->put_h264_chroma_pixels_tab[1]= ff_put_h264_chroma_mc4_mmx;

2569

}

2570

2571

c->vector_clip_int32 = ff_vector_clip_int32_mmx;

2572

#endif

2573

2574

if (mm_flags & AV_CPU_FLAG_MMX2) {

2575

c->prefetch = prefetch_mmx2;

2576

2577

if (!high_bit_depth) {

2578

c->put_pixels_tab[0][1] = put_pixels16_x2_mmx2;

2579

c->put_pixels_tab[0][2] = put_pixels16_y2_mmx2;

2580

2581

c->avg_pixels_tab[0][0] = avg_pixels16_mmx2;

2582

c->avg_pixels_tab[0][1] = avg_pixels16_x2_mmx2;

2583

c->avg_pixels_tab[0][2] = avg_pixels16_y2_mmx2;

2584

2585

c->put_pixels_tab[1][1] = put_pixels8_x2_mmx2;

2586

c->put_pixels_tab[1][2] = put_pixels8_y2_mmx2;

2587

2588

c->avg_pixels_tab[1][0] = avg_pixels8_mmx2;

2589

c->avg_pixels_tab[1][1] = avg_pixels8_x2_mmx2;

2590

c->avg_pixels_tab[1][2] = avg_pixels8_y2_mmx2;

2591

}

2592

2593

if(!(avctx->flags & CODEC_FLAG_BITEXACT)){

2594

if (!high_bit_depth) {

2595

c->put_no_rnd_pixels_tab[0][1] = put_no_rnd_pixels16_x2_mmx2;

2596

c->put_no_rnd_pixels_tab[0][2] = put_no_rnd_pixels16_y2_mmx2;

2597

c->put_no_rnd_pixels_tab[1][1] = put_no_rnd_pixels8_x2_mmx2;

2598

c->put_no_rnd_pixels_tab[1][2] = put_no_rnd_pixels8_y2_mmx2;

2599

c->avg_pixels_tab[0][3] = avg_pixels16_xy2_mmx2;

2600

c->avg_pixels_tab[1][3] = avg_pixels8_xy2_mmx2;

2601

}

2602

2603

if (CONFIG_VP3_DECODER && HAVE_YASM) {

2604

c->vp3_v_loop_filter= ff_vp3_v_loop_filter_mmx2;

2605

c->vp3_h_loop_filter= ff_vp3_h_loop_filter_mmx2;

2606

}

2607

}

2608

if (CONFIG_VP3_DECODER && HAVE_YASM) {

2609

c->vp3_idct_dc_add = ff_vp3_idct_dc_add_mmx2;

2610

}

2611

2612

if (CONFIG_VP3_DECODER

2613

&& (avctx->codec_id == CODEC_ID_VP3 || avctx->codec_id == CODEC_ID_THEORA)) {

2614

c->put_no_rnd_pixels_tab[1][1] = put_no_rnd_pixels8_x2_exact_mmx2;

2615

c->put_no_rnd_pixels_tab[1][2] = put_no_rnd_pixels8_y2_exact_mmx2;

2616

}

2617

2618

#define SET_QPEL_FUNCS(PFX, IDX, SIZE, CPU, PREFIX) \

2619

c->PFX ## _pixels_tab[IDX][ 0] = PREFIX ## PFX ## SIZE ## _mc00_ ## CPU; \

2620

c->PFX ## _pixels_tab[IDX][ 1] = PREFIX ## PFX ## SIZE ## _mc10_ ## CPU; \

2621

c->PFX ## _pixels_tab[IDX][ 2] = PREFIX ## PFX ## SIZE ## _mc20_ ## CPU; \

2622

c->PFX ## _pixels_tab[IDX][ 3] = PREFIX ## PFX ## SIZE ## _mc30_ ## CPU; \

2623

c->PFX ## _pixels_tab[IDX][ 4] = PREFIX ## PFX ## SIZE ## _mc01_ ## CPU; \

2624

c->PFX ## _pixels_tab[IDX][ 5] = PREFIX ## PFX ## SIZE ## _mc11_ ## CPU; \

2625

c->PFX ## _pixels_tab[IDX][ 6] = PREFIX ## PFX ## SIZE ## _mc21_ ## CPU; \

2626

c->PFX ## _pixels_tab[IDX][ 7] = PREFIX ## PFX ## SIZE ## _mc31_ ## CPU; \

2627

c->PFX ## _pixels_tab[IDX][ 8] = PREFIX ## PFX ## SIZE ## _mc02_ ## CPU; \

2628

c->PFX ## _pixels_tab[IDX][ 9] = PREFIX ## PFX ## SIZE ## _mc12_ ## CPU; \

2629

c->PFX ## _pixels_tab[IDX][10] = PREFIX ## PFX ## SIZE ## _mc22_ ## CPU; \

2630

c->PFX ## _pixels_tab[IDX][11] = PREFIX ## PFX ## SIZE ## _mc32_ ## CPU; \

2631

c->PFX ## _pixels_tab[IDX][12] = PREFIX ## PFX ## SIZE ## _mc03_ ## CPU; \

2632

c->PFX ## _pixels_tab[IDX][13] = PREFIX ## PFX ## SIZE ## _mc13_ ## CPU; \

2633

c->PFX ## _pixels_tab[IDX][14] = PREFIX ## PFX ## SIZE ## _mc23_ ## CPU; \

2634

c->PFX ## _pixels_tab[IDX][15] = PREFIX ## PFX ## SIZE ## _mc33_ ## CPU

2635

2636

SET_QPEL_FUNCS(put_qpel, 0, 16, mmx2, );

2637

SET_QPEL_FUNCS(put_qpel, 1, 8, mmx2, );

2638

SET_QPEL_FUNCS(put_no_rnd_qpel, 0, 16, mmx2, );

2639

SET_QPEL_FUNCS(put_no_rnd_qpel, 1, 8, mmx2, );

2640

SET_QPEL_FUNCS(avg_qpel, 0, 16, mmx2, );

2641

SET_QPEL_FUNCS(avg_qpel, 1, 8, mmx2, );

2642

2643

if (!high_bit_depth) {

2644

SET_QPEL_FUNCS(put_h264_qpel, 0, 16, mmx2, );

2645

SET_QPEL_FUNCS(put_h264_qpel, 1, 8, mmx2, );

2646

SET_QPEL_FUNCS(put_h264_qpel, 2, 4, mmx2, );

2647

SET_QPEL_FUNCS(avg_h264_qpel, 0, 16, mmx2, );

2648

SET_QPEL_FUNCS(avg_h264_qpel, 1, 8, mmx2, );

2649

SET_QPEL_FUNCS(avg_h264_qpel, 2, 4, mmx2, );

2650

}

2651

else if (bit_depth == 10) {

2652

#if HAVE_YASM

2653

#if !ARCH_X86_64

2654

SET_QPEL_FUNCS(avg_h264_qpel, 0, 16, 10_mmxext, ff_);

2655

SET_QPEL_FUNCS(put_h264_qpel, 0, 16, 10_mmxext, ff_);

2656

SET_QPEL_FUNCS(put_h264_qpel, 1, 8, 10_mmxext, ff_);

2657

SET_QPEL_FUNCS(avg_h264_qpel, 1, 8, 10_mmxext, ff_);

2658

#endif

2659

SET_QPEL_FUNCS(put_h264_qpel, 2, 4, 10_mmxext, ff_);

2660

SET_QPEL_FUNCS(avg_h264_qpel, 2, 4, 10_mmxext, ff_);

2661

#endif

2662

}

2663

2664

SET_QPEL_FUNCS(put_2tap_qpel, 0, 16, mmx2, );

2665

SET_QPEL_FUNCS(put_2tap_qpel, 1, 8, mmx2, );

2666

SET_QPEL_FUNCS(avg_2tap_qpel, 0, 16, mmx2, );

2667

SET_QPEL_FUNCS(avg_2tap_qpel, 1, 8, mmx2, );

2668

2669

#if HAVE_YASM

2670

if (!high_bit_depth && CONFIG_H264CHROMA) {

2671

c->avg_h264_chroma_pixels_tab[0]= ff_avg_h264_chroma_mc8_mmx2_rnd;

2672

c->avg_h264_chroma_pixels_tab[1]= ff_avg_h264_chroma_mc4_mmx2;

2673

c->avg_h264_chroma_pixels_tab[2]= ff_avg_h264_chroma_mc2_mmx2;

2674

c->put_h264_chroma_pixels_tab[2]= ff_put_h264_chroma_mc2_mmx2;

2675

}

2676

if (bit_depth == 10 && CONFIG_H264CHROMA) {

2677

c->put_h264_chroma_pixels_tab[2]= ff_put_h264_chroma_mc2_10_mmxext;

2678

c->avg_h264_chroma_pixels_tab[2]= ff_avg_h264_chroma_mc2_10_mmxext;

2679

c->put_h264_chroma_pixels_tab[1]= ff_put_h264_chroma_mc4_10_mmxext;

2680

c->avg_h264_chroma_pixels_tab[1]= ff_avg_h264_chroma_mc4_10_mmxext;

2681

}

2682

2683

c->add_hfyu_median_prediction = ff_add_hfyu_median_prediction_mmx2;

2684

#endif

2685

#if HAVE_7REGS

2686

if (HAVE_AMD3DNOW && (mm_flags & AV_CPU_FLAG_3DNOW))

2687

c->add_hfyu_median_prediction = add_hfyu_median_prediction_cmov;

2688

#endif

2689

2690

c->add_png_paeth_prediction= add_png_paeth_prediction_mmx2;

2691

} else if (HAVE_AMD3DNOW && (mm_flags & AV_CPU_FLAG_3DNOW)) {

2692

c->prefetch = prefetch_3dnow;

2693

2694

if (!high_bit_depth) {

2695

c->put_pixels_tab[0][1] = put_pixels16_x2_3dnow;

2696

c->put_pixels_tab[0][2] = put_pixels16_y2_3dnow;

2697

2698

c->avg_pixels_tab[0][0] = avg_pixels16_3dnow;

2699

c->avg_pixels_tab[0][1] = avg_pixels16_x2_3dnow;

2700

c->avg_pixels_tab[0][2] = avg_pixels16_y2_3dnow;

2701

2702

c->put_pixels_tab[1][1] = put_pixels8_x2_3dnow;

2703

c->put_pixels_tab[1][2] = put_pixels8_y2_3dnow;

2704

2705

c->avg_pixels_tab[1][0] = avg_pixels8_3dnow;

2706

c->avg_pixels_tab[1][1] = avg_pixels8_x2_3dnow;

2707

c->avg_pixels_tab[1][2] = avg_pixels8_y2_3dnow;

2708

2709

if(!(avctx->flags & CODEC_FLAG_BITEXACT)){

2710

c->put_no_rnd_pixels_tab[0][1] = put_no_rnd_pixels16_x2_3dnow;

2711

c->put_no_rnd_pixels_tab[0][2] = put_no_rnd_pixels16_y2_3dnow;

2712

c->put_no_rnd_pixels_tab[1][1] = put_no_rnd_pixels8_x2_3dnow;

2713

c->put_no_rnd_pixels_tab[1][2] = put_no_rnd_pixels8_y2_3dnow;

2714

c->avg_pixels_tab[0][3] = avg_pixels16_xy2_3dnow;

2715

c->avg_pixels_tab[1][3] = avg_pixels8_xy2_3dnow;

2716

}

2717

}

2718

2719

if (CONFIG_VP3_DECODER

2720

&& (avctx->codec_id == CODEC_ID_VP3 || avctx->codec_id == CODEC_ID_THEORA)) {

2721

c->put_no_rnd_pixels_tab[1][1] = put_no_rnd_pixels8_x2_exact_3dnow;

2722

c->put_no_rnd_pixels_tab[1][2] = put_no_rnd_pixels8_y2_exact_3dnow;

2723

}

2724

2725

SET_QPEL_FUNCS(put_qpel, 0, 16, 3dnow, );

2726

SET_QPEL_FUNCS(put_qpel, 1, 8, 3dnow, );

2727

SET_QPEL_FUNCS(put_no_rnd_qpel, 0, 16, 3dnow, );

2728

SET_QPEL_FUNCS(put_no_rnd_qpel, 1, 8, 3dnow, );

2729

SET_QPEL_FUNCS(avg_qpel, 0, 16, 3dnow, );

2730

SET_QPEL_FUNCS(avg_qpel, 1, 8, 3dnow, );

2731

2732

if (!high_bit_depth) {

2733

SET_QPEL_FUNCS(put_h264_qpel, 0, 16, 3dnow, );

2734

SET_QPEL_FUNCS(put_h264_qpel, 1, 8, 3dnow, );

2735

SET_QPEL_FUNCS(put_h264_qpel, 2, 4, 3dnow, );

2736

SET_QPEL_FUNCS(avg_h264_qpel, 0, 16, 3dnow, );

2737

SET_QPEL_FUNCS(avg_h264_qpel, 1, 8, 3dnow, );

2738

SET_QPEL_FUNCS(avg_h264_qpel, 2, 4, 3dnow, );

2739

}

2740

2741

SET_QPEL_FUNCS(put_2tap_qpel, 0, 16, 3dnow, );

2742

SET_QPEL_FUNCS(put_2tap_qpel, 1, 8, 3dnow, );

2743

SET_QPEL_FUNCS(avg_2tap_qpel, 0, 16, 3dnow, );

2744

SET_QPEL_FUNCS(avg_2tap_qpel, 1, 8, 3dnow, );

2745

2746

#if HAVE_YASM

2747

if (!high_bit_depth && CONFIG_H264CHROMA) {

2748

c->avg_h264_chroma_pixels_tab[0]= ff_avg_h264_chroma_mc8_3dnow_rnd;

2749

c->avg_h264_chroma_pixels_tab[1]= ff_avg_h264_chroma_mc4_3dnow;

2750

}

2751

2752

#endif

2753

}

2754

2755

2756

#define H264_QPEL_FUNCS(x, y, CPU)\

2757

c->put_h264_qpel_pixels_tab[0][x+y*4] = put_h264_qpel16_mc##x##y##_##CPU;\

2758

c->put_h264_qpel_pixels_tab[1][x+y*4] = put_h264_qpel8_mc##x##y##_##CPU;\

2759

c->avg_h264_qpel_pixels_tab[0][x+y*4] = avg_h264_qpel16_mc##x##y##_##CPU;\

2760

c->avg_h264_qpel_pixels_tab[1][x+y*4] = avg_h264_qpel8_mc##x##y##_##CPU;

2761

if((mm_flags & AV_CPU_FLAG_SSE2) && !(mm_flags & AV_CPU_FLAG_3DNOW)){

2762

// these functions are slower than mmx on AMD, but faster on Intel

2763

if (!high_bit_depth) {

2764

c->put_pixels_tab[0][0] = put_pixels16_sse2;

2765

c->put_no_rnd_pixels_tab[0][0] = put_pixels16_sse2;

2766

c->avg_pixels_tab[0][0] = avg_pixels16_sse2;

2767

H264_QPEL_FUNCS(0, 0, sse2);

2768

}

2769

}

2770

if(mm_flags & AV_CPU_FLAG_SSE2){

2771

if (!high_bit_depth) {

2772

H264_QPEL_FUNCS(0, 1, sse2);

2773

H264_QPEL_FUNCS(0, 2, sse2);

2774

H264_QPEL_FUNCS(0, 3, sse2);

2775

H264_QPEL_FUNCS(1, 1, sse2);

2776

H264_QPEL_FUNCS(1, 2, sse2);

2777

H264_QPEL_FUNCS(1, 3, sse2);

2778

H264_QPEL_FUNCS(2, 1, sse2);

2779

H264_QPEL_FUNCS(2, 2, sse2);

2780

H264_QPEL_FUNCS(2, 3, sse2);

2781

H264_QPEL_FUNCS(3, 1, sse2);

2782

H264_QPEL_FUNCS(3, 2, sse2);

2783

H264_QPEL_FUNCS(3, 3, sse2);

2784

}

2785

#if HAVE_YASM

2786

#define H264_QPEL_FUNCS_10(x, y, CPU)\

2787

c->put_h264_qpel_pixels_tab[0][x+y*4] = ff_put_h264_qpel16_mc##x##y##_10_##CPU;\

2788

c->put_h264_qpel_pixels_tab[1][x+y*4] = ff_put_h264_qpel8_mc##x##y##_10_##CPU;\

2789

c->avg_h264_qpel_pixels_tab[0][x+y*4] = ff_avg_h264_qpel16_mc##x##y##_10_##CPU;\

2790

c->avg_h264_qpel_pixels_tab[1][x+y*4] = ff_avg_h264_qpel8_mc##x##y##_10_##CPU;

2791

if (bit_depth == 10) {

2792

SET_QPEL_FUNCS(put_h264_qpel, 0, 16, 10_sse2, ff_);

2793

SET_QPEL_FUNCS(put_h264_qpel, 1, 8, 10_sse2, ff_);

2794

SET_QPEL_FUNCS(avg_h264_qpel, 0, 16, 10_sse2, ff_);

2795

SET_QPEL_FUNCS(avg_h264_qpel, 1, 8, 10_sse2, ff_);

2796

H264_QPEL_FUNCS_10(1, 0, sse2_cache64)

2797

H264_QPEL_FUNCS_10(2, 0, sse2_cache64)

2798

H264_QPEL_FUNCS_10(3, 0, sse2_cache64)

2799

2800

if (CONFIG_H264CHROMA) {

2801

c->put_h264_chroma_pixels_tab[0] = ff_put_h264_chroma_mc8_10_sse2;

2802

c->avg_h264_chroma_pixels_tab[0] = ff_avg_h264_chroma_mc8_10_sse2;

2803

}

2804

}

2805

#endif

2806

}

2807

#if HAVE_SSSE3

2808

if(mm_flags & AV_CPU_FLAG_SSSE3){

2809

if (!high_bit_depth) {

2810

H264_QPEL_FUNCS(1, 0, ssse3);

2811

H264_QPEL_FUNCS(1, 1, ssse3);

2812

H264_QPEL_FUNCS(1, 2, ssse3);

2813

H264_QPEL_FUNCS(1, 3, ssse3);

2814

H264_QPEL_FUNCS(2, 0, ssse3);

2815

H264_QPEL_FUNCS(2, 1, ssse3);

2816

H264_QPEL_FUNCS(2, 2, ssse3);

2817

H264_QPEL_FUNCS(2, 3, ssse3);

2818

H264_QPEL_FUNCS(3, 0, ssse3);

2819

H264_QPEL_FUNCS(3, 1, ssse3);

2820

H264_QPEL_FUNCS(3, 2, ssse3);

2821

H264_QPEL_FUNCS(3, 3, ssse3);

2822

}

2823

#if HAVE_YASM

2824

else if (bit_depth == 10) {

2825

H264_QPEL_FUNCS_10(1, 0, ssse3_cache64)

2826

H264_QPEL_FUNCS_10(2, 0, ssse3_cache64)

2827

H264_QPEL_FUNCS_10(3, 0, ssse3_cache64)

2828

}

2829

#endif

2830

c->add_png_paeth_prediction= add_png_paeth_prediction_ssse3;

2831

#if HAVE_YASM

2832

if (!high_bit_depth && CONFIG_H264CHROMA) {

2833

c->put_h264_chroma_pixels_tab[0]= ff_put_h264_chroma_mc8_ssse3_rnd;

2834

c->avg_h264_chroma_pixels_tab[0]= ff_avg_h264_chroma_mc8_ssse3_rnd;

2835

c->put_h264_chroma_pixels_tab[1]= ff_put_h264_chroma_mc4_ssse3;

2836

c->avg_h264_chroma_pixels_tab[1]= ff_avg_h264_chroma_mc4_ssse3;

2837

}

2838

c->add_hfyu_left_prediction = ff_add_hfyu_left_prediction_ssse3;

2839

if (mm_flags & AV_CPU_FLAG_SSE4) // not really sse4, just slow on Conroe

2840

c->add_hfyu_left_prediction = ff_add_hfyu_left_prediction_sse4;

2841

#endif

2842

}

2843

#endif

2844

2845

if (HAVE_AMD3DNOW && (mm_flags & AV_CPU_FLAG_3DNOW)) {

2846

c->vorbis_inverse_coupling = vorbis_inverse_coupling_3dnow;

2847

c->vector_fmul = vector_fmul_3dnow;

2848

}

2849

if (HAVE_AMD3DNOWEXT && (mm_flags & AV_CPU_FLAG_3DNOWEXT)) {

2850

c->vector_fmul_reverse = vector_fmul_reverse_3dnow2;

2851

#if HAVE_6REGS

2852

c->vector_fmul_window = vector_fmul_window_3dnow2;

2853

#endif

2854

}

2855

if(mm_flags & AV_CPU_FLAG_MMX2){

2856

#if HAVE_YASM

2857

c->scalarproduct_int16 = ff_scalarproduct_int16_mmx2;

2858

c->scalarproduct_and_madd_int16 = ff_scalarproduct_and_madd_int16_mmx2;

2859

if (avctx->flags & CODEC_FLAG_BITEXACT) {

2860

c->apply_window_int16 = ff_apply_window_int16_mmxext_ba;

2861

} else {

2862

c->apply_window_int16 = ff_apply_window_int16_mmxext;

2863

}

2864

#endif

2865

}

2866

if(mm_flags & AV_CPU_FLAG_SSE){

2867

c->vorbis_inverse_coupling = vorbis_inverse_coupling_sse;

2868

c->ac3_downmix = ac3_downmix_sse;

2869

c->vector_fmul = vector_fmul_sse;

2870

c->vector_fmul_reverse = vector_fmul_reverse_sse;

2871

c->vector_fmul_add = vector_fmul_add_sse;

2872

#if HAVE_6REGS

2873

c->vector_fmul_window = vector_fmul_window_sse;

2874

#endif

2875

c->vector_clipf = vector_clipf_sse;

2876

#if HAVE_YASM

2877

c->scalarproduct_float = ff_scalarproduct_float_sse;

2878

c->butterflies_float_interleave = ff_butterflies_float_interleave_sse;

2879

2880

if (!high_bit_depth)

2881

c->emulated_edge_mc = emulated_edge_mc_sse;

2882

c->gmc = gmc_sse;

2883

#endif

2884

}

2885

if (HAVE_AMD3DNOW && (mm_flags & AV_CPU_FLAG_3DNOW))

2886

c->vector_fmul_add = vector_fmul_add_3dnow; // faster than sse

2887

if(mm_flags & AV_CPU_FLAG_SSE2){

2888

#if HAVE_YASM

2889

c->scalarproduct_int16 = ff_scalarproduct_int16_sse2;

2890

c->scalarproduct_and_madd_int16 = ff_scalarproduct_and_madd_int16_sse2;

2891

if (mm_flags & AV_CPU_FLAG_ATOM) {

2892

c->vector_clip_int32 = ff_vector_clip_int32_int_sse2;

2893

} else {

2894

c->vector_clip_int32 = ff_vector_clip_int32_sse2;

2895

}

2896

if (avctx->flags & CODEC_FLAG_BITEXACT) {

2897

c->apply_window_int16 = ff_apply_window_int16_sse2_ba;

2898

} else {

2899

if (!(mm_flags & AV_CPU_FLAG_SSE2SLOW)) {

2900

c->apply_window_int16 = ff_apply_window_int16_sse2;

2901

}

2902

}

2903

#endif

2904

}

2905

if (mm_flags & AV_CPU_FLAG_SSSE3) {

2906

#if HAVE_YASM

2907

if (mm_flags & AV_CPU_FLAG_ATOM) {

2908

c->apply_window_int16 = ff_apply_window_int16_ssse3_atom;

2909

} else {

2910

c->apply_window_int16 = ff_apply_window_int16_ssse3;

2911

}

2912

if (!(mm_flags & (AV_CPU_FLAG_SSE42|AV_CPU_FLAG_3DNOW))) { // cachesplit

2913

c->scalarproduct_and_madd_int16 = ff_scalarproduct_and_madd_int16_ssse3;

2914

}

2915

#endif

2916

}

2917

2918

if (mm_flags & AV_CPU_FLAG_SSE4 && HAVE_SSE) {

2919

#if HAVE_YASM

2920

c->vector_clip_int32 = ff_vector_clip_int32_sse4;

2921

#endif

2922

}

2923

2924

#if HAVE_AVX && HAVE_YASM

2925

if (mm_flags & AV_CPU_FLAG_AVX) {

2926

if (bit_depth == 10) {

2927

//AVX implies !cache64.

2928

//TODO: Port cache(32|64) detection from x264.

2929

H264_QPEL_FUNCS_10(1, 0, sse2)

2930

H264_QPEL_FUNCS_10(2, 0, sse2)

2931

H264_QPEL_FUNCS_10(3, 0, sse2)

2932

2933

if (CONFIG_H264CHROMA) {

2934

c->put_h264_chroma_pixels_tab[0] = ff_put_h264_chroma_mc8_10_avx;

2935

c->avg_h264_chroma_pixels_tab[0] = ff_avg_h264_chroma_mc8_10_avx;

2936

}

2937

}

2938

c->butterflies_float_interleave = ff_butterflies_float_interleave_avx;

2939

}

2940

#endif

2941

}

2540

dsputil_init_sse2(c, avctx, mm_flags);

2541

2542

if (mm_flags & AV_CPU_FLAG_SSSE3)

2543

dsputil_init_ssse3(c, avctx, mm_flags);

2544

2545

if (mm_flags & AV_CPU_FLAG_SSE4)

2546

dsputil_init_sse4(c, avctx, mm_flags);

2547

2548

if (mm_flags & AV_CPU_FLAG_AVX)

2549

dsputil_init_avx(c, avctx, mm_flags);

2942

2550

2943

2551

if (CONFIG_ENCODERS)

2944

dsputilenc_init_mmx(c, avctx);

2552

ff_dsputilenc_init_mmx(c, avctx);

2945

2553

}

Older »