~ubuntu-branches/ubuntu/lucid/x264/lucid

« back to all changes in this revision

Viewing changes to common/amd64/mc-a.asm

Committer: Bazaar Package Importer
Author(s): Sebastian Dröge
Date: 2006-07-23 22:04:45 UTC
mfrom: (1.1.1 upstream)
Revision ID: james.westby@ubuntu.com-20060723220445-rnfagmy4mmqv5ihq

Tags: 1:0.cvs20060720-0.0ubuntu1

* Sync with Marillat:
+ Change Maintainer field to Ubuntu MOTU Media team

files added:
build/win32/x264.sln

common/i386/predict-c.c

config.mak

doc/regression_test.txt

gtk/Makefile

gtk/config.mak

gtk/fr.po

gtk/test.c

gtk/x264.ico

gtk/x264.png

gtk/x264_gtk.c

gtk/x264_gtk.h

gtk/x264_gtk_bitrate.c

gtk/x264_gtk_bitrate.h

gtk/x264_gtk_cqm.c

gtk/x264_gtk_cqm.h

gtk/x264_gtk_demuxers.h

gtk/x264_gtk_encode.c

gtk/x264_gtk_encode_encode.c

gtk/x264_gtk_encode_encode.h

gtk/x264_gtk_encode_main_window.c

gtk/x264_gtk_encode_main_window.h

gtk/x264_gtk_encode_private.h

gtk/x264_gtk_encode_status_window.c

gtk/x264_gtk_encode_status_window.h

gtk/x264_gtk_enum.h

gtk/x264_gtk_i18n.h

gtk/x264_gtk_mb.c

gtk/x264_gtk_mb.h

gtk/x264_gtk_more.c

gtk/x264_gtk_more.h

gtk/x264_gtk_private.h

gtk/x264_gtk_rc.c

gtk/x264_gtk_rc.h

gtk/x264gtk.rc

muxers.c

muxers.h

files removed:
TODO

common/amd64/predict.c

common/i386/dct-c.c

common/i386/predict.c

files modified:
AUTHORS

Makefile

build/win32/libx264.dsp

build/win32/libx264.vcproj

build/win32/x264.dsp

build/win32/x264.vcproj

common/amd64/amd64inc.asm

common/amd64/dct-a.asm

common/amd64/mc-a.asm

common/amd64/mc-a2.asm

common/amd64/pixel-a.asm

common/amd64/pixel-sse2.asm

common/amd64/predict-a.asm

common/amd64/quant-a.asm

common/cabac.c

common/common.c

common/common.h

common/dct.c

common/dct.h

common/frame.c

common/frame.h

common/i386/dct-a.asm

common/i386/dct.h

common/i386/deblock-a.asm

common/i386/i386inc.asm

common/i386/mc-a.asm

common/i386/mc-a2.asm

common/i386/mc-c.c

common/i386/pixel-a.asm

common/i386/pixel-sse2.asm

common/i386/pixel.h

common/i386/predict-a.asm

common/i386/predict.h

common/i386/quant-a.asm

common/macroblock.c

common/macroblock.h

common/mc.c

common/mc.h

common/pixel.c

common/pixel.h

common/ppc/dct.c

common/ppc/dct.h

common/ppc/mc.c

common/ppc/pixel.c

common/predict.c

common/predict.h

common/quant.c

configure

debian/changelog

debian/control

debian/rules

encoder/analyse.c

encoder/cabac.c

encoder/cavlc.c

encoder/encoder.c

encoder/macroblock.c

encoder/macroblock.h

encoder/me.c

encoder/me.h

encoder/ratecontrol.c

encoder/ratecontrol.h

encoder/rdo.c

encoder/set.c

encoder/slicetype_decision.c

tools/checkasm.c

vfw/codec.c

vfw/config.c

vfw/installer/x264-conf.nsi

vfw/resource.h

vfw/resource.rc

vfw/x264vfw.h

x264.c

x264.h

Show diffs side-by-side

added added

removed removed

common/amd64/mc-a.asm

cglobal x264_pixel_avg_weight_w8_mmxext

cglobal x264_pixel_avg_weight_w16_mmxext

cglobal x264_mc_copy_w4_mmxext

cglobal x264_mc_copy_w8_mmxext

cglobal x264_mc_copy_w16_mmxext

cglobal x264_mc_copy_w4_mmx

cglobal x264_mc_copy_w8_mmx

cglobal x264_mc_copy_w16_mmx

cglobal x264_mc_copy_w16_sse2

cglobal x264_mc_chroma_mmxext

288

289

ALIGN 16

290

;-----------------------------------------------------------------------------

291

; void x264_mc_copy_w4_mmxext( uint8_t *src, int i_src_stride,

292

; uint8_t *dst, int i_dst_stride, int i_height )

291

; void x264_mc_copy_w4_mmx( uint8_t *dst, int i_dst_stride,

292

; uint8_t *src, int i_src_stride, int i_height )

293

;-----------------------------------------------------------------------------

294

x264_mc_copy_w4_mmxext:

294

x264_mc_copy_w4_mmx:

295

mov eax, parm5d ; i_height

296

297

ALIGN 4

298

.height_loop

299

mov r10d, [parm1q]

300

mov r11d, [parm1q+parm2q]

301

mov [parm3q], r10d

302

mov [parm3q+parm4q], r11d

299

mov r10d, [parm3q]

300

mov r11d, [parm3q+parm4q]

301

mov [parm1q], r10d

302

mov [parm1q+parm2q], r11d

303

lea parm3q, [parm3q+parm4q*2]

303

304

lea parm1q, [parm1q+parm2q*2]

304

lea parm3q, [parm3q+parm4q*2]

305

dec eax

306

dec eax

307

jne .height_loop

310

311

ALIGN 16

312

;-----------------------------------------------------------------------------

313

; void x264_mc_copy_w8_mmxext( uint8_t *src, int i_src_stride,

314

; uint8_t *dst, int i_dst_stride, int i_height )

315

;-----------------------------------------------------------------------------

316

x264_mc_copy_w8_mmxext:

317

mov eax, parm5d ; i_height

318

319

lea r10, [parm2q+parm2q*2] ; 3 * i_src_stride

320

lea r11, [parm4q+parm4q*2] ; 3 * i_dst_stride

321

322

ALIGN 4

323

.height_loop

324

movq mm0, [parm1q]

325

movq mm1, [parm1q+parm2q]

326

movq mm2, [parm1q+parm2q*2]

327

movq mm3, [parm1q+r10]

328

movq [parm3q], mm0

329

movq [parm3q+parm4q], mm1

330

movq [parm3q+parm4q*2], mm2

331

movq [parm3q+r11], mm3

332

lea parm1q, [parm1q+parm2q*4]

333

lea parm3q, [parm3q+parm4q*4]

334

335

sub eax, byte 4

336

jnz .height_loop

337

338

ret

339

340

ALIGN 16

341

;-----------------------------------------------------------------------------

342

; void x264_mc_copy_w16_mmxext( uint8_t *src, int i_src_stride,

343

; uint8_t *dst, int i_dst_stride, int i_height )

344

;-----------------------------------------------------------------------------

345

x264_mc_copy_w16_mmxext:

346

mov eax, parm5d ; i_height

347

348

lea r10, [parm2q+parm2q*2] ; 3 * i_src_stride

349

lea r11, [parm4q+parm4q*2] ; 3 * i_dst_stride

350

351

ALIGN 4

352

.height_loop

353

movq mm0, [parm1q]

354

movq mm1, [parm1q+8]

355

movq mm2, [parm1q+parm2q]

356

movq mm3, [parm1q+parm2q+8]

357

movq mm4, [parm1q+parm2q*2]

358

movq mm5, [parm1q+parm2q*2+8]

359

movq mm6, [parm1q+r10]

360

movq mm7, [parm1q+r10+8]

361

movq [parm3q], mm0

362

movq [parm3q+8], mm1

363

movq [parm3q+parm4q], mm2

364

movq [parm3q+parm4q+8], mm3

365

movq [parm3q+parm4q*2], mm4

366

movq [parm3q+parm4q*2+8], mm5

367

movq [parm3q+r11], mm6

368

movq [parm3q+r11+8], mm7

369

lea parm1q, [parm1q+parm2q*4]

370

lea parm3q, [parm3q+parm4q*4]

371

sub eax, byte 4

372

jnz .height_loop

373

374

ret

375

376

377

ALIGN 16

378

;-----------------------------------------------------------------------------

379

; void x264_mc_copy_w16_sse2( uint8_t *src, int i_src_stride, uint8_t *dst, int i_dst_stride, int i_height )

313

; void x264_mc_copy_w8_mmx( uint8_t *dst, int i_dst_stride,

314

; uint8_t *src, int i_src_stride, int i_height )

315

;-----------------------------------------------------------------------------

316

x264_mc_copy_w8_mmx:

317

mov eax, parm5d ; i_height

318

319

lea r10, [parm4q+parm4q*2] ; 3 * i_src_stride

320

lea r11, [parm2q+parm2q*2] ; 3 * i_dst_stride

321

322

ALIGN 4

323

.height_loop

324

movq mm0, [parm3q]

325

movq mm1, [parm3q+parm4q]

326

movq mm2, [parm3q+parm4q*2]

327

movq mm3, [parm3q+r10]

328

movq [parm1q], mm0

329

movq [parm1q+parm2q], mm1

330

movq [parm1q+parm2q*2], mm2

331

movq [parm1q+r11], mm3

332

lea parm3q, [parm3q+parm4q*4]

333

lea parm1q, [parm1q+parm2q*4]

334

335

sub eax, byte 4

336

jnz .height_loop

337

338

ret

339

340

ALIGN 16

341

;-----------------------------------------------------------------------------

342

; void x264_mc_copy_w16_mmx( uint8_t *dst, int i_dst_stride,

343

; uint8_t *src, int i_src_stride, int i_height )

344

;-----------------------------------------------------------------------------

345

x264_mc_copy_w16_mmx:

346

mov eax, parm5d ; i_height

347

348

lea r10, [parm4q+parm4q*2] ; 3 * i_src_stride

349

lea r11, [parm2q+parm2q*2] ; 3 * i_dst_stride

350

351

ALIGN 4

352

.height_loop

353

movq mm0, [parm3q]

354

movq mm1, [parm3q+8]

355

movq mm2, [parm3q+parm4q]

356

movq mm3, [parm3q+parm4q+8]

357

movq mm4, [parm3q+parm4q*2]

358

movq mm5, [parm3q+parm4q*2+8]

359

movq mm6, [parm3q+r10]

360

movq mm7, [parm3q+r10+8]

361

movq [parm1q], mm0

362

movq [parm1q+8], mm1

363

movq [parm1q+parm2q], mm2

364

movq [parm1q+parm2q+8], mm3

365

movq [parm1q+parm2q*2], mm4

366

movq [parm1q+parm2q*2+8], mm5

367

movq [parm1q+r11], mm6

368

movq [parm1q+r11+8], mm7

369

lea parm3q, [parm3q+parm4q*4]

370

lea parm1q, [parm1q+parm2q*4]

371

sub eax, byte 4

372

jnz .height_loop

373

374

ret

375

376

377

ALIGN 16

378

;-----------------------------------------------------------------------------

379

; void x264_mc_copy_w16_sse2( uint8_t *dst, int i_dst_stride, uint8_t *src, int i_src_stride, int i_height )

380

;-----------------------------------------------------------------------------

381

x264_mc_copy_w16_sse2:

382

mov eax, parm5d ; i_height

383

384

ALIGN 4

385

.height_loop

386

movdqu xmm0, [parm1q]

387

movdqu xmm1, [parm1q+parm2q]

388

movdqu [parm3q], xmm0

389

movdqu [parm3q+parm4q], xmm1

390

dec eax

391

dec eax

386

movdqu xmm0, [parm3q]

387

movdqu xmm1, [parm3q+parm4q]

388

movdqu [parm1q], xmm0

389

movdqu [parm1q+parm2q], xmm1

390

dec eax

391

dec eax

392

lea parm3q, [parm3q+parm4q*2]

392

393

lea parm1q, [parm1q+parm2q*2]

393

lea parm3q, [parm3q+parm4q*2]

394

jnz .height_loop

395

396

ret

410

;-----------------------------------------------------------------------------

411

412

x264_mc_chroma_mmxext:

413

mov r10d, parm6d

414

mov r11d, parm5d

415

sar r10d, 3

416

sar r11d, 3

417

imul r10d, parm2d

418

pxor mm3, mm3

419

add r10d, r11d

420

movsxd r10, r10d

421

add parm1q, r10 ; src += (dx>>3) + (dy>>3) * src_stride

422

and parm5d, 7 ; dx &= 7

423

je .mc1d

424

and parm6d, 7 ; dy &= 7

425

je .mc1d

426

413

427

movd mm0, parm5d

414

428

movd mm1, parm6d

415

429

416

pxor mm3, mm3

417

418

pshufw mm5, mm0, 0 ; mm5 - dx

419

pshufw mm6, mm1, 0 ; mm6 - dy

430

pshufw mm5, mm0, 0 ; mm5 = dx

431

pshufw mm6, mm1, 0 ; mm6 = dy

420

432

421

433

movq mm4, [pw_8 GLOBAL]

422

434

movq mm0, mm4

423

435

424

psubw mm4, mm5 ; mm4 - 8-dx

425

psubw mm0, mm6 ; mm0 - 8-dy

436

psubw mm4, mm5 ; mm4 = 8-dx

437

psubw mm0, mm6 ; mm0 = 8-dy

426

438

427

439

movq mm7, mm5

428

440

pmullw mm5, mm0 ; mm5 = dx*(8-dy) = cB

457

469

pmullw mm1, mm7 ; line * cD

458

470

paddw mm0, mm2

459

471

paddw mm0, mm1

460

461

472

psrlw mm0, 6

473

474

%macro HEIGHT_LOOP_END 1

462

475

packuswb mm0, mm3 ; 00 00 00 00 px1 px2 px3 px4

463

476

movd [r10], mm0

464

477

466

479

add r10, parm4q ; i_dst_stride

467

480

468

481

dec r11d

469

jnz .height_loop

482

jnz %1

470

483

471

484

sub parm7d, 8

472

485

jnz .finish ; width != 8 so assume 4

476

489

mov r11d, parm8d ; i_height

477

490

add r10, 4

478

491

add rax, 4

479

jmp .height_loop

492

jmp %1

493

%endmacro

494

HEIGHT_LOOP_END .height_loop

480

495

481

496

.finish

482

497

ret

498

499

ALIGN 4

500

.mc1d

501

%ifdef WIN64

502

%define pel_offset rsi

503

%else

504

%define pel_offset r9

505

%endif

506

mov eax, parm5d

507

or eax, parm6d

508

and eax, 7

509

cmp parm5d, 0

510

mov pel_offset, 1

511

cmove pel_offset, parm2q ; pel_offset = dx ? 1 : src_stride

512

movd mm6, eax

513

movq mm5, [pw_8 GLOBAL]

514

pshufw mm6, mm6, 0

515

movq mm7, [pw_4 GLOBAL]

516

psubw mm5, mm6

517

518

mov rax, parm1q

519

mov r10, parm3q

520

mov r11d, parm8d

521

ALIGN 4

522

.height_loop1

523

movd mm0, [rax+pel_offset]

524

movd mm1, [rax]

525

punpcklbw mm0, mm3

526

punpcklbw mm1, mm3

527

pmullw mm0, mm6

528

pmullw mm1, mm5

529

paddw mm0, mm7

530

paddw mm0, mm1

531

psrlw mm0, 3

532

HEIGHT_LOOP_END .height_loop1

533

nop

Older »