~ubuntu-branches/ubuntu/jaunty/xvidcap/jaunty-proposed

Viewing changes to ffmpeg/libavcodec/i386/dsputil_mmx.c

Committer: Bazaar Package Importer
Author(s): John Dong
Date: 2008-02-25 15:47:12 UTC
mfrom: (1.1.1 upstream)
Revision ID: james.westby@ubuntu.com-20080225154712-qvr11ekcea4c9ry8

Tags: 1.1.6-0.1ubuntu1

https://launchpad.net/bugs/120003

* Merge from debian-multimedia (LP: #120003), Ubuntu Changes:
- For ffmpeg-related build-deps, remove cvs from package names.
- Standards-Version 3.7.3
- Maintainer Spec

files added:
TODO.tasks

autogen.sh

config.guess

config.sub

configure.in

debian/patches/01_xterm.dpatch

debian/watch

doc/Makefile.am

doc/Makefile.in

doc/man

doc/man/C

doc/man/C/Makefile.am

doc/man/C/Makefile.in

doc/man/C/xvidcap.1

doc/man/C/xvidcap.1.xml

doc/man/C/xvidcap.1.xml.pot

doc/man/Makefile.am

doc/man/Makefile.in

doc/man/de

doc/man/de/Makefile.am

doc/man/de/Makefile.in

doc/man/de/xvidcap.1

doc/man/de/xvidcap.1-de.po

doc/man/de/xvidcap.1.xml

doc/man/es

doc/man/es/Makefile.am

doc/man/es/Makefile.in

doc/man/es/xvidcap.1

doc/man/es/xvidcap.1.xml

doc/man/it

doc/man/it/Makefile.am

doc/man/it/Makefile.in

doc/man/it/xvidcap.1

doc/man/it/xvidcap.1-it.po

doc/man/it/xvidcap.1.xml

doc/man/man.make

doc/omf.make

doc/xmldocs.make

doc/xvidcap

doc/xvidcap/C

doc/xvidcap/C/Makefile.am

doc/xvidcap/C/Makefile.in

doc/xvidcap/C/figures

doc/xvidcap/C/figures/back-button.png

doc/xvidcap/C/figures/edit-button.png

doc/xvidcap/C/figures/filename-button.png

doc/xvidcap/C/figures/frame-drop-meter.png

doc/xvidcap/C/figures/fwd-button.png

doc/xvidcap/C/figures/lock-toggle.png

doc/xvidcap/C/figures/menu-about.png

doc/xvidcap/C/figures/menu-animate.png

doc/xvidcap/C/figures/menu-cont.png

doc/xvidcap/C/figures/menu-help.png

doc/xvidcap/C/figures/menu-make-video.png

doc/xvidcap/C/figures/menu-mf.png

doc/xvidcap/C/figures/menu-prefs.png

doc/xvidcap/C/figures/menu-quit.png

doc/xvidcap/C/figures/menu-save-prefs.png

doc/xvidcap/C/figures/menu-sf.png

doc/xvidcap/C/figures/menu.png

doc/xvidcap/C/figures/pause-toggle.png

doc/xvidcap/C/figures/prefs-commands.png

doc/xvidcap/C/figures/prefs-general.png

doc/xvidcap/C/figures/prefs-mf.png

doc/xvidcap/C/figures/prefs-sf.png

doc/xvidcap/C/figures/record-toggle.png

doc/xvidcap/C/figures/results-dialog-ask.png

doc/xvidcap/C/figures/results-dialog.png

doc/xvidcap/C/figures/selector-button.png

doc/xvidcap/C/figures/step-button.png

doc/xvidcap/C/figures/stop-toggle.png

doc/xvidcap/C/figures/xvidcap-main-ctrl.png

doc/xvidcap/C/figures/xvidcap-warning.png

doc/xvidcap/C/xvidcap-C.omf

doc/xvidcap/C/xvidcap.xml

doc/xvidcap/Makefile.am

doc/xvidcap/Makefile.in

doc/xvidcap/de

doc/xvidcap/de/Makefile.am

doc/xvidcap/de/Makefile.in

doc/xvidcap/de/figures

doc/xvidcap/de/figures/back-button.png

doc/xvidcap/de/figures/edit-button.png

doc/xvidcap/de/figures/filename-button.png

doc/xvidcap/de/figures/frame-drop-meter.png

doc/xvidcap/de/figures/fwd-button.png

doc/xvidcap/de/figures/lock-toggle.png

doc/xvidcap/de/figures/menu-about.png

doc/xvidcap/de/figures/menu-animate.png

doc/xvidcap/de/figures/menu-cont.png

doc/xvidcap/de/figures/menu-help.png

doc/xvidcap/de/figures/menu-make-video.png

doc/xvidcap/de/figures/menu-mf.png

doc/xvidcap/de/figures/menu-prefs.png

doc/xvidcap/de/figures/menu-quit.png

doc/xvidcap/de/figures/menu-save-prefs.png

doc/xvidcap/de/figures/menu-sf.png

doc/xvidcap/de/figures/menu.png

doc/xvidcap/de/figures/pause-toggle.png

doc/xvidcap/de/figures/prefs-commands.png

doc/xvidcap/de/figures/prefs-general.png

doc/xvidcap/de/figures/prefs-mf.png

doc/xvidcap/de/figures/prefs-sf.png

doc/xvidcap/de/figures/record-toggle.png

doc/xvidcap/de/figures/results-dialog-ask.png

doc/xvidcap/de/figures/results-dialog.png

doc/xvidcap/de/figures/selector-button.png

doc/xvidcap/de/figures/step-button.png

doc/xvidcap/de/figures/stop-toggle.png

doc/xvidcap/de/figures/xvidcap-main-ctrl.png

doc/xvidcap/de/figures/xvidcap-warning.png

doc/xvidcap/de/xvidcap-de.omf

doc/xvidcap/de/xvidcap.xml

doc/xvidcap/es

doc/xvidcap/es/Makefile.am

doc/xvidcap/es/Makefile.in

doc/xvidcap/es/figures

doc/xvidcap/es/figures/back-button.png

doc/xvidcap/es/figures/edit-button.png

doc/xvidcap/es/figures/filename-button.png

doc/xvidcap/es/figures/frame-drop-meter.png

doc/xvidcap/es/figures/fwd-button.png

doc/xvidcap/es/figures/lock-toggle.png

doc/xvidcap/es/figures/menu-about.png

doc/xvidcap/es/figures/menu-animate.png

doc/xvidcap/es/figures/menu-cont.png

doc/xvidcap/es/figures/menu-help.png

doc/xvidcap/es/figures/menu-make-video.png

doc/xvidcap/es/figures/menu-mf.png

doc/xvidcap/es/figures/menu-prefs.png

doc/xvidcap/es/figures/menu-quit.png

doc/xvidcap/es/figures/menu-save-prefs.png

doc/xvidcap/es/figures/menu-sf.png

doc/xvidcap/es/figures/menu.png

doc/xvidcap/es/figures/pause-toggle.png

doc/xvidcap/es/figures/prefs-commands.png

doc/xvidcap/es/figures/prefs-general.png

doc/xvidcap/es/figures/prefs-mf.png

doc/xvidcap/es/figures/prefs-sf.png

doc/xvidcap/es/figures/record-toggle.png

doc/xvidcap/es/figures/results-dialog-ask.png

doc/xvidcap/es/figures/results-dialog.png

doc/xvidcap/es/figures/selector-button.png

doc/xvidcap/es/figures/step-button.png

doc/xvidcap/es/figures/stop-toggle.png

doc/xvidcap/es/figures/xvidcap-main-ctrl.png

doc/xvidcap/es/figures/xvidcap-warning.png

doc/xvidcap/es/xvidcap-es.omf

doc/xvidcap/es/xvidcap.xml

doc/xvidcap/it

doc/xvidcap/it/Makefile.am

doc/xvidcap/it/Makefile.in

doc/xvidcap/it/figures

doc/xvidcap/it/figures/back-button.png

doc/xvidcap/it/figures/edit-button.png

doc/xvidcap/it/figures/filename-button.png

doc/xvidcap/it/figures/frame-drop-meter.png

doc/xvidcap/it/figures/fwd-button.png

doc/xvidcap/it/figures/lock-toggle.png

doc/xvidcap/it/figures/menu-about.png

doc/xvidcap/it/figures/menu-animate.png

doc/xvidcap/it/figures/menu-cont.png

doc/xvidcap/it/figures/menu-help.png

doc/xvidcap/it/figures/menu-make-video.png

doc/xvidcap/it/figures/menu-mf.png

doc/xvidcap/it/figures/menu-prefs.png

doc/xvidcap/it/figures/menu-quit.png

doc/xvidcap/it/figures/menu-save-prefs.png

doc/xvidcap/it/figures/menu-sf.png

doc/xvidcap/it/figures/menu.png

doc/xvidcap/it/figures/pause-toggle.png

doc/xvidcap/it/figures/prefs-commands.png

doc/xvidcap/it/figures/prefs-general.png

doc/xvidcap/it/figures/prefs-mf.png

doc/xvidcap/it/figures/prefs-sf.png

doc/xvidcap/it/figures/record-toggle.png

doc/xvidcap/it/figures/results-dialog-ask.png

doc/xvidcap/it/figures/results-dialog.png

doc/xvidcap/it/figures/selector-button.png

doc/xvidcap/it/figures/step-button.png

doc/xvidcap/it/figures/stop-toggle.png

doc/xvidcap/it/figures/xvidcap-ctrl.png

doc/xvidcap/it/figures/xvidcap-main-ctrl.png

doc/xvidcap/it/figures/xvidcap-warning.png

doc/xvidcap/it/xvidcap-it.omf

doc/xvidcap/it/xvidcap.xml

ffmpeg/Doxyfile

ffmpeg/MAINTAINERS

ffmpeg/avcodec.h

ffmpeg/avformat.h

ffmpeg/avio.h

ffmpeg/avutil.h

ffmpeg/build_avopt

ffmpeg/clean-diff

ffmpeg/common.h

ffmpeg/common.mak

ffmpeg/cws2fws.c

ffmpeg/doc/avutil.txt

ffmpeg/doc/snow.txt

ffmpeg/doc/soc.txt

ffmpeg/dsputil.h

ffmpeg/fifo.h

ffmpeg/integer.h

ffmpeg/intfloat_readwrite.h

ffmpeg/libavcodec/8bps.c

ffmpeg/libavcodec/aasc.c

ffmpeg/libavcodec/adx.c

ffmpeg/libavcodec/alac.c

ffmpeg/libavcodec/armv4l/dsputil_arm_s.S

ffmpeg/libavcodec/armv4l/dsputil_iwmmxt.c

ffmpeg/libavcodec/armv4l/dsputil_iwmmxt_rnd.h

ffmpeg/libavcodec/armv4l/mathops.h

ffmpeg/libavcodec/armv4l/mpegvideo_armv5te.c

ffmpeg/libavcodec/armv4l/mpegvideo_iwmmxt.c

ffmpeg/libavcodec/armv4l/simple_idct_armv5te.S

ffmpeg/libavcodec/armv4l/simple_idct_armv6.S

ffmpeg/libavcodec/audioconvert.c

ffmpeg/libavcodec/avs.c

ffmpeg/libavcodec/beosthread.c

ffmpeg/libavcodec/bfin

ffmpeg/libavcodec/bfin/dsputil_bfin.c

ffmpeg/libavcodec/bitstream.c

ffmpeg/libavcodec/bitstream.h

ffmpeg/libavcodec/bitstream_filter.c

ffmpeg/libavcodec/bmp.c

ffmpeg/libavcodec/bmp.h

ffmpeg/libavcodec/bmpenc.c

ffmpeg/libavcodec/bytestream.h

ffmpeg/libavcodec/cavs.c

ffmpeg/libavcodec/cavsdata.h

ffmpeg/libavcodec/cavsdsp.c

ffmpeg/libavcodec/cinepak.c

ffmpeg/libavcodec/cook.c

ffmpeg/libavcodec/cookdata.h

ffmpeg/libavcodec/cscd.c

ffmpeg/libavcodec/dca.c

ffmpeg/libavcodec/dcadata.h

ffmpeg/libavcodec/dcahuff.h

ffmpeg/libavcodec/dsicinav.c

ffmpeg/libavcodec/dtsdec.c

ffmpeg/libavcodec/dvbsub.c

ffmpeg/libavcodec/dvbsubdec.c

ffmpeg/libavcodec/dvdsubdec.c

ffmpeg/libavcodec/dvdsubenc.c

ffmpeg/libavcodec/eval.h

ffmpeg/libavcodec/faac.c

ffmpeg/libavcodec/faandct.c

ffmpeg/libavcodec/faandct.h

ffmpeg/libavcodec/flac.c

ffmpeg/libavcodec/flacenc.c

ffmpeg/libavcodec/flashsv.c

ffmpeg/libavcodec/flashsvenc.c

ffmpeg/libavcodec/flicvideo.c

ffmpeg/libavcodec/fraps.c

ffmpeg/libavcodec/g726.c

ffmpeg/libavcodec/gif.c

ffmpeg/libavcodec/gifdec.c

ffmpeg/libavcodec/h261.c

ffmpeg/libavcodec/h261data.h

ffmpeg/libavcodec/h264dsp.c

ffmpeg/libavcodec/h264enc.c

ffmpeg/libavcodec/h264idct.c

ffmpeg/libavcodec/i386/cavsdsp_mmx.c

ffmpeg/libavcodec/i386/dsputil_h264_template_mmx.c

ffmpeg/libavcodec/i386/fft_3dn.c

ffmpeg/libavcodec/i386/fft_3dn2.c

ffmpeg/libavcodec/i386/h264dsp_mmx.c

ffmpeg/libavcodec/i386/idct_mmx_xvid.c

ffmpeg/libavcodec/i386/mathops.h

ffmpeg/libavcodec/i386/snowdsp_mmx.c

ffmpeg/libavcodec/i386/vp3dsp_mmx.c

ffmpeg/libavcodec/i386/vp3dsp_sse2.c

ffmpeg/libavcodec/idcinvideo.c

ffmpeg/libavcodec/imc.c

ffmpeg/libavcodec/imcdata.h

ffmpeg/libavcodec/indeo2.c

ffmpeg/libavcodec/indeo2data.h

ffmpeg/libavcodec/jpeg_ls.c

ffmpeg/libavcodec/kmvc.c

ffmpeg/libavcodec/lcl.c

ffmpeg/libavcodec/libgsm.c

ffmpeg/libavcodec/libtheoraenc.c

ffmpeg/libavcodec/loco.c

ffmpeg/libavcodec/lzw.c

ffmpeg/libavcodec/lzw.h

ffmpeg/libavcodec/mathops.h

ffmpeg/libavcodec/mmvideo.c

ffmpeg/libavcodec/mpc.c

ffmpeg/libavcodec/mpcdata.h

ffmpeg/libavcodec/msrle.c

ffmpeg/libavcodec/msvideo1.c

ffmpeg/libavcodec/nuv.c

ffmpeg/libavcodec/opt.c

ffmpeg/libavcodec/opt.h

ffmpeg/libavcodec/os2thread.c

ffmpeg/libavcodec/parser.c

ffmpeg/libavcodec/parser.h

ffmpeg/libavcodec/png.c

ffmpeg/libavcodec/pnm.c

ffmpeg/libavcodec/ppc/fdct_altivec.c

ffmpeg/libavcodec/ppc/float_altivec.c

ffmpeg/libavcodec/ppc/h264_altivec.c

ffmpeg/libavcodec/ppc/h264_template_altivec.c

ffmpeg/libavcodec/ppc/mathops.h

ffmpeg/libavcodec/ppc/snow_altivec.c

ffmpeg/libavcodec/ppc/types_altivec.h

ffmpeg/libavcodec/ppc/vc1dsp_altivec.c

ffmpeg/libavcodec/pthread.c

ffmpeg/libavcodec/qdm2.c

ffmpeg/libavcodec/qdm2data.h

ffmpeg/libavcodec/qdrw.c

ffmpeg/libavcodec/qpeg.c

ffmpeg/libavcodec/qtrle.c

ffmpeg/libavcodec/rangecoder.c

ffmpeg/libavcodec/rangecoder.h

ffmpeg/libavcodec/ratecontrol.h

ffmpeg/libavcodec/resample2.c

ffmpeg/libavcodec/rpza.c

ffmpeg/libavcodec/rtjpeg.c

ffmpeg/libavcodec/rtjpeg.h

ffmpeg/libavcodec/sedlKOs8K

ffmpeg/libavcodec/shorten.c

ffmpeg/libavcodec/smacker.c

ffmpeg/libavcodec/smc.c

ffmpeg/libavcodec/snow.c

ffmpeg/libavcodec/snow.h

ffmpeg/libavcodec/sonic.c

ffmpeg/libavcodec/sp5x.h

ffmpeg/libavcodec/sparc

ffmpeg/libavcodec/sparc/dsputil_vis.c

ffmpeg/libavcodec/sparc/vis.h

ffmpeg/libavcodec/targa.c

ffmpeg/libavcodec/tiertexseqv.c

ffmpeg/libavcodec/tiff.c

ffmpeg/libavcodec/truemotion1.c

ffmpeg/libavcodec/truemotion1data.h

ffmpeg/libavcodec/truemotion2.c

ffmpeg/libavcodec/truespeech.c

ffmpeg/libavcodec/truespeech_data.h

ffmpeg/libavcodec/tscc.c

ffmpeg/libavcodec/tta.c

ffmpeg/libavcodec/ulti.c

ffmpeg/libavcodec/ulti_cb.h

ffmpeg/libavcodec/vc1.c

ffmpeg/libavcodec/vc1acdata.h

ffmpeg/libavcodec/vc1data.h

ffmpeg/libavcodec/vc1dsp.c

ffmpeg/libavcodec/vmdav.c

ffmpeg/libavcodec/vmnc.c

ffmpeg/libavcodec/vorbis.c

ffmpeg/libavcodec/vorbis.h

ffmpeg/libavcodec/vorbis_data.c

ffmpeg/libavcodec/vorbis_enc.c

ffmpeg/libavcodec/vorbis_enc_data.h

ffmpeg/libavcodec/vp3dsp.c

ffmpeg/libavcodec/vp5.c

ffmpeg/libavcodec/vp56.c

ffmpeg/libavcodec/vp56.h

ffmpeg/libavcodec/vp56data.c

ffmpeg/libavcodec/vp56data.h

ffmpeg/libavcodec/vp5data.h

ffmpeg/libavcodec/vp6.c

ffmpeg/libavcodec/vp6data.h

ffmpeg/libavcodec/vqavideo.c

ffmpeg/libavcodec/w32thread.c

ffmpeg/libavcodec/wavpack.c

ffmpeg/libavcodec/wma.c

ffmpeg/libavcodec/wma.h

ffmpeg/libavcodec/wmaenc.c

ffmpeg/libavcodec/wnv1.c

ffmpeg/libavcodec/ws-snd1.c

ffmpeg/libavcodec/x264.c

ffmpeg/libavcodec/xl.c

ffmpeg/libavcodec/xvid_internal.h

ffmpeg/libavcodec/xvid_rc.c

ffmpeg/libavcodec/xvidff.c

ffmpeg/libavcodec/xvmc_render.h

ffmpeg/libavcodec/zmbv.c

ffmpeg/libavcodec/zmbvenc.c

ffmpeg/libavformat/adtsenc.c

ffmpeg/libavformat/aiff.c

ffmpeg/libavformat/allformats.h

ffmpeg/libavformat/asf-enc.c

ffmpeg/libavformat/asf.h

ffmpeg/libavformat/avisynth.c

ffmpeg/libavformat/avs.c

ffmpeg/libavformat/daud.c

ffmpeg/libavformat/dc1394.c

ffmpeg/libavformat/dsicin.c

ffmpeg/libavformat/dv.h

ffmpeg/libavformat/dvenc.c

ffmpeg/libavformat/electronicarts.c

ffmpeg/libavformat/flic.c

ffmpeg/libavformat/flv.h

ffmpeg/libavformat/grab_bktr.c

ffmpeg/libavformat/gxf.c

ffmpeg/libavformat/gxf.h

ffmpeg/libavformat/gxfenc.c

ffmpeg/libavformat/idcin.c

ffmpeg/libavformat/img2.c

ffmpeg/libavformat/isom.c

ffmpeg/libavformat/isom.h

ffmpeg/libavformat/libnut.c

ffmpeg/libavformat/matroska.c

ffmpeg/libavformat/mm.c

ffmpeg/libavformat/mmf.c

ffmpeg/libavformat/mpc.c

ffmpeg/libavformat/mtv.c

ffmpeg/libavformat/mxf.c

ffmpeg/libavformat/network.h

ffmpeg/libavformat/nsvdec.c

ffmpeg/libavformat/nut.h

ffmpeg/libavformat/nutdec.c

ffmpeg/libavformat/nuv.c

ffmpeg/libavformat/ogg2.c

ffmpeg/libavformat/ogg2.h

ffmpeg/libavformat/oggparseflac.c

ffmpeg/libavformat/oggparseogm.c

ffmpeg/libavformat/oggparsetheora.c

ffmpeg/libavformat/oggparsevorbis.c

ffmpeg/libavformat/qtpalette.h

ffmpeg/libavformat/riff.c

ffmpeg/libavformat/riff.h

ffmpeg/libavformat/rtp_h264.c

ffmpeg/libavformat/rtp_h264.h

ffmpeg/libavformat/rtp_internal.h

ffmpeg/libavformat/segafilm.c

ffmpeg/libavformat/sierravmd.c

ffmpeg/libavformat/smacker.c

ffmpeg/libavformat/sol.c

ffmpeg/libavformat/tiertexseq.c

ffmpeg/libavformat/tta.c

ffmpeg/libavformat/v4l2.c

ffmpeg/libavformat/voc.c

ffmpeg/libavformat/voc.h

ffmpeg/libavformat/vocdec.c

ffmpeg/libavformat/vocenc.c

ffmpeg/libavformat/westwood.c

ffmpeg/libavformat/wv.c

ffmpeg/libavformat/x11grab.c

ffmpeg/libavutil

ffmpeg/libavutil/Makefile

ffmpeg/libavutil/adler32.c

ffmpeg/libavutil/adler32.h

ffmpeg/libavutil/aes.c

ffmpeg/libavutil/aes.h

ffmpeg/libavutil/avutil.h

ffmpeg/libavutil/base64.c

ffmpeg/libavutil/base64.h

ffmpeg/libavutil/bswap.h

ffmpeg/libavutil/common.h

ffmpeg/libavutil/crc.c

ffmpeg/libavutil/crc.h

ffmpeg/libavutil/fifo.c

ffmpeg/libavutil/fifo.h

ffmpeg/libavutil/integer.c

ffmpeg/libavutil/integer.h

ffmpeg/libavutil/internal.h

ffmpeg/libavutil/intfloat_readwrite.c

ffmpeg/libavutil/intfloat_readwrite.h

ffmpeg/libavutil/intreadwrite.h

ffmpeg/libavutil/lls.c

ffmpeg/libavutil/lls.h

ffmpeg/libavutil/log.c

ffmpeg/libavutil/log.h

ffmpeg/libavutil/lzo.c

ffmpeg/libavutil/lzo.h

ffmpeg/libavutil/mathematics.c

ffmpeg/libavutil/mathematics.h

ffmpeg/libavutil/md5.c

ffmpeg/libavutil/md5.h

ffmpeg/libavutil/mem.c

ffmpeg/libavutil/random.c

ffmpeg/libavutil/random.h

ffmpeg/libavutil/rational.c

ffmpeg/libavutil/rational.h

ffmpeg/libavutil/softfloat.c

ffmpeg/libavutil/softfloat.h

ffmpeg/libavutil/tree.c

ffmpeg/libavutil/tree.h

ffmpeg/libavutil/x86_cpu.h

ffmpeg/libpostproc

ffmpeg/libpostproc/Makefile

ffmpeg/libpostproc/mangle.h

ffmpeg/libpostproc/postprocess.c

ffmpeg/libpostproc/postprocess.h

ffmpeg/libpostproc/postprocess_altivec_template.c

ffmpeg/libpostproc/postprocess_internal.h

ffmpeg/libpostproc/postprocess_template.c

ffmpeg/libswscale

ffmpeg/libswscale/Makefile

ffmpeg/libswscale/cs_test.c

ffmpeg/libswscale/rgb2rgb.c

ffmpeg/libswscale/rgb2rgb.h

ffmpeg/libswscale/rgb2rgb_template.c

ffmpeg/libswscale/swscale-example.c

ffmpeg/libswscale/swscale.c

ffmpeg/libswscale/swscale.h

ffmpeg/libswscale/swscale_altivec_template.c

ffmpeg/libswscale/swscale_internal.h

ffmpeg/libswscale/swscale_template.c

ffmpeg/libswscale/yuv2rgb.c

ffmpeg/libswscale/yuv2rgb_altivec.c

ffmpeg/libswscale/yuv2rgb_init.c

ffmpeg/libswscale/yuv2rgb_mlib.c

ffmpeg/libswscale/yuv2rgb_template.c

ffmpeg/mathematics.h

ffmpeg/pktdumper.c

ffmpeg/qt-faststart.c

ffmpeg/rational.h

ffmpeg/rgb2rgb.h

ffmpeg/rtp.h

ffmpeg/rtp_h264.h

ffmpeg/rtp_internal.h

ffmpeg/rtsp.h

ffmpeg/rtspcodes.h

ffmpeg/swscale.h

ffmpeg/test.dv

ffmpeg/tests/seek_test.c

ffmpeg/tests/seek_test.sh

ffmpeg/unwrap-diff

ffmpeg/version.sh

ffmpeg/vhook/watermark.c

intltool-extract.in

intltool-merge.in

intltool-update.in

po/ChangeLog

po/Makefile.in.in

po/POTFILES.in

po/de.gmo

po/de.po

po/en.gmo

po/en.po

po/es.gmo

po/es.po

po/it.gmo

po/it.po

po/xvidcap.pot

ppm2mpeg.sh

src/app_data.c

src/codecs.c

src/eggtrayicon.c

src/eggtrayicon.h

src/gnome-xvidcap.glade

src/gnome_frame.c

src/gnome_frame.h

src/gnome_options.c

src/gnome_options.h

src/gnome_ui.c

src/gnome_ui.h

src/gnome_warning.c

src/gnome_warning.h

src/pixmaps

src/pixmaps/xvidcap_logo.png

src/xv_error_item.c

src/xv_error_item.h

src/xvidcap-intl.h

xvidcap.desktop

xvidcap.png

files removed:
TODO

Xw/Base.c

Xw/Base.h

Xw/BaseP.h

Xw/Box.c

Xw/Box.h

Xw/BoxP.h

Xw/Button.c

Xw/Button.h

Xw/ButtonP.h

Xw/Field.c

Xw/Field.h

Xw/FieldP.h

Xw/Label.c

Xw/Label.h

Xw/LabelP.h

Xw/Makefile.am

Xw/Makefile.in

Xw/README

Xw/RootIcon.c

Xw/RootIcon.h

Xw/RootIconP.h

Xw/Toggle.c

Xw/Toggle.h

Xw/ToggleP.h

Xw/simple.c

Xw/testxw.c

Xw/testxw.xbm

compile

configure.ac

debian/bts

debian/gvidcap.files

debian/patches/01_rxvt.dpatch

ffmpeg/.nbattrs

ffmpeg/berrno.h

ffmpeg/cygwin_inttypes.h

ffmpeg/doc/.nbattrs

ffmpeg/doc/faq.html

ffmpeg/doc/ffmpeg-doc.html

ffmpeg/doc/ffmpeg.1

ffmpeg/doc/ffplay-doc.html

ffmpeg/doc/ffplay.1

ffmpeg/doc/ffserver-doc.html

ffmpeg/doc/ffserver.1

ffmpeg/doc/hooks.html

ffmpeg/libavcodec/.nbattrs

ffmpeg/libavcodec/Doxyfile

ffmpeg/libavcodec/ac3dec.c

ffmpeg/libavcodec/avcodec.c

ffmpeg/libavcodec/bswap.h

ffmpeg/libavcodec/common.c

ffmpeg/libavcodec/common.h

ffmpeg/libavcodec/fastmemcpy.h

ffmpeg/libavcodec/liba52

ffmpeg/libavcodec/liba52/a52.h

ffmpeg/libavcodec/liba52/a52_internal.h

ffmpeg/libavcodec/liba52/a52_util.h

ffmpeg/libavcodec/liba52/bit_allocate.c

ffmpeg/libavcodec/liba52/bitstream.c

ffmpeg/libavcodec/liba52/bitstream.h

ffmpeg/libavcodec/liba52/crc.c

ffmpeg/libavcodec/liba52/downmix.c

ffmpeg/libavcodec/liba52/imdct.c

ffmpeg/libavcodec/liba52/mm_accel.h

ffmpeg/libavcodec/liba52/parse.c

ffmpeg/libavcodec/liba52/resample.c

ffmpeg/libavcodec/liba52/resample_c.c

ffmpeg/libavcodec/liba52/resample_mmx.c

ffmpeg/libavcodec/liba52/tables.h

ffmpeg/libavcodec/libpostproc

ffmpeg/libavcodec/libpostproc/.nbattrs

ffmpeg/libavcodec/libpostproc/Makefile

ffmpeg/libavcodec/libpostproc/mangle.h

ffmpeg/libavcodec/libpostproc/postprocess.c

ffmpeg/libavcodec/libpostproc/postprocess.h

ffmpeg/libavcodec/libpostproc/postprocess_internal.h

ffmpeg/libavcodec/libpostproc/postprocess_template.c

ffmpeg/libavcodec/mem.c

ffmpeg/libavcodec/oggvorbis.h

ffmpeg/libavcodec/opts.c

ffmpeg/libavformat/.nbattrs

ffmpeg/libavformat/barpainet.c

ffmpeg/libavformat/dvcore.c

ffmpeg/libavformat/dvcore.h

ffmpeg/libavformat/img.c

ffmpeg/libavformat/jpeg.c

ffmpeg/libavformat/png.c

ffmpeg/libavformat/pnm.c

ffmpeg/libavformat/yuv.c

ffmpeg/tests/.nbattrs

ffmpeg/vhook/.nbattrs

ffmpeg/xvmc_render.h

getopt

getopt/README

getopt/getopt.c

getopt/getopt.h

getopt/getopt1.c

gt/COPYING.LIB

gt/Makefile.am

gt/Makefile.in

gt/README

gt/gnuavi.c

gt/gnuavi.h

gt/gnuplay.c

gt/gt.c

gt/gt.h

gt/gtapi.c

gt/gtapi.h

gt/gtatoms.h

gt/gttypes.h

gt/gtvr.c

gt/gtvr.h

gt/parse_gt.c

gt/ppm2qt.c

gt/ppm2qtvr.c

gt/sound.c

gt/sound.h

gt/video.c

gt/video.h

gt/xt.c

gt/xt.h

man/gvidcap.man

man/index.bt

man/xvidcap.man

src/fallback.h

src/gtk2_control.c

src/gtk2_control.h

src/gtk2_frame.c

src/gtk2_frame.h

src/gtk2_options.c

src/gtk2_options.h

src/gtk2_support.c

src/gtk2_support.h

src/main.h

src/malloc.c

src/mkresfile.sh

src/mngutil.c

src/mngutil.h

src/realloc.c

src/util.c

src/util.h

src/video.c

src/video.h

src/xt_control.c

src/xt_control.h

src/xt_frame.c

src/xt_frame.h

src/xt_options.c

src/xt_options.h

src/xtojpg.c

src/xtojpg.h

src/xtomng.c

src/xtomng.h

src/xtopng.c

src/xtopng.h

src/xtopnm.c

src/xtopnm.h

src/xtoqtf.c

src/xtoqtf.h

src/xutil.c

src/xutil.h

xbm/animate.png

xbm/animate.xbm

xbm/edit.png

xbm/edit.xbm

xbm/help.xbm

xbm/mkvideo.xbm

xbm/move.png

xbm/move.xbm

xbm/next.png

xbm/next.xbm

xbm/pause.png

xbm/pause.xbm

xbm/prev.png

xbm/prev.xbm

xbm/record.png

xbm/record.xbm

xbm/record_off.png

xbm/record_on.png

xbm/select.png

xbm/select.xbm

xbm/step.png

xbm/step.xbm

xbm/stop.png

xbm/stop.xbm

files modified:
AUTHORS

COPYING

ChangeLog

INSTALL

Makefile.am

Makefile.in

NEWS

README

aclocal.m4

config.h.in

configure

debian/changelog

debian/compat

debian/control

debian/copyright

debian/patches/00list

debian/rules

depcomp

ffmpeg/COPYING

ffmpeg/CREDITS

ffmpeg/Changelog

ffmpeg/INSTALL

ffmpeg/Makefile

ffmpeg/README

ffmpeg/cmdutils.c

ffmpeg/cmdutils.h

ffmpeg/configure

ffmpeg/doc/Makefile

ffmpeg/doc/TODO

ffmpeg/doc/faq.texi

ffmpeg/doc/ffmpeg-doc.texi

ffmpeg/doc/ffmpeg_powerpc_performance_evaluation_howto.txt

ffmpeg/doc/ffplay-doc.texi

ffmpeg/doc/ffserver-doc.texi

ffmpeg/doc/ffserver.conf

ffmpeg/doc/hooks.texi

ffmpeg/doc/optimization.txt

ffmpeg/doc/texi2pod.pl

ffmpeg/ffinstall.nsi

ffmpeg/ffmpeg.c

ffmpeg/ffplay.c

ffmpeg/ffserver.c

ffmpeg/ffserver.h

ffmpeg/libavcodec/4xm.c

ffmpeg/libavcodec/Makefile

ffmpeg/libavcodec/a52dec.c

ffmpeg/libavcodec/ac3.h

ffmpeg/libavcodec/ac3enc.c

ffmpeg/libavcodec/ac3tab.h

ffmpeg/libavcodec/adpcm.c

ffmpeg/libavcodec/allcodecs.c

ffmpeg/libavcodec/alpha/asm.h

ffmpeg/libavcodec/alpha/dsputil_alpha.c

ffmpeg/libavcodec/alpha/dsputil_alpha_asm.S

ffmpeg/libavcodec/alpha/motion_est_alpha.c

ffmpeg/libavcodec/alpha/motion_est_mvi_asm.S

ffmpeg/libavcodec/alpha/mpegvideo_alpha.c

ffmpeg/libavcodec/alpha/regdef.h

ffmpeg/libavcodec/alpha/simple_idct_alpha.c

ffmpeg/libavcodec/amr.c

ffmpeg/libavcodec/apiexample.c

ffmpeg/libavcodec/armv4l/dsputil_arm.c

ffmpeg/libavcodec/armv4l/jrevdct_arm.S

ffmpeg/libavcodec/armv4l/mpegvideo_arm.c

ffmpeg/libavcodec/armv4l/simple_idct_arm.S

ffmpeg/libavcodec/asv1.c

ffmpeg/libavcodec/avcodec.h

ffmpeg/libavcodec/cabac.c

ffmpeg/libavcodec/cabac.h

ffmpeg/libavcodec/cljr.c

ffmpeg/libavcodec/cyuv.c

ffmpeg/libavcodec/dct-test.c

ffmpeg/libavcodec/dpcm.c

ffmpeg/libavcodec/dsputil.c

ffmpeg/libavcodec/dsputil.h

ffmpeg/libavcodec/dv.c

ffmpeg/libavcodec/dvdata.h

ffmpeg/libavcodec/error_resilience.c

ffmpeg/libavcodec/eval.c

ffmpeg/libavcodec/faad.c

ffmpeg/libavcodec/fdctref.c

ffmpeg/libavcodec/fft-test.c

ffmpeg/libavcodec/fft.c

ffmpeg/libavcodec/ffv1.c

ffmpeg/libavcodec/golomb.c

ffmpeg/libavcodec/golomb.h

ffmpeg/libavcodec/h263.c

ffmpeg/libavcodec/h263data.h

ffmpeg/libavcodec/h263dec.c

ffmpeg/libavcodec/h264.c

ffmpeg/libavcodec/h264data.h

ffmpeg/libavcodec/huffyuv.c

ffmpeg/libavcodec/i386/cputest.c

ffmpeg/libavcodec/i386/dsputil_mmx.c

ffmpeg/libavcodec/i386/dsputil_mmx_avg.h

ffmpeg/libavcodec/i386/dsputil_mmx_rnd.h

ffmpeg/libavcodec/i386/fdct_mmx.c

ffmpeg/libavcodec/i386/fft_sse.c

ffmpeg/libavcodec/i386/idct_mmx.c

ffmpeg/libavcodec/i386/mmx.h

ffmpeg/libavcodec/i386/motion_est_mmx.c

ffmpeg/libavcodec/i386/mpegvideo_mmx.c

ffmpeg/libavcodec/i386/mpegvideo_mmx_template.c

ffmpeg/libavcodec/i386/simple_idct_mmx.c

ffmpeg/libavcodec/imgconvert.c

ffmpeg/libavcodec/imgconvert_template.h

ffmpeg/libavcodec/imgresample.c

ffmpeg/libavcodec/indeo3.c

ffmpeg/libavcodec/indeo3data.h

ffmpeg/libavcodec/interplayvideo.c

ffmpeg/libavcodec/jfdctfst.c

ffmpeg/libavcodec/jfdctint.c

ffmpeg/libavcodec/jrevdct.c

ffmpeg/libavcodec/mace.c

ffmpeg/libavcodec/mdct.c

ffmpeg/libavcodec/mdec.c

ffmpeg/libavcodec/mjpeg.c

ffmpeg/libavcodec/mlib/dsputil_mlib.c

ffmpeg/libavcodec/motion_est.c

ffmpeg/libavcodec/motion_est_template.c

ffmpeg/libavcodec/motion_test.c

ffmpeg/libavcodec/mp3lameaudio.c

ffmpeg/libavcodec/mpeg12.c

ffmpeg/libavcodec/mpeg12data.h

ffmpeg/libavcodec/mpeg4data.h

ffmpeg/libavcodec/mpegaudio.c

ffmpeg/libavcodec/mpegaudio.h

ffmpeg/libavcodec/mpegaudiodec.c

ffmpeg/libavcodec/mpegaudiodectab.h

ffmpeg/libavcodec/mpegaudiotab.h

ffmpeg/libavcodec/mpegvideo.c

ffmpeg/libavcodec/mpegvideo.h

ffmpeg/libavcodec/msmpeg4.c

ffmpeg/libavcodec/msmpeg4data.h

ffmpeg/libavcodec/oggvorbis.c

ffmpeg/libavcodec/pcm.c

ffmpeg/libavcodec/ppc/dsputil_altivec.c

ffmpeg/libavcodec/ppc/dsputil_altivec.h

ffmpeg/libavcodec/ppc/dsputil_ppc.c

ffmpeg/libavcodec/ppc/dsputil_ppc.h

ffmpeg/libavcodec/ppc/fft_altivec.c

ffmpeg/libavcodec/ppc/gcc_fixes.h

ffmpeg/libavcodec/ppc/gmc_altivec.c

ffmpeg/libavcodec/ppc/idct_altivec.c

ffmpeg/libavcodec/ppc/mpegvideo_altivec.c

ffmpeg/libavcodec/ppc/mpegvideo_ppc.c

ffmpeg/libavcodec/ps2/dsputil_mmi.c

ffmpeg/libavcodec/ps2/idct_mmi.c

ffmpeg/libavcodec/ps2/mmi.h

ffmpeg/libavcodec/ps2/mpegvideo_mmi.c

ffmpeg/libavcodec/ra144.c

ffmpeg/libavcodec/ra144.h

ffmpeg/libavcodec/ra288.c

ffmpeg/libavcodec/ra288.h

ffmpeg/libavcodec/ratecontrol.c

ffmpeg/libavcodec/raw.c

ffmpeg/libavcodec/resample.c

ffmpeg/libavcodec/roqvideo.c

ffmpeg/libavcodec/rv10.c

ffmpeg/libavcodec/sh4/dsputil_align.c

ffmpeg/libavcodec/sh4/dsputil_sh4.c

ffmpeg/libavcodec/sh4/idct_sh4.c

ffmpeg/libavcodec/sh4/qpel.c

ffmpeg/libavcodec/simple_idct.c

ffmpeg/libavcodec/simple_idct.h

ffmpeg/libavcodec/svq1.c

ffmpeg/libavcodec/svq1_cb.h

ffmpeg/libavcodec/svq1_vlc.h

ffmpeg/libavcodec/svq3.c

ffmpeg/libavcodec/utils.c

ffmpeg/libavcodec/vcr1.c

ffmpeg/libavcodec/vp3.c

ffmpeg/libavcodec/vp3data.h

ffmpeg/libavcodec/wmadata.h

ffmpeg/libavcodec/wmadec.c

ffmpeg/libavcodec/wmv2.c

ffmpeg/libavcodec/xan.c

ffmpeg/libavcodec/xvmcvideo.c

ffmpeg/libavformat/4xm.c

ffmpeg/libavformat/Makefile

ffmpeg/libavformat/allformats.c

ffmpeg/libavformat/amr.c

ffmpeg/libavformat/asf.c

ffmpeg/libavformat/au.c

ffmpeg/libavformat/audio.c

ffmpeg/libavformat/avformat.h

ffmpeg/libavformat/avi.h

ffmpeg/libavformat/avidec.c

ffmpeg/libavformat/avienc.c

ffmpeg/libavformat/avio.c

ffmpeg/libavformat/avio.h

ffmpeg/libavformat/aviobuf.c

ffmpeg/libavformat/barpainet.h

ffmpeg/libavformat/beosaudio.cpp

ffmpeg/libavformat/crc.c

ffmpeg/libavformat/cutils.c

ffmpeg/libavformat/dv.c

ffmpeg/libavformat/dv1394.c

ffmpeg/libavformat/dv1394.h

ffmpeg/libavformat/ffm.c

ffmpeg/libavformat/file.c

ffmpeg/libavformat/flvdec.c

ffmpeg/libavformat/flvenc.c

ffmpeg/libavformat/framehook.c

ffmpeg/libavformat/framehook.h

ffmpeg/libavformat/gif.c

ffmpeg/libavformat/gifdec.c

ffmpeg/libavformat/grab.c

ffmpeg/libavformat/http.c

ffmpeg/libavformat/idroq.c

ffmpeg/libavformat/ipmovie.c

ffmpeg/libavformat/mov.c

ffmpeg/libavformat/movenc.c

ffmpeg/libavformat/mp3.c

ffmpeg/libavformat/mpeg.c

ffmpeg/libavformat/mpegts.c

ffmpeg/libavformat/mpegts.h

ffmpeg/libavformat/mpegtsenc.c

ffmpeg/libavformat/mpjpeg.c

ffmpeg/libavformat/nut.c

ffmpeg/libavformat/ogg.c

ffmpeg/libavformat/os_support.c

ffmpeg/libavformat/os_support.h

ffmpeg/libavformat/psxstr.c

ffmpeg/libavformat/raw.c

ffmpeg/libavformat/rm.c

ffmpeg/libavformat/rtp.c

ffmpeg/libavformat/rtp.h

ffmpeg/libavformat/rtpproto.c

ffmpeg/libavformat/rtsp.c

ffmpeg/libavformat/rtsp.h

ffmpeg/libavformat/rtspcodes.h

ffmpeg/libavformat/swf.c

ffmpeg/libavformat/tcp.c

ffmpeg/libavformat/udp.c

ffmpeg/libavformat/utils.c

ffmpeg/libavformat/wav.c

ffmpeg/libavformat/wc3movie.c

ffmpeg/libavformat/yuv4mpeg.c

ffmpeg/output_example.c

ffmpeg/tests/Makefile

ffmpeg/tests/audiogen.c

ffmpeg/tests/dsptest.c

ffmpeg/tests/ffmpeg.regression.ref

ffmpeg/tests/ffserver.regression.ref

ffmpeg/tests/lena.pnm

ffmpeg/tests/libav.regression.ref

ffmpeg/tests/regression.sh

ffmpeg/tests/rotozoom.c

ffmpeg/tests/rotozoom.regression.ref

ffmpeg/tests/server-regression.sh

ffmpeg/tests/test.conf

ffmpeg/tests/tiny_psnr.c

ffmpeg/tests/videogen.c

ffmpeg/vhook/Makefile

ffmpeg/vhook/drawtext.c *

ffmpeg/vhook/fish.c

ffmpeg/vhook/imlib2.c

ffmpeg/vhook/null.c

ffmpeg/vhook/ppm.c

install-sh

missing

src/Makefile.am

src/Makefile.in

src/app_data.h

src/capture.c

src/capture.h

src/codecs.h

src/colors.c

src/colors.h

src/control.h

src/frame.c

src/frame.h

src/job.c

src/job.h

src/led_meter.c

src/led_meter.h

src/main.c

src/options.c

src/xtoffmpeg.c

src/xtoffmpeg.h

src/xtoxwd.c

src/xtoxwd.h

Show diffs side-by-side

added added

removed removed

ffmpeg/libavcodec/i386/dsputil_mmx.c

* MMX optimized DSP utils

* This library is free software; you can redistribute it and/or

* This file is part of FFmpeg.

* FFmpeg is free software; you can redistribute it and/or

* modify it under the terms of the GNU Lesser General Public

* License as published by the Free Software Foundation; either

* version 2 of the License, or (at your option) any later version.

* version 2.1 of the License, or (at your option) any later version.

* This library is distributed in the hope that it will be useful,

* FFmpeg is distributed in the hope that it will be useful,

* but WITHOUT ANY WARRANTY; without even the implied warranty of

* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU

* Lesser General Public License for more details.

* You should have received a copy of the GNU Lesser General Public

* License along with this library; if not, write to the Free Software

* Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA

* License along with FFmpeg; if not, write to the Free Software

* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA

* MMX optimization by Nick Kurshev <nickols_k@mail.ru>

#include "../dsputil.h"

#include "../simple_idct.h"

#include "../mpegvideo.h"

#include "x86_cpu.h"

#include "mmx.h"

//#undef NDEBUG

//#include <assert.h>

extern void ff_idct_xvid_mmx(short *block);

extern void ff_idct_xvid_mmx2(short *block);

int mm_flags; /* multimedia extension flags */

/* pixel operations */

static const uint64_t mm_bone __attribute__ ((aligned(8))) = 0x0101010101010101ULL;

static const uint64_t mm_wone __attribute__ ((aligned(8))) = 0x0001000100010001ULL;

static const uint64_t mm_wtwo __attribute__ ((aligned(8))) = 0x0002000200020002ULL;

static const uint64_t ff_pw_20 __attribute__ ((aligned(8))) = 0x0014001400140014ULL;

static const uint64_t ff_pw_3 __attribute__ ((aligned(8))) = 0x0003000300030003ULL;

static const uint64_t ff_pw_16 __attribute__ ((aligned(8))) = 0x0010001000100010ULL;

static const uint64_t ff_pw_15 __attribute__ ((aligned(8))) = 0x000F000F000F000FULL;

#define JUMPALIGN() __asm __volatile (".balign 8"::)

static const uint64_t mm_bone attribute_used __attribute__ ((aligned(8))) = 0x0101010101010101ULL;

static const uint64_t mm_wone attribute_used __attribute__ ((aligned(8))) = 0x0001000100010001ULL;

static const uint64_t mm_wtwo attribute_used __attribute__ ((aligned(8))) = 0x0002000200020002ULL;

static const uint64_t ff_pdw_80000000[2] attribute_used __attribute__ ((aligned(16))) =

{0x8000000080000000ULL, 0x8000000080000000ULL};

static const uint64_t ff_pw_20 attribute_used __attribute__ ((aligned(8))) = 0x0014001400140014ULL;

static const uint64_t ff_pw_3 attribute_used __attribute__ ((aligned(8))) = 0x0003000300030003ULL;

static const uint64_t ff_pw_4 attribute_used __attribute__ ((aligned(8))) = 0x0004000400040004ULL;

static const uint64_t ff_pw_5 attribute_used __attribute__ ((aligned(8))) = 0x0005000500050005ULL;

static const uint64_t ff_pw_8 attribute_used __attribute__ ((aligned(8))) = 0x0008000800080008ULL;

static const uint64_t ff_pw_16 attribute_used __attribute__ ((aligned(8))) = 0x0010001000100010ULL;

static const uint64_t ff_pw_32 attribute_used __attribute__ ((aligned(8))) = 0x0020002000200020ULL;

static const uint64_t ff_pw_64 attribute_used __attribute__ ((aligned(8))) = 0x0040004000400040ULL;

static const uint64_t ff_pw_15 attribute_used __attribute__ ((aligned(8))) = 0x000F000F000F000FULL;

static const uint64_t ff_pb_1 attribute_used __attribute__ ((aligned(8))) = 0x0101010101010101ULL;

static const uint64_t ff_pb_3 attribute_used __attribute__ ((aligned(8))) = 0x0303030303030303ULL;

static const uint64_t ff_pb_7 attribute_used __attribute__ ((aligned(8))) = 0x0707070707070707ULL;

static const uint64_t ff_pb_3F attribute_used __attribute__ ((aligned(8))) = 0x3F3F3F3F3F3F3F3FULL;

static const uint64_t ff_pb_A1 attribute_used __attribute__ ((aligned(8))) = 0xA1A1A1A1A1A1A1A1ULL;

static const uint64_t ff_pb_5F attribute_used __attribute__ ((aligned(8))) = 0x5F5F5F5F5F5F5F5FULL;

static const uint64_t ff_pb_FC attribute_used __attribute__ ((aligned(8))) = 0xFCFCFCFCFCFCFCFCULL;

#define JUMPALIGN() __asm __volatile (ASMALIGN(3)::)

#define MOVQ_ZERO(regd) __asm __volatile ("pxor %%" #regd ", %%" #regd ::)

#define MOVQ_WONE(regd) \

// first argument is unmodifed and second is trashed

100

// regfe is supposed to contain 0xfefefefefefefefe

101

#define PAVGB_MMX_NO_RND(rega, regb, regr, regfe) \

"movq " #rega ", " #regr " \n\t"\

"pand " #regb ", " #regr " \n\t"\

"pxor " #rega ", " #regb " \n\t"\

"pand " #regfe "," #regb " \n\t"\

"psrlq $1, " #regb " \n\t"\

"paddb " #regb ", " #regr " \n\t"

102

"movq " #rega ", " #regr " \n\t"\

103

"pand " #regb ", " #regr " \n\t"\

104

"pxor " #rega ", " #regb " \n\t"\

105

"pand " #regfe "," #regb " \n\t"\

106

"psrlq $1, " #regb " \n\t"\

107

"paddb " #regb ", " #regr " \n\t"

108

109

#define PAVGB_MMX(rega, regb, regr, regfe) \

"movq " #rega ", " #regr " \n\t"\

"por " #regb ", " #regr " \n\t"\

"pxor " #rega ", " #regb " \n\t"\

"pand " #regfe "," #regb " \n\t"\

"psrlq $1, " #regb " \n\t"\

"psubb " #regb ", " #regr " \n\t"

110

"movq " #rega ", " #regr " \n\t"\

111

"por " #regb ", " #regr " \n\t"\

112

"pxor " #rega ", " #regb " \n\t"\

113

"pand " #regfe "," #regb " \n\t"\

114

"psrlq $1, " #regb " \n\t"\

115

"psubb " #regb ", " #regr " \n\t"

116

117

// mm6 is supposed to contain 0xfefefefefefefefe

118

#define PAVGBP_MMX_NO_RND(rega, regb, regr, regc, regd, regp) \

"movq " #rega ", " #regr " \n\t"\

"movq " #regc ", " #regp " \n\t"\

"pand " #regb ", " #regr " \n\t"\

"pand " #regd ", " #regp " \n\t"\

"pxor " #rega ", " #regb " \n\t"\

"pxor " #regc ", " #regd " \n\t"\

"pand %%mm6, " #regb " \n\t"\

"pand %%mm6, " #regd " \n\t"\

"psrlq $1, " #regb " \n\t"\

100

"psrlq $1, " #regd " \n\t"\

101

"paddb " #regb ", " #regr " \n\t"\

102

"paddb " #regd ", " #regp " \n\t"

119

"movq " #rega ", " #regr " \n\t"\

120

"movq " #regc ", " #regp " \n\t"\

121

"pand " #regb ", " #regr " \n\t"\

122

"pand " #regd ", " #regp " \n\t"\

123

"pxor " #rega ", " #regb " \n\t"\

124

"pxor " #regc ", " #regd " \n\t"\

125

"pand %%mm6, " #regb " \n\t"\

126

"pand %%mm6, " #regd " \n\t"\

127

"psrlq $1, " #regb " \n\t"\

128

"psrlq $1, " #regd " \n\t"\

129

"paddb " #regb ", " #regr " \n\t"\

130

"paddb " #regd ", " #regp " \n\t"

103

131

104

132

#define PAVGBP_MMX(rega, regb, regr, regc, regd, regp) \

105

"movq " #rega ", " #regr " \n\t"\

106

"movq " #regc ", " #regp " \n\t"\

107

"por " #regb ", " #regr " \n\t"\

108

"por " #regd ", " #regp " \n\t"\

109

"pxor " #rega ", " #regb " \n\t"\

110

"pxor " #regc ", " #regd " \n\t"\

111

"pand %%mm6, " #regb " \n\t"\

112

"pand %%mm6, " #regd " \n\t"\

113

"psrlq $1, " #regd " \n\t"\

114

"psrlq $1, " #regb " \n\t"\

115

"psubb " #regb ", " #regr " \n\t"\

116

"psubb " #regd ", " #regp " \n\t"

133

"movq " #rega ", " #regr " \n\t"\

134

"movq " #regc ", " #regp " \n\t"\

135

"por " #regb ", " #regr " \n\t"\

136

"por " #regd ", " #regp " \n\t"\

137

"pxor " #rega ", " #regb " \n\t"\

138

"pxor " #regc ", " #regd " \n\t"\

139

"pand %%mm6, " #regb " \n\t"\

140

"pand %%mm6, " #regd " \n\t"\

141

"psrlq $1, " #regd " \n\t"\

142

"psrlq $1, " #regb " \n\t"\

143

"psubb " #regb ", " #regr " \n\t"\

144

"psubb " #regd ", " #regp " \n\t"

117

145

118

146

/***********************************/

119

147

/* MMX no rounding */

120

148

#define DEF(x, y) x ## _no_rnd_ ## y ##_mmx

121

149

#define SET_RND MOVQ_WONE

122

#define PAVGBP(a, b, c, d, e, f) PAVGBP_MMX_NO_RND(a, b, c, d, e, f)

123

#define PAVGB(a, b, c, e) PAVGB_MMX_NO_RND(a, b, c, e)

150

#define PAVGBP(a, b, c, d, e, f) PAVGBP_MMX_NO_RND(a, b, c, d, e, f)

151

#define PAVGB(a, b, c, e) PAVGB_MMX_NO_RND(a, b, c, e)

124

152

125

153

#include "dsputil_mmx_rnd.h"

126

154

133

161

134

162

#define DEF(x, y) x ## _ ## y ##_mmx

135

163

#define SET_RND MOVQ_WTWO

136

#define PAVGBP(a, b, c, d, e, f) PAVGBP_MMX(a, b, c, d, e, f)

137

#define PAVGB(a, b, c, e) PAVGB_MMX(a, b, c, e)

164

#define PAVGBP(a, b, c, d, e, f) PAVGBP_MMX(a, b, c, d, e, f)

165

#define PAVGB(a, b, c, e) PAVGB_MMX(a, b, c, e)

138

166

139

167

#include "dsputil_mmx_rnd.h"

140

168

196

#undef DEF

169

197

#undef PAVGB

170

198

199

#define SBUTTERFLY(a,b,t,n)\

200

"movq " #a ", " #t " \n\t" /* abcd */\

201

"punpckl" #n " " #b ", " #a " \n\t" /* aebf */\

202

"punpckh" #n " " #b ", " #t " \n\t" /* cgdh */\

203

171

204

/***********************************/

172

205

/* standard MMX */

173

206

207

#ifdef CONFIG_ENCODERS

174

208

static void get_pixels_mmx(DCTELEM *block, const uint8_t *pixels, int line_size)

175

209

{

176

210

asm volatile(

177

"movl $-128, %%eax \n\t"

178

"pxor %%mm7, %%mm7 \n\t"

179

".balign 16 \n\t"

180

"1: \n\t"

181

"movq (%0), %%mm0 \n\t"

182

"movq (%0, %2), %%mm2 \n\t"

183

"movq %%mm0, %%mm1 \n\t"

184

"movq %%mm2, %%mm3 \n\t"

185

"punpcklbw %%mm7, %%mm0 \n\t"

186

"punpckhbw %%mm7, %%mm1 \n\t"

187

"punpcklbw %%mm7, %%mm2 \n\t"

188

"punpckhbw %%mm7, %%mm3 \n\t"

189

"movq %%mm0, (%1, %%eax)\n\t"

190

"movq %%mm1, 8(%1, %%eax)\n\t"

191

"movq %%mm2, 16(%1, %%eax)\n\t"

192

"movq %%mm3, 24(%1, %%eax)\n\t"

193

"addl %3, %0 \n\t"

194

"addl $32, %%eax \n\t"

195

"js 1b \n\t"

211

"mov $-128, %%"REG_a" \n\t"

212

"pxor %%mm7, %%mm7 \n\t"

213

ASMALIGN(4)

214

"1: \n\t"

215

"movq (%0), %%mm0 \n\t"

216

"movq (%0, %2), %%mm2 \n\t"

217

"movq %%mm0, %%mm1 \n\t"

218

"movq %%mm2, %%mm3 \n\t"

219

"punpcklbw %%mm7, %%mm0 \n\t"

220

"punpckhbw %%mm7, %%mm1 \n\t"

221

"punpcklbw %%mm7, %%mm2 \n\t"

222

"punpckhbw %%mm7, %%mm3 \n\t"

223

"movq %%mm0, (%1, %%"REG_a") \n\t"

224

"movq %%mm1, 8(%1, %%"REG_a") \n\t"

225

"movq %%mm2, 16(%1, %%"REG_a") \n\t"

226

"movq %%mm3, 24(%1, %%"REG_a") \n\t"

227

"add %3, %0 \n\t"

228

"add $32, %%"REG_a" \n\t"

229

"js 1b \n\t"

196

230

: "+r" (pixels)

197

: "r" (block+64), "r" (line_size), "r" (line_size*2)

198

: "%eax"

231

: "r" (block+64), "r" ((long)line_size), "r" ((long)line_size*2)

232

: "%"REG_a

199

233

);

200

234

}

201

235

202

236

static inline void diff_pixels_mmx(DCTELEM *block, const uint8_t *s1, const uint8_t *s2, int stride)

203

237

{

204

238

asm volatile(

205

"pxor %%mm7, %%mm7 \n\t"

206

"movl $-128, %%eax \n\t"

207

".balign 16 \n\t"

208

"1: \n\t"

209

"movq (%0), %%mm0 \n\t"

210

"movq (%1), %%mm2 \n\t"

211

"movq %%mm0, %%mm1 \n\t"

212

"movq %%mm2, %%mm3 \n\t"

213

"punpcklbw %%mm7, %%mm0 \n\t"

214

"punpckhbw %%mm7, %%mm1 \n\t"

215

"punpcklbw %%mm7, %%mm2 \n\t"

216

"punpckhbw %%mm7, %%mm3 \n\t"

217

"psubw %%mm2, %%mm0 \n\t"

218

"psubw %%mm3, %%mm1 \n\t"

219

"movq %%mm0, (%2, %%eax)\n\t"

220

"movq %%mm1, 8(%2, %%eax)\n\t"

221

"addl %3, %0 \n\t"

222

"addl %3, %1 \n\t"

223

"addl $16, %%eax \n\t"

224

"jnz 1b \n\t"

239

"pxor %%mm7, %%mm7 \n\t"

240

"mov $-128, %%"REG_a" \n\t"

241

ASMALIGN(4)

242

"1: \n\t"

243

"movq (%0), %%mm0 \n\t"

244

"movq (%1), %%mm2 \n\t"

245

"movq %%mm0, %%mm1 \n\t"

246

"movq %%mm2, %%mm3 \n\t"

247

"punpcklbw %%mm7, %%mm0 \n\t"

248

"punpckhbw %%mm7, %%mm1 \n\t"

249

"punpcklbw %%mm7, %%mm2 \n\t"

250

"punpckhbw %%mm7, %%mm3 \n\t"

251

"psubw %%mm2, %%mm0 \n\t"

252

"psubw %%mm3, %%mm1 \n\t"

253

"movq %%mm0, (%2, %%"REG_a") \n\t"

254

"movq %%mm1, 8(%2, %%"REG_a") \n\t"

255

"add %3, %0 \n\t"

256

"add %3, %1 \n\t"

257

"add $16, %%"REG_a" \n\t"

258

"jnz 1b \n\t"

225

259

: "+r" (s1), "+r" (s2)

226

: "r" (block+64), "r" (stride)

227

: "%eax"

260

: "r" (block+64), "r" ((long)stride)

261

: "%"REG_a

228

262

);

229

263

}

264

#endif //CONFIG_ENCODERS

230

265

231

266

void put_pixels_clamped_mmx(const DCTELEM *block, uint8_t *pixels, int line_size)

232

267

{

237

272

p = block;

238

273

pix = pixels;

239

274

/* unrolled loop */

240

__asm __volatile(

241

"movq %3, %%mm0\n\t"

242

"movq 8%3, %%mm1\n\t"

243

"movq 16%3, %%mm2\n\t"

244

"movq 24%3, %%mm3\n\t"

245

"movq 32%3, %%mm4\n\t"

246

"movq 40%3, %%mm5\n\t"

247

"movq 48%3, %%mm6\n\t"

248

"movq 56%3, %%mm7\n\t"

249

"packuswb %%mm1, %%mm0\n\t"

250

"packuswb %%mm3, %%mm2\n\t"

251

"packuswb %%mm5, %%mm4\n\t"

252

"packuswb %%mm7, %%mm6\n\t"

253

"movq %%mm0, (%0)\n\t"

254

"movq %%mm2, (%0, %1)\n\t"

255

"movq %%mm4, (%0, %1, 2)\n\t"

256

"movq %%mm6, (%0, %2)\n\t"

257

::"r" (pix), "r" (line_size), "r" (line_size*3), "m"(*p)

258

:"memory");

275

__asm __volatile(

276

"movq %3, %%mm0 \n\t"

277

"movq 8%3, %%mm1 \n\t"

278

"movq 16%3, %%mm2 \n\t"

279

"movq 24%3, %%mm3 \n\t"

280

"movq 32%3, %%mm4 \n\t"

281

"movq 40%3, %%mm5 \n\t"

282

"movq 48%3, %%mm6 \n\t"

283

"movq 56%3, %%mm7 \n\t"

284

"packuswb %%mm1, %%mm0 \n\t"

285

"packuswb %%mm3, %%mm2 \n\t"

286

"packuswb %%mm5, %%mm4 \n\t"

287

"packuswb %%mm7, %%mm6 \n\t"

288

"movq %%mm0, (%0) \n\t"

289

"movq %%mm2, (%0, %1) \n\t"

290

"movq %%mm4, (%0, %1, 2) \n\t"

291

"movq %%mm6, (%0, %2) \n\t"

292

::"r" (pix), "r" ((long)line_size), "r" ((long)line_size*3), "m"(*p)

293

:"memory");

259

294

pix += line_size*4;

260

295

p += 32;

261

296

263

298

// compiler would generate some very strange code

264

299

// thus using "r"

265

300

__asm __volatile(

266

"movq (%3), %%mm0\n\t"

267

"movq 8(%3), %%mm1\n\t"

268

"movq 16(%3), %%mm2\n\t"

269

"movq 24(%3), %%mm3\n\t"

270

"movq 32(%3), %%mm4\n\t"

271

"movq 40(%3), %%mm5\n\t"

272

"movq 48(%3), %%mm6\n\t"

273

"movq 56(%3), %%mm7\n\t"

274

"packuswb %%mm1, %%mm0\n\t"

275

"packuswb %%mm3, %%mm2\n\t"

276

"packuswb %%mm5, %%mm4\n\t"

277

"packuswb %%mm7, %%mm6\n\t"

278

"movq %%mm0, (%0)\n\t"

279

"movq %%mm2, (%0, %1)\n\t"

280

"movq %%mm4, (%0, %1, 2)\n\t"

281

"movq %%mm6, (%0, %2)\n\t"

282

::"r" (pix), "r" (line_size), "r" (line_size*3), "r"(p)

283

:"memory");

301

"movq (%3), %%mm0 \n\t"

302

"movq 8(%3), %%mm1 \n\t"

303

"movq 16(%3), %%mm2 \n\t"

304

"movq 24(%3), %%mm3 \n\t"

305

"movq 32(%3), %%mm4 \n\t"

306

"movq 40(%3), %%mm5 \n\t"

307

"movq 48(%3), %%mm6 \n\t"

308

"movq 56(%3), %%mm7 \n\t"

309

"packuswb %%mm1, %%mm0 \n\t"

310

"packuswb %%mm3, %%mm2 \n\t"

311

"packuswb %%mm5, %%mm4 \n\t"

312

"packuswb %%mm7, %%mm6 \n\t"

313

"movq %%mm0, (%0) \n\t"

314

"movq %%mm2, (%0, %1) \n\t"

315

"movq %%mm4, (%0, %1, 2) \n\t"

316

"movq %%mm6, (%0, %2) \n\t"

317

::"r" (pix), "r" ((long)line_size), "r" ((long)line_size*3), "r"(p)

318

:"memory");

319

}

320

321

static DECLARE_ALIGNED_8(const unsigned char, vector128[8]) =

322

{ 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80 };

323

324

void put_signed_pixels_clamped_mmx(const DCTELEM *block, uint8_t *pixels, int line_size)

325

{

326

int i;

327

328

movq_m2r(*vector128, mm1);

329

for (i = 0; i < 8; i++) {

330

movq_m2r(*(block), mm0);

331

packsswb_m2r(*(block + 4), mm0);

332

block += 8;

333

paddb_r2r(mm1, mm0);

334

movq_r2m(mm0, *pixels);

335

pixels += line_size;

336

}

284

337

}

285

338

286

339

void add_pixels_clamped_mmx(const DCTELEM *block, uint8_t *pixels, int line_size)

295

348

MOVQ_ZERO(mm7);

296

349

i = 4;

297

350

do {

298

__asm __volatile(

299

"movq (%2), %%mm0\n\t"

300

"movq 8(%2), %%mm1\n\t"

301

"movq 16(%2), %%mm2\n\t"

302

"movq 24(%2), %%mm3\n\t"

303

"movq %0, %%mm4\n\t"

304

"movq %1, %%mm6\n\t"

305

"movq %%mm4, %%mm5\n\t"

306

"punpcklbw %%mm7, %%mm4\n\t"

307

"punpckhbw %%mm7, %%mm5\n\t"

308

"paddsw %%mm4, %%mm0\n\t"

309

"paddsw %%mm5, %%mm1\n\t"

310

"movq %%mm6, %%mm5\n\t"

311

"punpcklbw %%mm7, %%mm6\n\t"

312

"punpckhbw %%mm7, %%mm5\n\t"

313

"paddsw %%mm6, %%mm2\n\t"

314

"paddsw %%mm5, %%mm3\n\t"

315

"packuswb %%mm1, %%mm0\n\t"

316

"packuswb %%mm3, %%mm2\n\t"

317

"movq %%mm0, %0\n\t"

318

"movq %%mm2, %1\n\t"

319

:"+m"(*pix), "+m"(*(pix+line_size))

320

:"r"(p)

321

:"memory");

351

__asm __volatile(

352

"movq (%2), %%mm0 \n\t"

353

"movq 8(%2), %%mm1 \n\t"

354

"movq 16(%2), %%mm2 \n\t"

355

"movq 24(%2), %%mm3 \n\t"

356

"movq %0, %%mm4 \n\t"

357

"movq %1, %%mm6 \n\t"

358

"movq %%mm4, %%mm5 \n\t"

359

"punpcklbw %%mm7, %%mm4 \n\t"

360

"punpckhbw %%mm7, %%mm5 \n\t"

361

"paddsw %%mm4, %%mm0 \n\t"

362

"paddsw %%mm5, %%mm1 \n\t"

363

"movq %%mm6, %%mm5 \n\t"

364

"punpcklbw %%mm7, %%mm6 \n\t"

365

"punpckhbw %%mm7, %%mm5 \n\t"

366

"paddsw %%mm6, %%mm2 \n\t"

367

"paddsw %%mm5, %%mm3 \n\t"

368

"packuswb %%mm1, %%mm0 \n\t"

369

"packuswb %%mm3, %%mm2 \n\t"

370

"movq %%mm0, %0 \n\t"

371

"movq %%mm2, %1 \n\t"

372

:"+m"(*pix), "+m"(*(pix+line_size))

373

:"r"(p)

374

:"memory");

322

375

pix += line_size*2;

323

376

p += 16;

324

377

} while (--i);

325

378

}

326

379

380

static void put_pixels4_mmx(uint8_t *block, const uint8_t *pixels, int line_size, int h)

381

{

382

__asm __volatile(

383

"lea (%3, %3), %%"REG_a" \n\t"

384

ASMALIGN(3)

385

"1: \n\t"

386

"movd (%1), %%mm0 \n\t"

387

"movd (%1, %3), %%mm1 \n\t"

388

"movd %%mm0, (%2) \n\t"

389

"movd %%mm1, (%2, %3) \n\t"

390

"add %%"REG_a", %1 \n\t"

391

"add %%"REG_a", %2 \n\t"

392

"movd (%1), %%mm0 \n\t"

393

"movd (%1, %3), %%mm1 \n\t"

394

"movd %%mm0, (%2) \n\t"

395

"movd %%mm1, (%2, %3) \n\t"

396

"add %%"REG_a", %1 \n\t"

397

"add %%"REG_a", %2 \n\t"

398

"subl $4, %0 \n\t"

399

"jnz 1b \n\t"

400

: "+g"(h), "+r" (pixels), "+r" (block)

401

: "r"((long)line_size)

402

: "%"REG_a, "memory"

403

);

404

}

405

327

406

static void put_pixels8_mmx(uint8_t *block, const uint8_t *pixels, int line_size, int h)

328

407

{

329

408

__asm __volatile(

330

"lea (%3, %3), %%eax \n\t"

331

".balign 8 \n\t"

332

"1: \n\t"

333

"movq (%1), %%mm0 \n\t"

334

"movq (%1, %3), %%mm1 \n\t"

335

"movq %%mm0, (%2) \n\t"

336

"movq %%mm1, (%2, %3) \n\t"

337

"addl %%eax, %1 \n\t"

338

"addl %%eax, %2 \n\t"

339

"movq (%1), %%mm0 \n\t"

340

"movq (%1, %3), %%mm1 \n\t"

341

"movq %%mm0, (%2) \n\t"

342

"movq %%mm1, (%2, %3) \n\t"

343

"addl %%eax, %1 \n\t"

344

"addl %%eax, %2 \n\t"

345

"subl $4, %0 \n\t"

346

"jnz 1b \n\t"

347

: "+g"(h), "+r" (pixels), "+r" (block)

348

: "r"(line_size)

349

: "%eax", "memory"

350

);

409

"lea (%3, %3), %%"REG_a" \n\t"

410

ASMALIGN(3)

411

"1: \n\t"

412

"movq (%1), %%mm0 \n\t"

413

"movq (%1, %3), %%mm1 \n\t"

414

"movq %%mm0, (%2) \n\t"

415

"movq %%mm1, (%2, %3) \n\t"

416

"add %%"REG_a", %1 \n\t"

417

"add %%"REG_a", %2 \n\t"

418

"movq (%1), %%mm0 \n\t"

419

"movq (%1, %3), %%mm1 \n\t"

420

"movq %%mm0, (%2) \n\t"

421

"movq %%mm1, (%2, %3) \n\t"

422

"add %%"REG_a", %1 \n\t"

423

"add %%"REG_a", %2 \n\t"

424

"subl $4, %0 \n\t"

425

"jnz 1b \n\t"

426

: "+g"(h), "+r" (pixels), "+r" (block)

427

: "r"((long)line_size)

428

: "%"REG_a, "memory"

429

);

351

430

}

352

431

353

432

static void put_pixels16_mmx(uint8_t *block, const uint8_t *pixels, int line_size, int h)

354

433

{

355

434

__asm __volatile(

356

"lea (%3, %3), %%eax \n\t"

357

".balign 8 \n\t"

358

"1: \n\t"

359

"movq (%1), %%mm0 \n\t"

360

"movq 8(%1), %%mm4 \n\t"

361

"movq (%1, %3), %%mm1 \n\t"

362

"movq 8(%1, %3), %%mm5 \n\t"

363

"movq %%mm0, (%2) \n\t"

364

"movq %%mm4, 8(%2) \n\t"

365

"movq %%mm1, (%2, %3) \n\t"

366

"movq %%mm5, 8(%2, %3) \n\t"

367

"addl %%eax, %1 \n\t"

368

"addl %%eax, %2 \n\t"

369

"movq (%1), %%mm0 \n\t"

370

"movq 8(%1), %%mm4 \n\t"

371

"movq (%1, %3), %%mm1 \n\t"

372

"movq 8(%1, %3), %%mm5 \n\t"

373

"movq %%mm0, (%2) \n\t"

374

"movq %%mm4, 8(%2) \n\t"

375

"movq %%mm1, (%2, %3) \n\t"

376

"movq %%mm5, 8(%2, %3) \n\t"

377

"addl %%eax, %1 \n\t"

378

"addl %%eax, %2 \n\t"

379

"subl $4, %0 \n\t"

380

"jnz 1b \n\t"

381

: "+g"(h), "+r" (pixels), "+r" (block)

382

: "r"(line_size)

383

: "%eax", "memory"

384

);

435

"lea (%3, %3), %%"REG_a" \n\t"

436

ASMALIGN(3)

437

"1: \n\t"

438

"movq (%1), %%mm0 \n\t"

439

"movq 8(%1), %%mm4 \n\t"

440

"movq (%1, %3), %%mm1 \n\t"

441

"movq 8(%1, %3), %%mm5 \n\t"

442

"movq %%mm0, (%2) \n\t"

443

"movq %%mm4, 8(%2) \n\t"

444

"movq %%mm1, (%2, %3) \n\t"

445

"movq %%mm5, 8(%2, %3) \n\t"

446

"add %%"REG_a", %1 \n\t"

447

"add %%"REG_a", %2 \n\t"

448

"movq (%1), %%mm0 \n\t"

449

"movq 8(%1), %%mm4 \n\t"

450

"movq (%1, %3), %%mm1 \n\t"

451

"movq 8(%1, %3), %%mm5 \n\t"

452

"movq %%mm0, (%2) \n\t"

453

"movq %%mm4, 8(%2) \n\t"

454

"movq %%mm1, (%2, %3) \n\t"

455

"movq %%mm5, 8(%2, %3) \n\t"

456

"add %%"REG_a", %1 \n\t"

457

"add %%"REG_a", %2 \n\t"

458

"subl $4, %0 \n\t"

459

"jnz 1b \n\t"

460

: "+g"(h), "+r" (pixels), "+r" (block)

461

: "r"((long)line_size)

462

: "%"REG_a, "memory"

463

);

385

464

}

386

465

387

466

static void clear_blocks_mmx(DCTELEM *blocks)

388

467

{

389

468

__asm __volatile(

390

"pxor %%mm7, %%mm7 \n\t"

391

"movl $-128*6, %%eax \n\t"

392

"1: \n\t"

393

"movq %%mm7, (%0, %%eax) \n\t"

394

"movq %%mm7, 8(%0, %%eax) \n\t"

395

"movq %%mm7, 16(%0, %%eax) \n\t"

396

"movq %%mm7, 24(%0, %%eax) \n\t"

397

"addl $32, %%eax \n\t"

398

" js 1b \n\t"

399

: : "r" (((int)blocks)+128*6)

400

: "%eax"

469

"pxor %%mm7, %%mm7 \n\t"

470

"mov $-128*6, %%"REG_a" \n\t"

471

"1: \n\t"

472

"movq %%mm7, (%0, %%"REG_a") \n\t"

473

"movq %%mm7, 8(%0, %%"REG_a") \n\t"

474

"movq %%mm7, 16(%0, %%"REG_a") \n\t"

475

"movq %%mm7, 24(%0, %%"REG_a") \n\t"

476

"add $32, %%"REG_a" \n\t"

477

" js 1b \n\t"

478

: : "r" (((uint8_t *)blocks)+128*6)

479

: "%"REG_a

401

480

);

402

481

}

403

482

483

#ifdef CONFIG_ENCODERS

404

484

static int pix_sum16_mmx(uint8_t * pix, int line_size){

405

485

const int h=16;

406

486

int sum;

407

int index= -line_size*h;

487

long index= -line_size*h;

408

488

409

489

__asm __volatile(

410

"pxor %%mm7, %%mm7 \n\t"

411

"pxor %%mm6, %%mm6 \n\t"

412

"1: \n\t"

413

"movq (%2, %1), %%mm0 \n\t"

414

"movq (%2, %1), %%mm1 \n\t"

415

"movq 8(%2, %1), %%mm2 \n\t"

416

"movq 8(%2, %1), %%mm3 \n\t"

417

"punpcklbw %%mm7, %%mm0 \n\t"

418

"punpckhbw %%mm7, %%mm1 \n\t"

419

"punpcklbw %%mm7, %%mm2 \n\t"

420

"punpckhbw %%mm7, %%mm3 \n\t"

421

"paddw %%mm0, %%mm1 \n\t"

422

"paddw %%mm2, %%mm3 \n\t"

423

"paddw %%mm1, %%mm3 \n\t"

424

"paddw %%mm3, %%mm6 \n\t"

425

"addl %3, %1 \n\t"

426

" js 1b \n\t"

427

"movq %%mm6, %%mm5 \n\t"

428

"psrlq $32, %%mm6 \n\t"

429

"paddw %%mm5, %%mm6 \n\t"

430

"movq %%mm6, %%mm5 \n\t"

431

"psrlq $16, %%mm6 \n\t"

432

"paddw %%mm5, %%mm6 \n\t"

433

"movd %%mm6, %0 \n\t"

434

"andl $0xFFFF, %0 \n\t"

490

"pxor %%mm7, %%mm7 \n\t"

491

"pxor %%mm6, %%mm6 \n\t"

492

"1: \n\t"

493

"movq (%2, %1), %%mm0 \n\t"

494

"movq (%2, %1), %%mm1 \n\t"

495

"movq 8(%2, %1), %%mm2 \n\t"

496

"movq 8(%2, %1), %%mm3 \n\t"

497

"punpcklbw %%mm7, %%mm0 \n\t"

498

"punpckhbw %%mm7, %%mm1 \n\t"

499

"punpcklbw %%mm7, %%mm2 \n\t"

500

"punpckhbw %%mm7, %%mm3 \n\t"

501

"paddw %%mm0, %%mm1 \n\t"

502

"paddw %%mm2, %%mm3 \n\t"

503

"paddw %%mm1, %%mm3 \n\t"

504

"paddw %%mm3, %%mm6 \n\t"

505

"add %3, %1 \n\t"

506

" js 1b \n\t"

507

"movq %%mm6, %%mm5 \n\t"

508

"psrlq $32, %%mm6 \n\t"

509

"paddw %%mm5, %%mm6 \n\t"

510

"movq %%mm6, %%mm5 \n\t"

511

"psrlq $16, %%mm6 \n\t"

512

"paddw %%mm5, %%mm6 \n\t"

513

"movd %%mm6, %0 \n\t"

514

"andl $0xFFFF, %0 \n\t"

435

515

: "=&r" (sum), "+r" (index)

436

: "r" (pix - index), "r" (line_size)

516

: "r" (pix - index), "r" ((long)line_size)

437

517

);

438

518

439

519

return sum;

440

520

}

521

#endif //CONFIG_ENCODERS

441

522

442

523

static void add_bytes_mmx(uint8_t *dst, uint8_t *src, int w){

443

int i=0;

524

long i=0;

444

525

asm volatile(

445

"1: \n\t"

446

"movq (%1, %0), %%mm0 \n\t"

447

"movq (%2, %0), %%mm1 \n\t"

448

"paddb %%mm0, %%mm1 \n\t"

449

"movq %%mm1, (%2, %0) \n\t"

450

"movq 8(%1, %0), %%mm0 \n\t"

451

"movq 8(%2, %0), %%mm1 \n\t"

452

"paddb %%mm0, %%mm1 \n\t"

453

"movq %%mm1, 8(%2, %0) \n\t"

454

"addl $16, %0 \n\t"

455

"cmpl %3, %0 \n\t"

456

" jb 1b \n\t"

526

"1: \n\t"

527

"movq (%1, %0), %%mm0 \n\t"

528

"movq (%2, %0), %%mm1 \n\t"

529

"paddb %%mm0, %%mm1 \n\t"

530

"movq %%mm1, (%2, %0) \n\t"

531

"movq 8(%1, %0), %%mm0 \n\t"

532

"movq 8(%2, %0), %%mm1 \n\t"

533

"paddb %%mm0, %%mm1 \n\t"

534

"movq %%mm1, 8(%2, %0) \n\t"

535

"add $16, %0 \n\t"

536

"cmp %3, %0 \n\t"

537

" jb 1b \n\t"

457

538

: "+r" (i)

458

: "r"(src), "r"(dst), "r"(w-15)

539

: "r"(src), "r"(dst), "r"((long)w-15)

459

540

);

460

541

for(; i<w; i++)

461

542

dst[i+0] += src[i+0];

462

543

}

463

544

545

#define H263_LOOP_FILTER \

546

"pxor %%mm7, %%mm7 \n\t"\

547

"movq %0, %%mm0 \n\t"\

548

"movq %0, %%mm1 \n\t"\

549

"movq %3, %%mm2 \n\t"\

550

"movq %3, %%mm3 \n\t"\

551

"punpcklbw %%mm7, %%mm0 \n\t"\

552

"punpckhbw %%mm7, %%mm1 \n\t"\

553

"punpcklbw %%mm7, %%mm2 \n\t"\

554

"punpckhbw %%mm7, %%mm3 \n\t"\

555

"psubw %%mm2, %%mm0 \n\t"\

556

"psubw %%mm3, %%mm1 \n\t"\

557

"movq %1, %%mm2 \n\t"\

558

"movq %1, %%mm3 \n\t"\

559

"movq %2, %%mm4 \n\t"\

560

"movq %2, %%mm5 \n\t"\

561

"punpcklbw %%mm7, %%mm2 \n\t"\

562

"punpckhbw %%mm7, %%mm3 \n\t"\

563

"punpcklbw %%mm7, %%mm4 \n\t"\

564

"punpckhbw %%mm7, %%mm5 \n\t"\

565

"psubw %%mm2, %%mm4 \n\t"\

566

"psubw %%mm3, %%mm5 \n\t"\

567

"psllw $2, %%mm4 \n\t"\

568

"psllw $2, %%mm5 \n\t"\

569

"paddw %%mm0, %%mm4 \n\t"\

570

"paddw %%mm1, %%mm5 \n\t"\

571

"pxor %%mm6, %%mm6 \n\t"\

572

"pcmpgtw %%mm4, %%mm6 \n\t"\

573

"pcmpgtw %%mm5, %%mm7 \n\t"\

574

"pxor %%mm6, %%mm4 \n\t"\

575

"pxor %%mm7, %%mm5 \n\t"\

576

"psubw %%mm6, %%mm4 \n\t"\

577

"psubw %%mm7, %%mm5 \n\t"\

578

"psrlw $3, %%mm4 \n\t"\

579

"psrlw $3, %%mm5 \n\t"\

580

"packuswb %%mm5, %%mm4 \n\t"\

581

"packsswb %%mm7, %%mm6 \n\t"\

582

"pxor %%mm7, %%mm7 \n\t"\

583

"movd %4, %%mm2 \n\t"\

584

"punpcklbw %%mm2, %%mm2 \n\t"\

585

"punpcklbw %%mm2, %%mm2 \n\t"\

586

"punpcklbw %%mm2, %%mm2 \n\t"\

587

"psubusb %%mm4, %%mm2 \n\t"\

588

"movq %%mm2, %%mm3 \n\t"\

589

"psubusb %%mm4, %%mm3 \n\t"\

590

"psubb %%mm3, %%mm2 \n\t"\

591

"movq %1, %%mm3 \n\t"\

592

"movq %2, %%mm4 \n\t"\

593

"pxor %%mm6, %%mm3 \n\t"\

594

"pxor %%mm6, %%mm4 \n\t"\

595

"paddusb %%mm2, %%mm3 \n\t"\

596

"psubusb %%mm2, %%mm4 \n\t"\

597

"pxor %%mm6, %%mm3 \n\t"\

598

"pxor %%mm6, %%mm4 \n\t"\

599

"paddusb %%mm2, %%mm2 \n\t"\

600

"packsswb %%mm1, %%mm0 \n\t"\

601

"pcmpgtb %%mm0, %%mm7 \n\t"\

602

"pxor %%mm7, %%mm0 \n\t"\

603

"psubb %%mm7, %%mm0 \n\t"\

604

"movq %%mm0, %%mm1 \n\t"\

605

"psubusb %%mm2, %%mm0 \n\t"\

606

"psubb %%mm0, %%mm1 \n\t"\

607

"pand %5, %%mm1 \n\t"\

608

"psrlw $2, %%mm1 \n\t"\

609

"pxor %%mm7, %%mm1 \n\t"\

610

"psubb %%mm7, %%mm1 \n\t"\

611

"movq %0, %%mm5 \n\t"\

612

"movq %3, %%mm6 \n\t"\

613

"psubb %%mm1, %%mm5 \n\t"\

614

"paddb %%mm1, %%mm6 \n\t"

615

616

static void h263_v_loop_filter_mmx(uint8_t *src, int stride, int qscale){

617

const int strength= ff_h263_loop_filter_strength[qscale];

618

619

asm volatile(

620

621

H263_LOOP_FILTER

622

623

"movq %%mm3, %1 \n\t"

624

"movq %%mm4, %2 \n\t"

625

"movq %%mm5, %0 \n\t"

626

"movq %%mm6, %3 \n\t"

627

: "+m" (*(uint64_t*)(src - 2*stride)),

628

"+m" (*(uint64_t*)(src - 1*stride)),

629

"+m" (*(uint64_t*)(src + 0*stride)),

630

"+m" (*(uint64_t*)(src + 1*stride))

631

: "g" (2*strength), "m"(ff_pb_FC)

632

);

633

}

634

635

static inline void transpose4x4(uint8_t *dst, uint8_t *src, int dst_stride, int src_stride){

636

asm volatile( //FIXME could save 1 instruction if done as 8x4 ...

637

"movd %4, %%mm0 \n\t"

638

"movd %5, %%mm1 \n\t"

639

"movd %6, %%mm2 \n\t"

640

"movd %7, %%mm3 \n\t"

641

"punpcklbw %%mm1, %%mm0 \n\t"

642

"punpcklbw %%mm3, %%mm2 \n\t"

643

"movq %%mm0, %%mm1 \n\t"

644

"punpcklwd %%mm2, %%mm0 \n\t"

645

"punpckhwd %%mm2, %%mm1 \n\t"

646

"movd %%mm0, %0 \n\t"

647

"punpckhdq %%mm0, %%mm0 \n\t"

648

"movd %%mm0, %1 \n\t"

649

"movd %%mm1, %2 \n\t"

650

"punpckhdq %%mm1, %%mm1 \n\t"

651

"movd %%mm1, %3 \n\t"

652

653

: "=m" (*(uint32_t*)(dst + 0*dst_stride)),

654

"=m" (*(uint32_t*)(dst + 1*dst_stride)),

655

"=m" (*(uint32_t*)(dst + 2*dst_stride)),

656

"=m" (*(uint32_t*)(dst + 3*dst_stride))

657

: "m" (*(uint32_t*)(src + 0*src_stride)),

658

"m" (*(uint32_t*)(src + 1*src_stride)),

659

"m" (*(uint32_t*)(src + 2*src_stride)),

660

"m" (*(uint32_t*)(src + 3*src_stride))

661

);

662

}

663

664

static void h263_h_loop_filter_mmx(uint8_t *src, int stride, int qscale){

665

const int strength= ff_h263_loop_filter_strength[qscale];

666

uint64_t temp[4] __attribute__ ((aligned(8)));

667

uint8_t *btemp= (uint8_t*)temp;

668

669

src -= 2;

670

671

transpose4x4(btemp , src , 8, stride);

672

transpose4x4(btemp+4, src + 4*stride, 8, stride);

673

asm volatile(

674

H263_LOOP_FILTER // 5 3 4 6

675

676

: "+m" (temp[0]),

677

"+m" (temp[1]),

678

"+m" (temp[2]),

679

"+m" (temp[3])

680

: "g" (2*strength), "m"(ff_pb_FC)

681

);

682

683

asm volatile(

684

"movq %%mm5, %%mm1 \n\t"

685

"movq %%mm4, %%mm0 \n\t"

686

"punpcklbw %%mm3, %%mm5 \n\t"

687

"punpcklbw %%mm6, %%mm4 \n\t"

688

"punpckhbw %%mm3, %%mm1 \n\t"

689

"punpckhbw %%mm6, %%mm0 \n\t"

690

"movq %%mm5, %%mm3 \n\t"

691

"movq %%mm1, %%mm6 \n\t"

692

"punpcklwd %%mm4, %%mm5 \n\t"

693

"punpcklwd %%mm0, %%mm1 \n\t"

694

"punpckhwd %%mm4, %%mm3 \n\t"

695

"punpckhwd %%mm0, %%mm6 \n\t"

696

"movd %%mm5, (%0) \n\t"

697

"punpckhdq %%mm5, %%mm5 \n\t"

698

"movd %%mm5, (%0,%2) \n\t"

699

"movd %%mm3, (%0,%2,2) \n\t"

700

"punpckhdq %%mm3, %%mm3 \n\t"

701

"movd %%mm3, (%0,%3) \n\t"

702

"movd %%mm1, (%1) \n\t"

703

"punpckhdq %%mm1, %%mm1 \n\t"

704

"movd %%mm1, (%1,%2) \n\t"

705

"movd %%mm6, (%1,%2,2) \n\t"

706

"punpckhdq %%mm6, %%mm6 \n\t"

707

"movd %%mm6, (%1,%3) \n\t"

708

:: "r" (src),

709

"r" (src + 4*stride),

710

"r" ((long) stride ),

711

"r" ((long)(3*stride))

712

);

713

}

714

715

#ifdef CONFIG_ENCODERS

464

716

static int pix_norm1_mmx(uint8_t *pix, int line_size) {

465

717

int tmp;

466

718

asm volatile (

468

720

"pxor %%mm0,%%mm0\n"

469

721

"pxor %%mm7,%%mm7\n"

470

722

"1:\n"

471

"movq (%0),%%mm2\n" /* mm2 = pix[0-7] */

472

"movq 8(%0),%%mm3\n" /* mm3 = pix[8-15] */

473

474

"movq %%mm2,%%mm1\n" /* mm1 = mm2 = pix[0-7] */

475

476

"punpckhbw %%mm0,%%mm1\n" /* mm1 = [pix4-7] */

477

"punpcklbw %%mm0,%%mm2\n" /* mm2 = [pix0-3] */

478

479

"movq %%mm3,%%mm4\n" /* mm4 = mm3 = pix[8-15] */

480

"punpckhbw %%mm0,%%mm3\n" /* mm3 = [pix12-15] */

481

"punpcklbw %%mm0,%%mm4\n" /* mm4 = [pix8-11] */

482

483

"pmaddwd %%mm1,%%mm1\n" /* mm1 = (pix0^2+pix1^2,pix2^2+pix3^2) */

484

"pmaddwd %%mm2,%%mm2\n" /* mm2 = (pix4^2+pix5^2,pix6^2+pix7^2) */

723

"movq (%0),%%mm2\n" /* mm2 = pix[0-7] */

724

"movq 8(%0),%%mm3\n" /* mm3 = pix[8-15] */

725

726

"movq %%mm2,%%mm1\n" /* mm1 = mm2 = pix[0-7] */

727

728

"punpckhbw %%mm0,%%mm1\n" /* mm1 = [pix4-7] */

729

"punpcklbw %%mm0,%%mm2\n" /* mm2 = [pix0-3] */

730

731

"movq %%mm3,%%mm4\n" /* mm4 = mm3 = pix[8-15] */

732

"punpckhbw %%mm0,%%mm3\n" /* mm3 = [pix12-15] */

733

"punpcklbw %%mm0,%%mm4\n" /* mm4 = [pix8-11] */

734

735

"pmaddwd %%mm1,%%mm1\n" /* mm1 = (pix0^2+pix1^2,pix2^2+pix3^2) */

736

"pmaddwd %%mm2,%%mm2\n" /* mm2 = (pix4^2+pix5^2,pix6^2+pix7^2) */

485

737

486

738

"pmaddwd %%mm3,%%mm3\n"

487

739

"pmaddwd %%mm4,%%mm4\n"

488

740

489

"paddd %%mm1,%%mm2\n" /* mm2 = (pix0^2+pix1^2+pix4^2+pix5^2,

490

pix2^2+pix3^2+pix6^2+pix7^2) */

741

"paddd %%mm1,%%mm2\n" /* mm2 = (pix0^2+pix1^2+pix4^2+pix5^2,

742

pix2^2+pix3^2+pix6^2+pix7^2) */

491

743

"paddd %%mm3,%%mm4\n"

492

744

"paddd %%mm2,%%mm7\n"

493

745

494

"addl %2, %0\n"

746

"add %2, %0\n"

495

747

"paddd %%mm4,%%mm7\n"

496

748

"dec %%ecx\n"

497

749

"jnz 1b\n"

498

750

499

751

"movq %%mm7,%%mm1\n"

500

"psrlq $32, %%mm7\n" /* shift hi dword to lo */

752

"psrlq $32, %%mm7\n" /* shift hi dword to lo */

501

753

"paddd %%mm7,%%mm1\n"

502

754

"movd %%mm1,%1\n"

503

: "+r" (pix), "=r"(tmp) : "r" (line_size) : "%ecx" );

504

return tmp;

505

}

506

507

static int sse16_mmx(void *v, uint8_t * pix1, uint8_t * pix2, int line_size) {

508

int tmp;

509

asm volatile (

510

"movl $16,%%ecx\n"

511

"pxor %%mm0,%%mm0\n" /* mm0 = 0 */

512

"pxor %%mm7,%%mm7\n" /* mm7 holds the sum */

513

"1:\n"

514

"movq (%0),%%mm1\n" /* mm1 = pix1[0-7] */

515

"movq (%1),%%mm2\n" /* mm2 = pix2[0-7] */

516

"movq 8(%0),%%mm3\n" /* mm3 = pix1[8-15] */

517

"movq 8(%1),%%mm4\n" /* mm4 = pix2[8-15] */

518

519

/* todo: mm1-mm2, mm3-mm4 */

520

/* algo: substract mm1 from mm2 with saturation and vice versa */

521

/* OR the results to get absolute difference */

522

"movq %%mm1,%%mm5\n"

523

"movq %%mm3,%%mm6\n"

524

"psubusb %%mm2,%%mm1\n"

525

"psubusb %%mm4,%%mm3\n"

526

"psubusb %%mm5,%%mm2\n"

527

"psubusb %%mm6,%%mm4\n"

528

529

"por %%mm1,%%mm2\n"

530

"por %%mm3,%%mm4\n"

531

532

/* now convert to 16-bit vectors so we can square them */

533

"movq %%mm2,%%mm1\n"

534

"movq %%mm4,%%mm3\n"

535

536

"punpckhbw %%mm0,%%mm2\n"

537

"punpckhbw %%mm0,%%mm4\n"

538

"punpcklbw %%mm0,%%mm1\n" /* mm1 now spread over (mm1,mm2) */

539

"punpcklbw %%mm0,%%mm3\n" /* mm4 now spread over (mm3,mm4) */

540

541

"pmaddwd %%mm2,%%mm2\n"

542

"pmaddwd %%mm4,%%mm4\n"

543

"pmaddwd %%mm1,%%mm1\n"

544

"pmaddwd %%mm3,%%mm3\n"

545

546

"addl %3,%0\n"

547

"addl %3,%1\n"

548

549

"paddd %%mm2,%%mm1\n"

550

"paddd %%mm4,%%mm3\n"

551

"paddd %%mm1,%%mm7\n"

552

"paddd %%mm3,%%mm7\n"

553

554

"decl %%ecx\n"

555

"jnz 1b\n"

556

557

"movq %%mm7,%%mm1\n"

558

"psrlq $32, %%mm7\n" /* shift hi dword to lo */

559

"paddd %%mm7,%%mm1\n"

560

"movd %%mm1,%2\n"

561

: "+r" (pix1), "+r" (pix2), "=r"(tmp) : "r" (line_size) : "ecx");

562

return tmp;

563

}

755

: "+r" (pix), "=r"(tmp) : "r" ((long)line_size) : "%ecx" );

756

return tmp;

757

}

758

759

static int sse8_mmx(void *v, uint8_t * pix1, uint8_t * pix2, int line_size, int h) {

760

int tmp;

761

asm volatile (

762

"movl %4,%%ecx\n"

763

"shr $1,%%ecx\n"

764

"pxor %%mm0,%%mm0\n" /* mm0 = 0 */

765

"pxor %%mm7,%%mm7\n" /* mm7 holds the sum */

766

"1:\n"

767

"movq (%0),%%mm1\n" /* mm1 = pix1[0][0-7] */

768

"movq (%1),%%mm2\n" /* mm2 = pix2[0][0-7] */

769

"movq (%0,%3),%%mm3\n" /* mm3 = pix1[1][0-7] */

770

"movq (%1,%3),%%mm4\n" /* mm4 = pix2[1][0-7] */

771

772

/* todo: mm1-mm2, mm3-mm4 */

773

/* algo: substract mm1 from mm2 with saturation and vice versa */

774

/* OR the results to get absolute difference */

775

"movq %%mm1,%%mm5\n"

776

"movq %%mm3,%%mm6\n"

777

"psubusb %%mm2,%%mm1\n"

778

"psubusb %%mm4,%%mm3\n"

779

"psubusb %%mm5,%%mm2\n"

780

"psubusb %%mm6,%%mm4\n"

781

782

"por %%mm1,%%mm2\n"

783

"por %%mm3,%%mm4\n"

784

785

/* now convert to 16-bit vectors so we can square them */

786

"movq %%mm2,%%mm1\n"

787

"movq %%mm4,%%mm3\n"

788

789

"punpckhbw %%mm0,%%mm2\n"

790

"punpckhbw %%mm0,%%mm4\n"

791

"punpcklbw %%mm0,%%mm1\n" /* mm1 now spread over (mm1,mm2) */

792

"punpcklbw %%mm0,%%mm3\n" /* mm4 now spread over (mm3,mm4) */

793

794

"pmaddwd %%mm2,%%mm2\n"

795

"pmaddwd %%mm4,%%mm4\n"

796

"pmaddwd %%mm1,%%mm1\n"

797

"pmaddwd %%mm3,%%mm3\n"

798

799

"lea (%0,%3,2), %0\n" /* pix1 += 2*line_size */

800

"lea (%1,%3,2), %1\n" /* pix2 += 2*line_size */

801

802

"paddd %%mm2,%%mm1\n"

803

"paddd %%mm4,%%mm3\n"

804

"paddd %%mm1,%%mm7\n"

805

"paddd %%mm3,%%mm7\n"

806

807

"decl %%ecx\n"

808

"jnz 1b\n"

809

810

"movq %%mm7,%%mm1\n"

811

"psrlq $32, %%mm7\n" /* shift hi dword to lo */

812

"paddd %%mm7,%%mm1\n"

813

"movd %%mm1,%2\n"

814

: "+r" (pix1), "+r" (pix2), "=r"(tmp)

815

: "r" ((long)line_size) , "m" (h)

816

: "%ecx");

817

return tmp;

818

}

819

820

static int sse16_mmx(void *v, uint8_t * pix1, uint8_t * pix2, int line_size, int h) {

821

int tmp;

822

asm volatile (

823

"movl %4,%%ecx\n"

824

"pxor %%mm0,%%mm0\n" /* mm0 = 0 */

825

"pxor %%mm7,%%mm7\n" /* mm7 holds the sum */

826

"1:\n"

827

"movq (%0),%%mm1\n" /* mm1 = pix1[0-7] */

828

"movq (%1),%%mm2\n" /* mm2 = pix2[0-7] */

829

"movq 8(%0),%%mm3\n" /* mm3 = pix1[8-15] */

830

"movq 8(%1),%%mm4\n" /* mm4 = pix2[8-15] */

831

832

/* todo: mm1-mm2, mm3-mm4 */

833

/* algo: substract mm1 from mm2 with saturation and vice versa */

834

/* OR the results to get absolute difference */

835

"movq %%mm1,%%mm5\n"

836

"movq %%mm3,%%mm6\n"

837

"psubusb %%mm2,%%mm1\n"

838

"psubusb %%mm4,%%mm3\n"

839

"psubusb %%mm5,%%mm2\n"

840

"psubusb %%mm6,%%mm4\n"

841

842

"por %%mm1,%%mm2\n"

843

"por %%mm3,%%mm4\n"

844

845

/* now convert to 16-bit vectors so we can square them */

846

"movq %%mm2,%%mm1\n"

847

"movq %%mm4,%%mm3\n"

848

849

"punpckhbw %%mm0,%%mm2\n"

850

"punpckhbw %%mm0,%%mm4\n"

851

"punpcklbw %%mm0,%%mm1\n" /* mm1 now spread over (mm1,mm2) */

852

"punpcklbw %%mm0,%%mm3\n" /* mm4 now spread over (mm3,mm4) */

853

854

"pmaddwd %%mm2,%%mm2\n"

855

"pmaddwd %%mm4,%%mm4\n"

856

"pmaddwd %%mm1,%%mm1\n"

857

"pmaddwd %%mm3,%%mm3\n"

858

859

"add %3,%0\n"

860

"add %3,%1\n"

861

862

"paddd %%mm2,%%mm1\n"

863

"paddd %%mm4,%%mm3\n"

864

"paddd %%mm1,%%mm7\n"

865

"paddd %%mm3,%%mm7\n"

866

867

"decl %%ecx\n"

868

"jnz 1b\n"

869

870

"movq %%mm7,%%mm1\n"

871

"psrlq $32, %%mm7\n" /* shift hi dword to lo */

872

"paddd %%mm7,%%mm1\n"

873

"movd %%mm1,%2\n"

874

: "+r" (pix1), "+r" (pix2), "=r"(tmp)

875

: "r" ((long)line_size) , "m" (h)

876

: "%ecx");

877

return tmp;

878

}

879

880

static int sse16_sse2(void *v, uint8_t * pix1, uint8_t * pix2, int line_size, int h) {

881

int tmp;

882

asm volatile (

883

"shr $1,%2\n"

884

"pxor %%xmm0,%%xmm0\n" /* mm0 = 0 */

885

"pxor %%xmm7,%%xmm7\n" /* mm7 holds the sum */

886

"1:\n"

887

"movdqu (%0),%%xmm1\n" /* mm1 = pix1[0][0-15] */

888

"movdqu (%1),%%xmm2\n" /* mm2 = pix2[0][0-15] */

889

"movdqu (%0,%4),%%xmm3\n" /* mm3 = pix1[1][0-15] */

890

"movdqu (%1,%4),%%xmm4\n" /* mm4 = pix2[1][0-15] */

891

892

/* todo: mm1-mm2, mm3-mm4 */

893

/* algo: substract mm1 from mm2 with saturation and vice versa */

894

/* OR the results to get absolute difference */

895

"movdqa %%xmm1,%%xmm5\n"

896

"movdqa %%xmm3,%%xmm6\n"

897

"psubusb %%xmm2,%%xmm1\n"

898

"psubusb %%xmm4,%%xmm3\n"

899

"psubusb %%xmm5,%%xmm2\n"

900

"psubusb %%xmm6,%%xmm4\n"

901

902

"por %%xmm1,%%xmm2\n"

903

"por %%xmm3,%%xmm4\n"

904

905

/* now convert to 16-bit vectors so we can square them */

906

"movdqa %%xmm2,%%xmm1\n"

907

"movdqa %%xmm4,%%xmm3\n"

908

909

"punpckhbw %%xmm0,%%xmm2\n"

910

"punpckhbw %%xmm0,%%xmm4\n"

911

"punpcklbw %%xmm0,%%xmm1\n" /* mm1 now spread over (mm1,mm2) */

912

"punpcklbw %%xmm0,%%xmm3\n" /* mm4 now spread over (mm3,mm4) */

913

914

"pmaddwd %%xmm2,%%xmm2\n"

915

"pmaddwd %%xmm4,%%xmm4\n"

916

"pmaddwd %%xmm1,%%xmm1\n"

917

"pmaddwd %%xmm3,%%xmm3\n"

918

919

"lea (%0,%4,2), %0\n" /* pix1 += 2*line_size */

920

"lea (%1,%4,2), %1\n" /* pix2 += 2*line_size */

921

922

"paddd %%xmm2,%%xmm1\n"

923

"paddd %%xmm4,%%xmm3\n"

924

"paddd %%xmm1,%%xmm7\n"

925

"paddd %%xmm3,%%xmm7\n"

926

927

"decl %2\n"

928

"jnz 1b\n"

929

930

"movdqa %%xmm7,%%xmm1\n"

931

"psrldq $8, %%xmm7\n" /* shift hi qword to lo */

932

"paddd %%xmm1,%%xmm7\n"

933

"movdqa %%xmm7,%%xmm1\n"

934

"psrldq $4, %%xmm7\n" /* shift hi dword to lo */

935

"paddd %%xmm1,%%xmm7\n"

936

"movd %%xmm7,%3\n"

937

: "+r" (pix1), "+r" (pix2), "+r"(h), "=r"(tmp)

938

: "r" ((long)line_size));

939

return tmp;

940

}

941

942

static int hf_noise8_mmx(uint8_t * pix1, int line_size, int h) {

943

int tmp;

944

asm volatile (

945

"movl %3,%%ecx\n"

946

"pxor %%mm7,%%mm7\n"

947

"pxor %%mm6,%%mm6\n"

948

949

"movq (%0),%%mm0\n"

950

"movq %%mm0, %%mm1\n"

951

"psllq $8, %%mm0\n"

952

"psrlq $8, %%mm1\n"

953

"psrlq $8, %%mm0\n"

954

"movq %%mm0, %%mm2\n"

955

"movq %%mm1, %%mm3\n"

956

"punpcklbw %%mm7,%%mm0\n"

957

"punpcklbw %%mm7,%%mm1\n"

958

"punpckhbw %%mm7,%%mm2\n"

959

"punpckhbw %%mm7,%%mm3\n"

960

"psubw %%mm1, %%mm0\n"

961

"psubw %%mm3, %%mm2\n"

962

963

"add %2,%0\n"

964

965

"movq (%0),%%mm4\n"

966

"movq %%mm4, %%mm1\n"

967

"psllq $8, %%mm4\n"

968

"psrlq $8, %%mm1\n"

969

"psrlq $8, %%mm4\n"

970

"movq %%mm4, %%mm5\n"

971

"movq %%mm1, %%mm3\n"

972

"punpcklbw %%mm7,%%mm4\n"

973

"punpcklbw %%mm7,%%mm1\n"

974

"punpckhbw %%mm7,%%mm5\n"

975

"punpckhbw %%mm7,%%mm3\n"

976

"psubw %%mm1, %%mm4\n"

977

"psubw %%mm3, %%mm5\n"

978

"psubw %%mm4, %%mm0\n"

979

"psubw %%mm5, %%mm2\n"

980

"pxor %%mm3, %%mm3\n"

981

"pxor %%mm1, %%mm1\n"

982

"pcmpgtw %%mm0, %%mm3\n\t"

983

"pcmpgtw %%mm2, %%mm1\n\t"

984

"pxor %%mm3, %%mm0\n"

985

"pxor %%mm1, %%mm2\n"

986

"psubw %%mm3, %%mm0\n"

987

"psubw %%mm1, %%mm2\n"

988

"paddw %%mm0, %%mm2\n"

989

"paddw %%mm2, %%mm6\n"

990

991

"add %2,%0\n"

992

"1:\n"

993

994

"movq (%0),%%mm0\n"

995

"movq %%mm0, %%mm1\n"

996

"psllq $8, %%mm0\n"

997

"psrlq $8, %%mm1\n"

998

"psrlq $8, %%mm0\n"

999

"movq %%mm0, %%mm2\n"

1000

"movq %%mm1, %%mm3\n"

1001

"punpcklbw %%mm7,%%mm0\n"

1002

"punpcklbw %%mm7,%%mm1\n"

1003

"punpckhbw %%mm7,%%mm2\n"

1004

"punpckhbw %%mm7,%%mm3\n"

1005

"psubw %%mm1, %%mm0\n"

1006

"psubw %%mm3, %%mm2\n"

1007

"psubw %%mm0, %%mm4\n"

1008

"psubw %%mm2, %%mm5\n"

1009

"pxor %%mm3, %%mm3\n"

1010

"pxor %%mm1, %%mm1\n"

1011

"pcmpgtw %%mm4, %%mm3\n\t"

1012

"pcmpgtw %%mm5, %%mm1\n\t"

1013

"pxor %%mm3, %%mm4\n"

1014

"pxor %%mm1, %%mm5\n"

1015

"psubw %%mm3, %%mm4\n"

1016

"psubw %%mm1, %%mm5\n"

1017

"paddw %%mm4, %%mm5\n"

1018

"paddw %%mm5, %%mm6\n"

1019

1020

"add %2,%0\n"

1021

1022

"movq (%0),%%mm4\n"

1023

"movq %%mm4, %%mm1\n"

1024

"psllq $8, %%mm4\n"

1025

"psrlq $8, %%mm1\n"

1026

"psrlq $8, %%mm4\n"

1027

"movq %%mm4, %%mm5\n"

1028

"movq %%mm1, %%mm3\n"

1029

"punpcklbw %%mm7,%%mm4\n"

1030

"punpcklbw %%mm7,%%mm1\n"

1031

"punpckhbw %%mm7,%%mm5\n"

1032

"punpckhbw %%mm7,%%mm3\n"

1033

"psubw %%mm1, %%mm4\n"

1034

"psubw %%mm3, %%mm5\n"

1035

"psubw %%mm4, %%mm0\n"

1036

"psubw %%mm5, %%mm2\n"

1037

"pxor %%mm3, %%mm3\n"

1038

"pxor %%mm1, %%mm1\n"

1039

"pcmpgtw %%mm0, %%mm3\n\t"

1040

"pcmpgtw %%mm2, %%mm1\n\t"

1041

"pxor %%mm3, %%mm0\n"

1042

"pxor %%mm1, %%mm2\n"

1043

"psubw %%mm3, %%mm0\n"

1044

"psubw %%mm1, %%mm2\n"

1045

"paddw %%mm0, %%mm2\n"

1046

"paddw %%mm2, %%mm6\n"

1047

1048

"add %2,%0\n"

1049

"subl $2, %%ecx\n"

1050

" jnz 1b\n"

1051

1052

"movq %%mm6, %%mm0\n"

1053

"punpcklwd %%mm7,%%mm0\n"

1054

"punpckhwd %%mm7,%%mm6\n"

1055

"paddd %%mm0, %%mm6\n"

1056

1057

"movq %%mm6,%%mm0\n"

1058

"psrlq $32, %%mm6\n"

1059

"paddd %%mm6,%%mm0\n"

1060

"movd %%mm0,%1\n"

1061

: "+r" (pix1), "=r"(tmp)

1062

: "r" ((long)line_size) , "g" (h-2)

1063

: "%ecx");

1064

return tmp;

1065

}

1066

1067

static int hf_noise16_mmx(uint8_t * pix1, int line_size, int h) {

1068

int tmp;

1069

uint8_t * pix= pix1;

1070

asm volatile (

1071

"movl %3,%%ecx\n"

1072

"pxor %%mm7,%%mm7\n"

1073

"pxor %%mm6,%%mm6\n"

1074

1075

"movq (%0),%%mm0\n"

1076

"movq 1(%0),%%mm1\n"

1077

"movq %%mm0, %%mm2\n"

1078

"movq %%mm1, %%mm3\n"

1079

"punpcklbw %%mm7,%%mm0\n"

1080

"punpcklbw %%mm7,%%mm1\n"

1081

"punpckhbw %%mm7,%%mm2\n"

1082

"punpckhbw %%mm7,%%mm3\n"

1083

"psubw %%mm1, %%mm0\n"

1084

"psubw %%mm3, %%mm2\n"

1085

1086

"add %2,%0\n"

1087

1088

"movq (%0),%%mm4\n"

1089

"movq 1(%0),%%mm1\n"

1090

"movq %%mm4, %%mm5\n"

1091

"movq %%mm1, %%mm3\n"

1092

"punpcklbw %%mm7,%%mm4\n"

1093

"punpcklbw %%mm7,%%mm1\n"

1094

"punpckhbw %%mm7,%%mm5\n"

1095

"punpckhbw %%mm7,%%mm3\n"

1096

"psubw %%mm1, %%mm4\n"

1097

"psubw %%mm3, %%mm5\n"

1098

"psubw %%mm4, %%mm0\n"

1099

"psubw %%mm5, %%mm2\n"

1100

"pxor %%mm3, %%mm3\n"

1101

"pxor %%mm1, %%mm1\n"

1102

"pcmpgtw %%mm0, %%mm3\n\t"

1103

"pcmpgtw %%mm2, %%mm1\n\t"

1104

"pxor %%mm3, %%mm0\n"

1105

"pxor %%mm1, %%mm2\n"

1106

"psubw %%mm3, %%mm0\n"

1107

"psubw %%mm1, %%mm2\n"

1108

"paddw %%mm0, %%mm2\n"

1109

"paddw %%mm2, %%mm6\n"

1110

1111

"add %2,%0\n"

1112

"1:\n"

1113

1114

"movq (%0),%%mm0\n"

1115

"movq 1(%0),%%mm1\n"

1116

"movq %%mm0, %%mm2\n"

1117

"movq %%mm1, %%mm3\n"

1118

"punpcklbw %%mm7,%%mm0\n"

1119

"punpcklbw %%mm7,%%mm1\n"

1120

"punpckhbw %%mm7,%%mm2\n"

1121

"punpckhbw %%mm7,%%mm3\n"

1122

"psubw %%mm1, %%mm0\n"

1123

"psubw %%mm3, %%mm2\n"

1124

"psubw %%mm0, %%mm4\n"

1125

"psubw %%mm2, %%mm5\n"

1126

"pxor %%mm3, %%mm3\n"

1127

"pxor %%mm1, %%mm1\n"

1128

"pcmpgtw %%mm4, %%mm3\n\t"

1129

"pcmpgtw %%mm5, %%mm1\n\t"

1130

"pxor %%mm3, %%mm4\n"

1131

"pxor %%mm1, %%mm5\n"

1132

"psubw %%mm3, %%mm4\n"

1133

"psubw %%mm1, %%mm5\n"

1134

"paddw %%mm4, %%mm5\n"

1135

"paddw %%mm5, %%mm6\n"

1136

1137

"add %2,%0\n"

1138

1139

"movq (%0),%%mm4\n"

1140

"movq 1(%0),%%mm1\n"

1141

"movq %%mm4, %%mm5\n"

1142

"movq %%mm1, %%mm3\n"

1143

"punpcklbw %%mm7,%%mm4\n"

1144

"punpcklbw %%mm7,%%mm1\n"

1145

"punpckhbw %%mm7,%%mm5\n"

1146

"punpckhbw %%mm7,%%mm3\n"

1147

"psubw %%mm1, %%mm4\n"

1148

"psubw %%mm3, %%mm5\n"

1149

"psubw %%mm4, %%mm0\n"

1150

"psubw %%mm5, %%mm2\n"

1151

"pxor %%mm3, %%mm3\n"

1152

"pxor %%mm1, %%mm1\n"

1153

"pcmpgtw %%mm0, %%mm3\n\t"

1154

"pcmpgtw %%mm2, %%mm1\n\t"

1155

"pxor %%mm3, %%mm0\n"

1156

"pxor %%mm1, %%mm2\n"

1157

"psubw %%mm3, %%mm0\n"

1158

"psubw %%mm1, %%mm2\n"

1159

"paddw %%mm0, %%mm2\n"

1160

"paddw %%mm2, %%mm6\n"

1161

1162

"add %2,%0\n"

1163

"subl $2, %%ecx\n"

1164

" jnz 1b\n"

1165

1166

"movq %%mm6, %%mm0\n"

1167

"punpcklwd %%mm7,%%mm0\n"

1168

"punpckhwd %%mm7,%%mm6\n"

1169

"paddd %%mm0, %%mm6\n"

1170

1171

"movq %%mm6,%%mm0\n"

1172

"psrlq $32, %%mm6\n"

1173

"paddd %%mm6,%%mm0\n"

1174

"movd %%mm0,%1\n"

1175

: "+r" (pix1), "=r"(tmp)

1176

: "r" ((long)line_size) , "g" (h-2)

1177

: "%ecx");

1178

return tmp + hf_noise8_mmx(pix+8, line_size, h);

1179

}

1180

1181

static int nsse16_mmx(void *p, uint8_t * pix1, uint8_t * pix2, int line_size, int h) {

1182

MpegEncContext *c = p;

1183

int score1, score2;

1184

1185

if(c) score1 = c->dsp.sse[0](c, pix1, pix2, line_size, h);

1186

else score1 = sse16_mmx(c, pix1, pix2, line_size, h);

1187

score2= hf_noise16_mmx(pix1, line_size, h) - hf_noise16_mmx(pix2, line_size, h);

1188

1189

if(c) return score1 + FFABS(score2)*c->avctx->nsse_weight;

1190

else return score1 + FFABS(score2)*8;

1191

}

1192

1193

static int nsse8_mmx(void *p, uint8_t * pix1, uint8_t * pix2, int line_size, int h) {

1194

MpegEncContext *c = p;

1195

int score1= sse8_mmx(c, pix1, pix2, line_size, h);

1196

int score2= hf_noise8_mmx(pix1, line_size, h) - hf_noise8_mmx(pix2, line_size, h);

1197

1198

if(c) return score1 + FFABS(score2)*c->avctx->nsse_weight;

1199

else return score1 + FFABS(score2)*8;

1200

}

1201

1202

static int vsad_intra16_mmx(void *v, uint8_t * pix, uint8_t * dummy, int line_size, int h) {

1203

int tmp;

1204

1205

assert( (((int)pix) & 7) == 0);

1206

assert((line_size &7) ==0);

1207

1208

#define SUM(in0, in1, out0, out1) \

1209

"movq (%0), %%mm2\n"\

1210

"movq 8(%0), %%mm3\n"\

1211

"add %2,%0\n"\

1212

"movq %%mm2, " #out0 "\n"\

1213

"movq %%mm3, " #out1 "\n"\

1214

"psubusb " #in0 ", %%mm2\n"\

1215

"psubusb " #in1 ", %%mm3\n"\

1216

"psubusb " #out0 ", " #in0 "\n"\

1217

"psubusb " #out1 ", " #in1 "\n"\

1218

"por %%mm2, " #in0 "\n"\

1219

"por %%mm3, " #in1 "\n"\

1220

"movq " #in0 ", %%mm2\n"\

1221

"movq " #in1 ", %%mm3\n"\

1222

"punpcklbw %%mm7, " #in0 "\n"\

1223

"punpcklbw %%mm7, " #in1 "\n"\

1224

"punpckhbw %%mm7, %%mm2\n"\

1225

"punpckhbw %%mm7, %%mm3\n"\

1226

"paddw " #in1 ", " #in0 "\n"\

1227

"paddw %%mm3, %%mm2\n"\

1228

"paddw %%mm2, " #in0 "\n"\

1229

"paddw " #in0 ", %%mm6\n"

1230

1231

1232

asm volatile (

1233

"movl %3,%%ecx\n"

1234

"pxor %%mm6,%%mm6\n"

1235

"pxor %%mm7,%%mm7\n"

1236

"movq (%0),%%mm0\n"

1237

"movq 8(%0),%%mm1\n"

1238

"add %2,%0\n"

1239

"subl $2, %%ecx\n"

1240

SUM(%%mm0, %%mm1, %%mm4, %%mm5)

1241

"1:\n"

1242

1243

SUM(%%mm4, %%mm5, %%mm0, %%mm1)

1244

1245

SUM(%%mm0, %%mm1, %%mm4, %%mm5)

1246

1247

"subl $2, %%ecx\n"

1248

"jnz 1b\n"

1249

1250

"movq %%mm6,%%mm0\n"

1251

"psrlq $32, %%mm6\n"

1252

"paddw %%mm6,%%mm0\n"

1253

"movq %%mm0,%%mm6\n"

1254

"psrlq $16, %%mm0\n"

1255

"paddw %%mm6,%%mm0\n"

1256

"movd %%mm0,%1\n"

1257

: "+r" (pix), "=r"(tmp)

1258

: "r" ((long)line_size) , "m" (h)

1259

: "%ecx");

1260

return tmp & 0xFFFF;

1261

}

1262

#undef SUM

1263

1264

static int vsad_intra16_mmx2(void *v, uint8_t * pix, uint8_t * dummy, int line_size, int h) {

1265

int tmp;

1266

1267

assert( (((int)pix) & 7) == 0);

1268

assert((line_size &7) ==0);

1269

1270

#define SUM(in0, in1, out0, out1) \

1271

"movq (%0), " #out0 "\n"\

1272

"movq 8(%0), " #out1 "\n"\

1273

"add %2,%0\n"\

1274

"psadbw " #out0 ", " #in0 "\n"\

1275

"psadbw " #out1 ", " #in1 "\n"\

1276

"paddw " #in1 ", " #in0 "\n"\

1277

"paddw " #in0 ", %%mm6\n"

1278

1279

asm volatile (

1280

"movl %3,%%ecx\n"

1281

"pxor %%mm6,%%mm6\n"

1282

"pxor %%mm7,%%mm7\n"

1283

"movq (%0),%%mm0\n"

1284

"movq 8(%0),%%mm1\n"

1285

"add %2,%0\n"

1286

"subl $2, %%ecx\n"

1287

SUM(%%mm0, %%mm1, %%mm4, %%mm5)

1288

"1:\n"

1289

1290

SUM(%%mm4, %%mm5, %%mm0, %%mm1)

1291

1292

SUM(%%mm0, %%mm1, %%mm4, %%mm5)

1293

1294

"subl $2, %%ecx\n"

1295

"jnz 1b\n"

1296

1297

"movd %%mm6,%1\n"

1298

: "+r" (pix), "=r"(tmp)

1299

: "r" ((long)line_size) , "m" (h)

1300

: "%ecx");

1301

return tmp;

1302

}

1303

#undef SUM

1304

1305

static int vsad16_mmx(void *v, uint8_t * pix1, uint8_t * pix2, int line_size, int h) {

1306

int tmp;

1307

1308

assert( (((int)pix1) & 7) == 0);

1309

assert( (((int)pix2) & 7) == 0);

1310

assert((line_size &7) ==0);

1311

1312

#define SUM(in0, in1, out0, out1) \

1313

"movq (%0),%%mm2\n"\

1314

"movq (%1)," #out0 "\n"\

1315

"movq 8(%0),%%mm3\n"\

1316

"movq 8(%1)," #out1 "\n"\

1317

"add %3,%0\n"\

1318

"add %3,%1\n"\

1319

"psubb " #out0 ", %%mm2\n"\

1320

"psubb " #out1 ", %%mm3\n"\

1321

"pxor %%mm7, %%mm2\n"\

1322

"pxor %%mm7, %%mm3\n"\

1323

"movq %%mm2, " #out0 "\n"\

1324

"movq %%mm3, " #out1 "\n"\

1325

"psubusb " #in0 ", %%mm2\n"\

1326

"psubusb " #in1 ", %%mm3\n"\

1327

"psubusb " #out0 ", " #in0 "\n"\

1328

"psubusb " #out1 ", " #in1 "\n"\

1329

"por %%mm2, " #in0 "\n"\

1330

"por %%mm3, " #in1 "\n"\

1331

"movq " #in0 ", %%mm2\n"\

1332

"movq " #in1 ", %%mm3\n"\

1333

"punpcklbw %%mm7, " #in0 "\n"\

1334

"punpcklbw %%mm7, " #in1 "\n"\

1335

"punpckhbw %%mm7, %%mm2\n"\

1336

"punpckhbw %%mm7, %%mm3\n"\

1337

"paddw " #in1 ", " #in0 "\n"\

1338

"paddw %%mm3, %%mm2\n"\

1339

"paddw %%mm2, " #in0 "\n"\

1340

"paddw " #in0 ", %%mm6\n"

1341

1342

1343

asm volatile (

1344

"movl %4,%%ecx\n"

1345

"pxor %%mm6,%%mm6\n"

1346

"pcmpeqw %%mm7,%%mm7\n"

1347

"psllw $15, %%mm7\n"

1348

"packsswb %%mm7, %%mm7\n"

1349

"movq (%0),%%mm0\n"

1350

"movq (%1),%%mm2\n"

1351

"movq 8(%0),%%mm1\n"

1352

"movq 8(%1),%%mm3\n"

1353

"add %3,%0\n"

1354

"add %3,%1\n"

1355

"subl $2, %%ecx\n"

1356

"psubb %%mm2, %%mm0\n"

1357

"psubb %%mm3, %%mm1\n"

1358

"pxor %%mm7, %%mm0\n"

1359

"pxor %%mm7, %%mm1\n"

1360

SUM(%%mm0, %%mm1, %%mm4, %%mm5)

1361

"1:\n"

1362

1363

SUM(%%mm4, %%mm5, %%mm0, %%mm1)

1364

1365

SUM(%%mm0, %%mm1, %%mm4, %%mm5)

1366

1367

"subl $2, %%ecx\n"

1368

"jnz 1b\n"

1369

1370

"movq %%mm6,%%mm0\n"

1371

"psrlq $32, %%mm6\n"

1372

"paddw %%mm6,%%mm0\n"

1373

"movq %%mm0,%%mm6\n"

1374

"psrlq $16, %%mm0\n"

1375

"paddw %%mm6,%%mm0\n"

1376

"movd %%mm0,%2\n"

1377

: "+r" (pix1), "+r" (pix2), "=r"(tmp)

1378

: "r" ((long)line_size) , "m" (h)

1379

: "%ecx");

1380

return tmp & 0x7FFF;

1381

}

1382

#undef SUM

1383

1384

static int vsad16_mmx2(void *v, uint8_t * pix1, uint8_t * pix2, int line_size, int h) {

1385

int tmp;

1386

1387

assert( (((int)pix1) & 7) == 0);

1388

assert( (((int)pix2) & 7) == 0);

1389

assert((line_size &7) ==0);

1390

1391

#define SUM(in0, in1, out0, out1) \

1392

"movq (%0)," #out0 "\n"\

1393

"movq (%1),%%mm2\n"\

1394

"movq 8(%0)," #out1 "\n"\

1395

"movq 8(%1),%%mm3\n"\

1396

"add %3,%0\n"\

1397

"add %3,%1\n"\

1398

"psubb %%mm2, " #out0 "\n"\

1399

"psubb %%mm3, " #out1 "\n"\

1400

"pxor %%mm7, " #out0 "\n"\

1401

"pxor %%mm7, " #out1 "\n"\

1402

"psadbw " #out0 ", " #in0 "\n"\

1403

"psadbw " #out1 ", " #in1 "\n"\

1404

"paddw " #in1 ", " #in0 "\n"\

1405

"paddw " #in0 ", %%mm6\n"

1406

1407

asm volatile (

1408

"movl %4,%%ecx\n"

1409

"pxor %%mm6,%%mm6\n"

1410

"pcmpeqw %%mm7,%%mm7\n"

1411

"psllw $15, %%mm7\n"

1412

"packsswb %%mm7, %%mm7\n"

1413

"movq (%0),%%mm0\n"

1414

"movq (%1),%%mm2\n"

1415

"movq 8(%0),%%mm1\n"

1416

"movq 8(%1),%%mm3\n"

1417

"add %3,%0\n"

1418

"add %3,%1\n"

1419

"subl $2, %%ecx\n"

1420

"psubb %%mm2, %%mm0\n"

1421

"psubb %%mm3, %%mm1\n"

1422

"pxor %%mm7, %%mm0\n"

1423

"pxor %%mm7, %%mm1\n"

1424

SUM(%%mm0, %%mm1, %%mm4, %%mm5)

1425

"1:\n"

1426

1427

SUM(%%mm4, %%mm5, %%mm0, %%mm1)

1428

1429

SUM(%%mm0, %%mm1, %%mm4, %%mm5)

1430

1431

"subl $2, %%ecx\n"

1432

"jnz 1b\n"

1433

1434

"movd %%mm6,%2\n"

1435

: "+r" (pix1), "+r" (pix2), "=r"(tmp)

1436

: "r" ((long)line_size) , "m" (h)

1437

: "%ecx");

1438

return tmp;

1439

}

1440

#undef SUM

564

1441

565

1442

static void diff_bytes_mmx(uint8_t *dst, uint8_t *src1, uint8_t *src2, int w){

566

int i=0;

1443

long i=0;

567

1444

asm volatile(

568

"1: \n\t"

569

"movq (%2, %0), %%mm0 \n\t"

570

"movq (%1, %0), %%mm1 \n\t"

571

"psubb %%mm0, %%mm1 \n\t"

572

"movq %%mm1, (%3, %0) \n\t"

573

"movq 8(%2, %0), %%mm0 \n\t"

574

"movq 8(%1, %0), %%mm1 \n\t"

575

"psubb %%mm0, %%mm1 \n\t"

576

"movq %%mm1, 8(%3, %0) \n\t"

577

"addl $16, %0 \n\t"

578

"cmpl %4, %0 \n\t"

579

" jb 1b \n\t"

1445

"1: \n\t"

1446

"movq (%2, %0), %%mm0 \n\t"

1447

"movq (%1, %0), %%mm1 \n\t"

1448

"psubb %%mm0, %%mm1 \n\t"

1449

"movq %%mm1, (%3, %0) \n\t"

1450

"movq 8(%2, %0), %%mm0 \n\t"

1451

"movq 8(%1, %0), %%mm1 \n\t"

1452

"psubb %%mm0, %%mm1 \n\t"

1453

"movq %%mm1, 8(%3, %0) \n\t"

1454

"add $16, %0 \n\t"

1455

"cmp %4, %0 \n\t"

1456

" jb 1b \n\t"

580

1457

: "+r" (i)

581

: "r"(src1), "r"(src2), "r"(dst), "r"(w-15)

1458

: "r"(src1), "r"(src2), "r"(dst), "r"((long)w-15)

582

1459

);

583

1460

for(; i<w; i++)

584

1461

dst[i+0] = src1[i+0]-src2[i+0];

585

1462

}

1463

1464

static void sub_hfyu_median_prediction_mmx2(uint8_t *dst, uint8_t *src1, uint8_t *src2, int w, int *left, int *left_top){

1465

long i=0;

1466

uint8_t l, lt;

1467

1468

asm volatile(

1469

"1: \n\t"

1470

"movq -1(%1, %0), %%mm0 \n\t" // LT

1471

"movq (%1, %0), %%mm1 \n\t" // T

1472

"movq -1(%2, %0), %%mm2 \n\t" // L

1473

"movq (%2, %0), %%mm3 \n\t" // X

1474

"movq %%mm2, %%mm4 \n\t" // L

1475

"psubb %%mm0, %%mm2 \n\t"

1476

"paddb %%mm1, %%mm2 \n\t" // L + T - LT

1477

"movq %%mm4, %%mm5 \n\t" // L

1478

"pmaxub %%mm1, %%mm4 \n\t" // max(T, L)

1479

"pminub %%mm5, %%mm1 \n\t" // min(T, L)

1480

"pminub %%mm2, %%mm4 \n\t"

1481

"pmaxub %%mm1, %%mm4 \n\t"

1482

"psubb %%mm4, %%mm3 \n\t" // dst - pred

1483

"movq %%mm3, (%3, %0) \n\t"

1484

"add $8, %0 \n\t"

1485

"cmp %4, %0 \n\t"

1486

" jb 1b \n\t"

1487

: "+r" (i)

1488

: "r"(src1), "r"(src2), "r"(dst), "r"((long)w)

1489

);

1490

1491

l= *left;

1492

lt= *left_top;

1493

1494

dst[0]= src2[0] - mid_pred(l, src1[0], (l + src1[0] - lt)&0xFF);

1495

1496

*left_top= src1[w-1];

1497

*left = src2[w-1];

1498

}

1499

586

1500

#define LBUTTERFLY2(a1,b1,a2,b2)\

587

"paddw " #b1 ", " #a1 " \n\t"\

588

"paddw " #b2 ", " #a2 " \n\t"\

589

"paddw " #b1 ", " #b1 " \n\t"\

590

"paddw " #b2 ", " #b2 " \n\t"\

591

"psubw " #a1 ", " #b1 " \n\t"\

592

"psubw " #a2 ", " #b2 " \n\t"

1501

"paddw " #b1 ", " #a1 " \n\t"\

1502

"paddw " #b2 ", " #a2 " \n\t"\

1503

"paddw " #b1 ", " #b1 " \n\t"\

1504

"paddw " #b2 ", " #b2 " \n\t"\

1505

"psubw " #a1 ", " #b1 " \n\t"\

1506

"psubw " #a2 ", " #b2 " \n\t"

593

1507

594

1508

#define HADAMARD48\

595

1509

LBUTTERFLY2(%%mm0, %%mm1, %%mm2, %%mm3)\

600

1514

LBUTTERFLY2(%%mm2, %%mm6, %%mm3, %%mm7)\

601

1515

602

1516

#define MMABS(a,z)\

603

"pxor " #z ", " #z " \n\t"\

604

"pcmpgtw " #a ", " #z " \n\t"\

605

"pxor " #z ", " #a " \n\t"\

606

"psubw " #z ", " #a " \n\t"

1517

"pxor " #z ", " #z " \n\t"\

1518

"pcmpgtw " #a ", " #z " \n\t"\

1519

"pxor " #z ", " #a " \n\t"\

1520

"psubw " #z ", " #a " \n\t"

607

1521

608

1522

#define MMABS_SUM(a,z, sum)\

609

"pxor " #z ", " #z " \n\t"\

610

"pcmpgtw " #a ", " #z " \n\t"\

611

"pxor " #z ", " #a " \n\t"\

612

"psubw " #z ", " #a " \n\t"\

613

"paddusw " #a ", " #sum " \n\t"

1523

"pxor " #z ", " #z " \n\t"\

1524

"pcmpgtw " #a ", " #z " \n\t"\

1525

"pxor " #z ", " #a " \n\t"\

1526

"psubw " #z ", " #a " \n\t"\

1527

"paddusw " #a ", " #sum " \n\t"

614

1528

615

1529

#define MMABS_MMX2(a,z)\

616

"pxor " #z ", " #z " \n\t"\

617

"psubw " #a ", " #z " \n\t"\

618

"pmaxsw " #z ", " #a " \n\t"

1530

"pxor " #z ", " #z " \n\t"\

1531

"psubw " #a ", " #z " \n\t"\

1532

"pmaxsw " #z ", " #a " \n\t"

619

1533

620

1534

#define MMABS_SUM_MMX2(a,z, sum)\

621

"pxor " #z ", " #z " \n\t"\

622

"psubw " #a ", " #z " \n\t"\

623

"pmaxsw " #z ", " #a " \n\t"\

624

"paddusw " #a ", " #sum " \n\t"

625

626

#define SBUTTERFLY(a,b,t,n)\

627

"movq " #a ", " #t " \n\t" /* abcd */\

628

"punpckl" #n " " #b ", " #a " \n\t" /* aebf */\

629

"punpckh" #n " " #b ", " #t " \n\t" /* cgdh */\

1535

"pxor " #z ", " #z " \n\t"\

1536

"psubw " #a ", " #z " \n\t"\

1537

"pmaxsw " #z ", " #a " \n\t"\

1538

"paddusw " #a ", " #sum " \n\t"

630

1539

631

1540

#define TRANSPOSE4(a,b,c,d,t)\

632

1541

SBUTTERFLY(a,b,t,wd) /* a=aebf t=cgdh */\

635

1544

SBUTTERFLY(t,b,c,dq) /* t=cgko c=dhlp */

636

1545

637

1546

#define LOAD4(o, a, b, c, d)\

638

"movq "#o"(%1), " #a " \n\t"\

639

"movq "#o"+16(%1), " #b " \n\t"\

640

"movq "#o"+32(%1), " #c " \n\t"\

641

"movq "#o"+48(%1), " #d " \n\t"

1547

"movq "#o"(%1), " #a " \n\t"\

1548

"movq "#o"+16(%1), " #b " \n\t"\

1549

"movq "#o"+32(%1), " #c " \n\t"\

1550

"movq "#o"+48(%1), " #d " \n\t"

642

1551

643

1552

#define STORE4(o, a, b, c, d)\

644

"movq "#a", "#o"(%1) \n\t"\

645

"movq "#b", "#o"+16(%1) \n\t"\

646

"movq "#c", "#o"+32(%1) \n\t"\

647

"movq "#d", "#o"+48(%1) \n\t"\

648

649

static int hadamard8_diff_mmx(void *s, uint8_t *src1, uint8_t *src2, int stride){

650

uint64_t temp[16] __align8;

651

int sum=0;

652

653

diff_pixels_mmx((DCTELEM*)temp, src1, src2, stride);

654

655

asm volatile(

656

LOAD4(0 , %%mm0, %%mm1, %%mm2, %%mm3)

657

LOAD4(64, %%mm4, %%mm5, %%mm6, %%mm7)

658

659

HADAMARD48

660

661

"movq %%mm7, 112(%1) \n\t"

662

663

TRANSPOSE4(%%mm0, %%mm1, %%mm2, %%mm3, %%mm7)

664

STORE4(0 , %%mm0, %%mm3, %%mm7, %%mm2)

665

666

"movq 112(%1), %%mm7 \n\t"

667

TRANSPOSE4(%%mm4, %%mm5, %%mm6, %%mm7, %%mm0)

668

STORE4(64, %%mm4, %%mm7, %%mm0, %%mm6)

669

670

LOAD4(8 , %%mm0, %%mm1, %%mm2, %%mm3)

671

LOAD4(72, %%mm4, %%mm5, %%mm6, %%mm7)

672

673

HADAMARD48

674

675

"movq %%mm7, 120(%1) \n\t"

676

677

TRANSPOSE4(%%mm0, %%mm1, %%mm2, %%mm3, %%mm7)

678

STORE4(8 , %%mm0, %%mm3, %%mm7, %%mm2)

679

680

"movq 120(%1), %%mm7 \n\t"

681

TRANSPOSE4(%%mm4, %%mm5, %%mm6, %%mm7, %%mm0)

682

"movq %%mm7, %%mm5 \n\t"//FIXME remove

683

"movq %%mm6, %%mm7 \n\t"

684

"movq %%mm0, %%mm6 \n\t"

685

// STORE4(72, %%mm4, %%mm7, %%mm0, %%mm6) //FIXME remove

686

687

LOAD4(64, %%mm0, %%mm1, %%mm2, %%mm3)

688

// LOAD4(72, %%mm4, %%mm5, %%mm6, %%mm7)

689

690

HADAMARD48

691

"movq %%mm7, 64(%1) \n\t"

692

MMABS(%%mm0, %%mm7)

693

MMABS_SUM(%%mm1, %%mm7, %%mm0)

694

MMABS_SUM(%%mm2, %%mm7, %%mm0)

695

MMABS_SUM(%%mm3, %%mm7, %%mm0)

696

MMABS_SUM(%%mm4, %%mm7, %%mm0)

697

MMABS_SUM(%%mm5, %%mm7, %%mm0)

698

MMABS_SUM(%%mm6, %%mm7, %%mm0)

699

"movq 64(%1), %%mm1 \n\t"

700

MMABS_SUM(%%mm1, %%mm7, %%mm0)

701

"movq %%mm0, 64(%1) \n\t"

702

703

LOAD4(0 , %%mm0, %%mm1, %%mm2, %%mm3)

704

LOAD4(8 , %%mm4, %%mm5, %%mm6, %%mm7)

705

706

HADAMARD48

707

"movq %%mm7, (%1) \n\t"

708

MMABS(%%mm0, %%mm7)

709

MMABS_SUM(%%mm1, %%mm7, %%mm0)

710

MMABS_SUM(%%mm2, %%mm7, %%mm0)

711

MMABS_SUM(%%mm3, %%mm7, %%mm0)

712

MMABS_SUM(%%mm4, %%mm7, %%mm0)

713

MMABS_SUM(%%mm5, %%mm7, %%mm0)

714

MMABS_SUM(%%mm6, %%mm7, %%mm0)

715

"movq (%1), %%mm1 \n\t"

716

MMABS_SUM(%%mm1, %%mm7, %%mm0)

717

"movq 64(%1), %%mm1 \n\t"

718

MMABS_SUM(%%mm1, %%mm7, %%mm0)

719

720

"movq %%mm0, %%mm1 \n\t"

721

"psrlq $32, %%mm0 \n\t"

722

"paddusw %%mm1, %%mm0 \n\t"

723

"movq %%mm0, %%mm1 \n\t"

724

"psrlq $16, %%mm0 \n\t"

725

"paddusw %%mm1, %%mm0 \n\t"

726

"movd %%mm0, %0 \n\t"

727

728

: "=r" (sum)

729

: "r"(temp)

730

);

731

return sum&0xFFFF;

732

}

733

734

static int hadamard8_diff_mmx2(void *s, uint8_t *src1, uint8_t *src2, int stride){

735

uint64_t temp[16] __align8;

736

int sum=0;

737

738

diff_pixels_mmx((DCTELEM*)temp, src1, src2, stride);

739

740

asm volatile(

741

LOAD4(0 , %%mm0, %%mm1, %%mm2, %%mm3)

742

LOAD4(64, %%mm4, %%mm5, %%mm6, %%mm7)

743

744

HADAMARD48

745

746

"movq %%mm7, 112(%1) \n\t"

747

748

TRANSPOSE4(%%mm0, %%mm1, %%mm2, %%mm3, %%mm7)

749

STORE4(0 , %%mm0, %%mm3, %%mm7, %%mm2)

750

751

"movq 112(%1), %%mm7 \n\t"

752

TRANSPOSE4(%%mm4, %%mm5, %%mm6, %%mm7, %%mm0)

753

STORE4(64, %%mm4, %%mm7, %%mm0, %%mm6)

754

755

LOAD4(8 , %%mm0, %%mm1, %%mm2, %%mm3)

756

LOAD4(72, %%mm4, %%mm5, %%mm6, %%mm7)

757

758

HADAMARD48

759

760

"movq %%mm7, 120(%1) \n\t"

761

762

TRANSPOSE4(%%mm0, %%mm1, %%mm2, %%mm3, %%mm7)

763

STORE4(8 , %%mm0, %%mm3, %%mm7, %%mm2)

764

765

"movq 120(%1), %%mm7 \n\t"

766

TRANSPOSE4(%%mm4, %%mm5, %%mm6, %%mm7, %%mm0)

767

"movq %%mm7, %%mm5 \n\t"//FIXME remove

768

"movq %%mm6, %%mm7 \n\t"

769

"movq %%mm0, %%mm6 \n\t"

770

// STORE4(72, %%mm4, %%mm7, %%mm0, %%mm6) //FIXME remove

771

772

LOAD4(64, %%mm0, %%mm1, %%mm2, %%mm3)

773

// LOAD4(72, %%mm4, %%mm5, %%mm6, %%mm7)

774

775

HADAMARD48

776

"movq %%mm7, 64(%1) \n\t"

777

MMABS_MMX2(%%mm0, %%mm7)

778

MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)

779

MMABS_SUM_MMX2(%%mm2, %%mm7, %%mm0)

780

MMABS_SUM_MMX2(%%mm3, %%mm7, %%mm0)

781

MMABS_SUM_MMX2(%%mm4, %%mm7, %%mm0)

782

MMABS_SUM_MMX2(%%mm5, %%mm7, %%mm0)

783

MMABS_SUM_MMX2(%%mm6, %%mm7, %%mm0)

784

"movq 64(%1), %%mm1 \n\t"

785

MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)

786

"movq %%mm0, 64(%1) \n\t"

787

788

LOAD4(0 , %%mm0, %%mm1, %%mm2, %%mm3)

789

LOAD4(8 , %%mm4, %%mm5, %%mm6, %%mm7)

790

791

HADAMARD48

792

"movq %%mm7, (%1) \n\t"

793

MMABS_MMX2(%%mm0, %%mm7)

794

MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)

795

MMABS_SUM_MMX2(%%mm2, %%mm7, %%mm0)

796

MMABS_SUM_MMX2(%%mm3, %%mm7, %%mm0)

797

MMABS_SUM_MMX2(%%mm4, %%mm7, %%mm0)

798

MMABS_SUM_MMX2(%%mm5, %%mm7, %%mm0)

799

MMABS_SUM_MMX2(%%mm6, %%mm7, %%mm0)

800

"movq (%1), %%mm1 \n\t"

801

MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)

802

"movq 64(%1), %%mm1 \n\t"

803

MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)

804

805

"movq %%mm0, %%mm1 \n\t"

806

"psrlq $32, %%mm0 \n\t"

807

"paddusw %%mm1, %%mm0 \n\t"

808

"movq %%mm0, %%mm1 \n\t"

809

"psrlq $16, %%mm0 \n\t"

810

"paddusw %%mm1, %%mm0 \n\t"

811

"movd %%mm0, %0 \n\t"

812

813

: "=r" (sum)

814

: "r"(temp)

815

);

816

return sum&0xFFFF;

817

}

818

819

820

WARPER88_1616(hadamard8_diff_mmx, hadamard8_diff16_mmx)

821

WARPER88_1616(hadamard8_diff_mmx2, hadamard8_diff16_mmx2)

1553

"movq "#a", "#o"(%1) \n\t"\

1554

"movq "#b", "#o"+16(%1) \n\t"\

1555

"movq "#c", "#o"+32(%1) \n\t"\

1556

"movq "#d", "#o"+48(%1) \n\t"\

1557

1558

static int hadamard8_diff_mmx(void *s, uint8_t *src1, uint8_t *src2, int stride, int h){

1559

DECLARE_ALIGNED_8(uint64_t, temp[16]);

1560

int sum=0;

1561

1562

assert(h==8);

1563

1564

diff_pixels_mmx((DCTELEM*)temp, src1, src2, stride);

1565

1566

asm volatile(

1567

LOAD4(0 , %%mm0, %%mm1, %%mm2, %%mm3)

1568

LOAD4(64, %%mm4, %%mm5, %%mm6, %%mm7)

1569

1570

HADAMARD48

1571

1572

"movq %%mm7, 112(%1) \n\t"

1573

1574

TRANSPOSE4(%%mm0, %%mm1, %%mm2, %%mm3, %%mm7)

1575

STORE4(0 , %%mm0, %%mm3, %%mm7, %%mm2)

1576

1577

"movq 112(%1), %%mm7 \n\t"

1578

TRANSPOSE4(%%mm4, %%mm5, %%mm6, %%mm7, %%mm0)

1579

STORE4(64, %%mm4, %%mm7, %%mm0, %%mm6)

1580

1581

LOAD4(8 , %%mm0, %%mm1, %%mm2, %%mm3)

1582

LOAD4(72, %%mm4, %%mm5, %%mm6, %%mm7)

1583

1584

HADAMARD48

1585

1586

"movq %%mm7, 120(%1) \n\t"

1587

1588

TRANSPOSE4(%%mm0, %%mm1, %%mm2, %%mm3, %%mm7)

1589

STORE4(8 , %%mm0, %%mm3, %%mm7, %%mm2)

1590

1591

"movq 120(%1), %%mm7 \n\t"

1592

TRANSPOSE4(%%mm4, %%mm5, %%mm6, %%mm7, %%mm0)

1593

"movq %%mm7, %%mm5 \n\t"//FIXME remove

1594

"movq %%mm6, %%mm7 \n\t"

1595

"movq %%mm0, %%mm6 \n\t"

1596

// STORE4(72, %%mm4, %%mm7, %%mm0, %%mm6) //FIXME remove

1597

1598

LOAD4(64, %%mm0, %%mm1, %%mm2, %%mm3)

1599

// LOAD4(72, %%mm4, %%mm5, %%mm6, %%mm7)

1600

1601

HADAMARD48

1602

"movq %%mm7, 64(%1) \n\t"

1603

MMABS(%%mm0, %%mm7)

1604

MMABS_SUM(%%mm1, %%mm7, %%mm0)

1605

MMABS_SUM(%%mm2, %%mm7, %%mm0)

1606

MMABS_SUM(%%mm3, %%mm7, %%mm0)

1607

MMABS_SUM(%%mm4, %%mm7, %%mm0)

1608

MMABS_SUM(%%mm5, %%mm7, %%mm0)

1609

MMABS_SUM(%%mm6, %%mm7, %%mm0)

1610

"movq 64(%1), %%mm1 \n\t"

1611

MMABS_SUM(%%mm1, %%mm7, %%mm0)

1612

"movq %%mm0, 64(%1) \n\t"

1613

1614

LOAD4(0 , %%mm0, %%mm1, %%mm2, %%mm3)

1615

LOAD4(8 , %%mm4, %%mm5, %%mm6, %%mm7)

1616

1617

HADAMARD48

1618

"movq %%mm7, (%1) \n\t"

1619

MMABS(%%mm0, %%mm7)

1620

MMABS_SUM(%%mm1, %%mm7, %%mm0)

1621

MMABS_SUM(%%mm2, %%mm7, %%mm0)

1622

MMABS_SUM(%%mm3, %%mm7, %%mm0)

1623

MMABS_SUM(%%mm4, %%mm7, %%mm0)

1624

MMABS_SUM(%%mm5, %%mm7, %%mm0)

1625

MMABS_SUM(%%mm6, %%mm7, %%mm0)

1626

"movq (%1), %%mm1 \n\t"

1627

MMABS_SUM(%%mm1, %%mm7, %%mm0)

1628

"movq 64(%1), %%mm1 \n\t"

1629

MMABS_SUM(%%mm1, %%mm7, %%mm0)

1630

1631

"movq %%mm0, %%mm1 \n\t"

1632

"psrlq $32, %%mm0 \n\t"

1633

"paddusw %%mm1, %%mm0 \n\t"

1634

"movq %%mm0, %%mm1 \n\t"

1635

"psrlq $16, %%mm0 \n\t"

1636

"paddusw %%mm1, %%mm0 \n\t"

1637

"movd %%mm0, %0 \n\t"

1638

1639

: "=r" (sum)

1640

: "r"(temp)

1641

);

1642

return sum&0xFFFF;

1643

}

1644

1645

static int hadamard8_diff_mmx2(void *s, uint8_t *src1, uint8_t *src2, int stride, int h){

1646

DECLARE_ALIGNED_8(uint64_t, temp[16]);

1647

int sum=0;

1648

1649

assert(h==8);

1650

1651

diff_pixels_mmx((DCTELEM*)temp, src1, src2, stride);

1652

1653

asm volatile(

1654

LOAD4(0 , %%mm0, %%mm1, %%mm2, %%mm3)

1655

LOAD4(64, %%mm4, %%mm5, %%mm6, %%mm7)

1656

1657

HADAMARD48

1658

1659

"movq %%mm7, 112(%1) \n\t"

1660

1661

TRANSPOSE4(%%mm0, %%mm1, %%mm2, %%mm3, %%mm7)

1662

STORE4(0 , %%mm0, %%mm3, %%mm7, %%mm2)

1663

1664

"movq 112(%1), %%mm7 \n\t"

1665

TRANSPOSE4(%%mm4, %%mm5, %%mm6, %%mm7, %%mm0)

1666

STORE4(64, %%mm4, %%mm7, %%mm0, %%mm6)

1667

1668

LOAD4(8 , %%mm0, %%mm1, %%mm2, %%mm3)

1669

LOAD4(72, %%mm4, %%mm5, %%mm6, %%mm7)

1670

1671

HADAMARD48

1672

1673

"movq %%mm7, 120(%1) \n\t"

1674

1675

TRANSPOSE4(%%mm0, %%mm1, %%mm2, %%mm3, %%mm7)

1676

STORE4(8 , %%mm0, %%mm3, %%mm7, %%mm2)

1677

1678

"movq 120(%1), %%mm7 \n\t"

1679

TRANSPOSE4(%%mm4, %%mm5, %%mm6, %%mm7, %%mm0)

1680

"movq %%mm7, %%mm5 \n\t"//FIXME remove

1681

"movq %%mm6, %%mm7 \n\t"

1682

"movq %%mm0, %%mm6 \n\t"

1683

// STORE4(72, %%mm4, %%mm7, %%mm0, %%mm6) //FIXME remove

1684

1685

LOAD4(64, %%mm0, %%mm1, %%mm2, %%mm3)

1686

// LOAD4(72, %%mm4, %%mm5, %%mm6, %%mm7)

1687

1688

HADAMARD48

1689

"movq %%mm7, 64(%1) \n\t"

1690

MMABS_MMX2(%%mm0, %%mm7)

1691

MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)

1692

MMABS_SUM_MMX2(%%mm2, %%mm7, %%mm0)

1693

MMABS_SUM_MMX2(%%mm3, %%mm7, %%mm0)

1694

MMABS_SUM_MMX2(%%mm4, %%mm7, %%mm0)

1695

MMABS_SUM_MMX2(%%mm5, %%mm7, %%mm0)

1696

MMABS_SUM_MMX2(%%mm6, %%mm7, %%mm0)

1697

"movq 64(%1), %%mm1 \n\t"

1698

MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)

1699

"movq %%mm0, 64(%1) \n\t"

1700

1701

LOAD4(0 , %%mm0, %%mm1, %%mm2, %%mm3)

1702

LOAD4(8 , %%mm4, %%mm5, %%mm6, %%mm7)

1703

1704

HADAMARD48

1705

"movq %%mm7, (%1) \n\t"

1706

MMABS_MMX2(%%mm0, %%mm7)

1707

MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)

1708

MMABS_SUM_MMX2(%%mm2, %%mm7, %%mm0)

1709

MMABS_SUM_MMX2(%%mm3, %%mm7, %%mm0)

1710

MMABS_SUM_MMX2(%%mm4, %%mm7, %%mm0)

1711

MMABS_SUM_MMX2(%%mm5, %%mm7, %%mm0)

1712

MMABS_SUM_MMX2(%%mm6, %%mm7, %%mm0)

1713

"movq (%1), %%mm1 \n\t"

1714

MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)

1715

"movq 64(%1), %%mm1 \n\t"

1716

MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)

1717

1718

"pshufw $0x0E, %%mm0, %%mm1 \n\t"

1719

"paddusw %%mm1, %%mm0 \n\t"

1720

"pshufw $0x01, %%mm0, %%mm1 \n\t"

1721

"paddusw %%mm1, %%mm0 \n\t"

1722

"movd %%mm0, %0 \n\t"

1723

1724

: "=r" (sum)

1725

: "r"(temp)

1726

);

1727

return sum&0xFFFF;

1728

}

1729

1730

1731

WARPER8_16_SQ(hadamard8_diff_mmx, hadamard8_diff16_mmx)

1732

WARPER8_16_SQ(hadamard8_diff_mmx2, hadamard8_diff16_mmx2)

1733

#endif //CONFIG_ENCODERS

822

1734

823

1735

#define put_no_rnd_pixels8_mmx(a,b,c,d) put_pixels8_mmx(a,b,c,d)

824

1736

#define put_no_rnd_pixels16_mmx(a,b,c,d) put_pixels16_mmx(a,b,c,d)

825

1737

826

1738

#define QPEL_V_LOW(m3,m4,m5,m6, pw_20, pw_3, rnd, in0, in1, in2, in7, out, OP)\

827

"paddw " #m4 ", " #m3 " \n\t" /* x1 */\

828

"movq "MANGLE(ff_pw_20)", %%mm4 \n\t" /* 20 */\

829

"pmullw " #m3 ", %%mm4 \n\t" /* 20x1 */\

830

"movq "#in7", " #m3 " \n\t" /* d */\

831

"movq "#in0", %%mm5 \n\t" /* D */\

832

"paddw " #m3 ", %%mm5 \n\t" /* x4 */\

833

"psubw %%mm5, %%mm4 \n\t" /* 20x1 - x4 */\

834

"movq "#in1", %%mm5 \n\t" /* C */\

835

"movq "#in2", %%mm6 \n\t" /* B */\

836

"paddw " #m6 ", %%mm5 \n\t" /* x3 */\

837

"paddw " #m5 ", %%mm6 \n\t" /* x2 */\

838

"paddw %%mm6, %%mm6 \n\t" /* 2x2 */\

839

"psubw %%mm6, %%mm5 \n\t" /* -2x2 + x3 */\

840

"pmullw "MANGLE(ff_pw_3)", %%mm5 \n\t" /* -6x2 + 3x3 */\

841

"paddw " #rnd ", %%mm4 \n\t" /* x2 */\

842

"paddw %%mm4, %%mm5 \n\t" /* 20x1 - 6x2 + 3x3 - x4 */\

843

"psraw $5, %%mm5 \n\t"\

844

"packuswb %%mm5, %%mm5 \n\t"\

1739

"paddw " #m4 ", " #m3 " \n\t" /* x1 */\

1740

"movq "MANGLE(ff_pw_20)", %%mm4 \n\t" /* 20 */\

1741

"pmullw " #m3 ", %%mm4 \n\t" /* 20x1 */\

1742

"movq "#in7", " #m3 " \n\t" /* d */\

1743

"movq "#in0", %%mm5 \n\t" /* D */\

1744

"paddw " #m3 ", %%mm5 \n\t" /* x4 */\

1745

"psubw %%mm5, %%mm4 \n\t" /* 20x1 - x4 */\

1746

"movq "#in1", %%mm5 \n\t" /* C */\

1747

"movq "#in2", %%mm6 \n\t" /* B */\

1748

"paddw " #m6 ", %%mm5 \n\t" /* x3 */\

1749

"paddw " #m5 ", %%mm6 \n\t" /* x2 */\

1750

"paddw %%mm6, %%mm6 \n\t" /* 2x2 */\

1751

"psubw %%mm6, %%mm5 \n\t" /* -2x2 + x3 */\

1752

"pmullw "MANGLE(ff_pw_3)", %%mm5 \n\t" /* -6x2 + 3x3 */\

1753

"paddw " #rnd ", %%mm4 \n\t" /* x2 */\

1754

"paddw %%mm4, %%mm5 \n\t" /* 20x1 - 6x2 + 3x3 - x4 */\

1755

"psraw $5, %%mm5 \n\t"\

1756

"packuswb %%mm5, %%mm5 \n\t"\

845

1757

OP(%%mm5, out, %%mm7, d)

846

1758

847

1759

#define QPEL_BASE(OPNAME, ROUNDER, RND, OP_MMX2, OP_3DNOW)\

849

1761

uint64_t temp;\

850

1762

851

1763

asm volatile(\

852

"pxor %%mm7, %%mm7 \n\t"\

853

"1: \n\t"\

854

"movq (%0), %%mm0 \n\t" /* ABCDEFGH */\

855

"movq %%mm0, %%mm1 \n\t" /* ABCDEFGH */\

856

"movq %%mm0, %%mm2 \n\t" /* ABCDEFGH */\

857

"punpcklbw %%mm7, %%mm0 \n\t" /* 0A0B0C0D */\

858

"punpckhbw %%mm7, %%mm1 \n\t" /* 0E0F0G0H */\

859

"pshufw $0x90, %%mm0, %%mm5 \n\t" /* 0A0A0B0C */\

860

"pshufw $0x41, %%mm0, %%mm6 \n\t" /* 0B0A0A0B */\

861

"movq %%mm2, %%mm3 \n\t" /* ABCDEFGH */\

862

"movq %%mm2, %%mm4 \n\t" /* ABCDEFGH */\

863

"psllq $8, %%mm2 \n\t" /* 0ABCDEFG */\

864

"psllq $16, %%mm3 \n\t" /* 00ABCDEF */\

865

"psllq $24, %%mm4 \n\t" /* 000ABCDE */\

866

"punpckhbw %%mm7, %%mm2 \n\t" /* 0D0E0F0G */\

867

"punpckhbw %%mm7, %%mm3 \n\t" /* 0C0D0E0F */\

868

"punpckhbw %%mm7, %%mm4 \n\t" /* 0B0C0D0E */\

869

"paddw %%mm3, %%mm5 \n\t" /* b */\

870

"paddw %%mm2, %%mm6 \n\t" /* c */\

871

"paddw %%mm5, %%mm5 \n\t" /* 2b */\

872

"psubw %%mm5, %%mm6 \n\t" /* c - 2b */\

873

"pshufw $0x06, %%mm0, %%mm5 \n\t" /* 0C0B0A0A */\

874

"pmullw "MANGLE(ff_pw_3)", %%mm6 \n\t" /* 3c - 6b */\

875

"paddw %%mm4, %%mm0 \n\t" /* a */\

876

"paddw %%mm1, %%mm5 \n\t" /* d */\

877

"pmullw "MANGLE(ff_pw_20)", %%mm0 \n\t" /* 20a */\

878

"psubw %%mm5, %%mm0 \n\t" /* 20a - d */\

879

"paddw %6, %%mm6 \n\t"\

880

"paddw %%mm6, %%mm0 \n\t" /* 20a - 6b + 3c - d */\

881

"psraw $5, %%mm0 \n\t"\

882

"movq %%mm0, %5 \n\t"\

1764

"pxor %%mm7, %%mm7 \n\t"\

1765

"1: \n\t"\

1766

"movq (%0), %%mm0 \n\t" /* ABCDEFGH */\

1767

"movq %%mm0, %%mm1 \n\t" /* ABCDEFGH */\

1768

"movq %%mm0, %%mm2 \n\t" /* ABCDEFGH */\

1769

"punpcklbw %%mm7, %%mm0 \n\t" /* 0A0B0C0D */\

1770

"punpckhbw %%mm7, %%mm1 \n\t" /* 0E0F0G0H */\

1771

"pshufw $0x90, %%mm0, %%mm5 \n\t" /* 0A0A0B0C */\

1772

"pshufw $0x41, %%mm0, %%mm6 \n\t" /* 0B0A0A0B */\

1773

"movq %%mm2, %%mm3 \n\t" /* ABCDEFGH */\

1774

"movq %%mm2, %%mm4 \n\t" /* ABCDEFGH */\

1775

"psllq $8, %%mm2 \n\t" /* 0ABCDEFG */\

1776

"psllq $16, %%mm3 \n\t" /* 00ABCDEF */\

1777

"psllq $24, %%mm4 \n\t" /* 000ABCDE */\

1778

"punpckhbw %%mm7, %%mm2 \n\t" /* 0D0E0F0G */\

1779

"punpckhbw %%mm7, %%mm3 \n\t" /* 0C0D0E0F */\

1780

"punpckhbw %%mm7, %%mm4 \n\t" /* 0B0C0D0E */\

1781

"paddw %%mm3, %%mm5 \n\t" /* b */\

1782

"paddw %%mm2, %%mm6 \n\t" /* c */\

1783

"paddw %%mm5, %%mm5 \n\t" /* 2b */\

1784

"psubw %%mm5, %%mm6 \n\t" /* c - 2b */\

1785

"pshufw $0x06, %%mm0, %%mm5 \n\t" /* 0C0B0A0A */\

1786

"pmullw "MANGLE(ff_pw_3)", %%mm6 \n\t" /* 3c - 6b */\

1787

"paddw %%mm4, %%mm0 \n\t" /* a */\

1788

"paddw %%mm1, %%mm5 \n\t" /* d */\

1789

"pmullw "MANGLE(ff_pw_20)", %%mm0 \n\t" /* 20a */\

1790

"psubw %%mm5, %%mm0 \n\t" /* 20a - d */\

1791

"paddw %6, %%mm6 \n\t"\

1792

"paddw %%mm6, %%mm0 \n\t" /* 20a - 6b + 3c - d */\

1793

"psraw $5, %%mm0 \n\t"\

1794

"movq %%mm0, %5 \n\t"\

883

1795

/* mm1=EFGH, mm2=DEFG, mm3=CDEF, mm4=BCDE, mm7=0 */\

884

1796

885

"movq 5(%0), %%mm0 \n\t" /* FGHIJKLM */\

886

"movq %%mm0, %%mm5 \n\t" /* FGHIJKLM */\

887

"movq %%mm0, %%mm6 \n\t" /* FGHIJKLM */\

888

"psrlq $8, %%mm0 \n\t" /* GHIJKLM0 */\

889

"psrlq $16, %%mm5 \n\t" /* HIJKLM00 */\

890

"punpcklbw %%mm7, %%mm0 \n\t" /* 0G0H0I0J */\

891

"punpcklbw %%mm7, %%mm5 \n\t" /* 0H0I0J0K */\

892

"paddw %%mm0, %%mm2 \n\t" /* b */\

893

"paddw %%mm5, %%mm3 \n\t" /* c */\

894

"paddw %%mm2, %%mm2 \n\t" /* 2b */\

895

"psubw %%mm2, %%mm3 \n\t" /* c - 2b */\

896

"movq %%mm6, %%mm2 \n\t" /* FGHIJKLM */\

897

"psrlq $24, %%mm6 \n\t" /* IJKLM000 */\

898

"punpcklbw %%mm7, %%mm2 \n\t" /* 0F0G0H0I */\

899

"punpcklbw %%mm7, %%mm6 \n\t" /* 0I0J0K0L */\

900

"pmullw "MANGLE(ff_pw_3)", %%mm3 \n\t" /* 3c - 6b */\

901

"paddw %%mm2, %%mm1 \n\t" /* a */\

902

"paddw %%mm6, %%mm4 \n\t" /* d */\

903

"pmullw "MANGLE(ff_pw_20)", %%mm1 \n\t" /* 20a */\

904

"psubw %%mm4, %%mm3 \n\t" /* - 6b +3c - d */\

905

"paddw %6, %%mm1 \n\t"\

906

"paddw %%mm1, %%mm3 \n\t" /* 20a - 6b +3c - d */\

907

"psraw $5, %%mm3 \n\t"\

908

"movq %5, %%mm1 \n\t"\

909

"packuswb %%mm3, %%mm1 \n\t"\

1797

"movq 5(%0), %%mm0 \n\t" /* FGHIJKLM */\

1798

"movq %%mm0, %%mm5 \n\t" /* FGHIJKLM */\

1799

"movq %%mm0, %%mm6 \n\t" /* FGHIJKLM */\

1800

"psrlq $8, %%mm0 \n\t" /* GHIJKLM0 */\

1801

"psrlq $16, %%mm5 \n\t" /* HIJKLM00 */\

1802

"punpcklbw %%mm7, %%mm0 \n\t" /* 0G0H0I0J */\

1803

"punpcklbw %%mm7, %%mm5 \n\t" /* 0H0I0J0K */\

1804

"paddw %%mm0, %%mm2 \n\t" /* b */\

1805

"paddw %%mm5, %%mm3 \n\t" /* c */\

1806

"paddw %%mm2, %%mm2 \n\t" /* 2b */\

1807

"psubw %%mm2, %%mm3 \n\t" /* c - 2b */\

1808

"movq %%mm6, %%mm2 \n\t" /* FGHIJKLM */\

1809

"psrlq $24, %%mm6 \n\t" /* IJKLM000 */\

1810

"punpcklbw %%mm7, %%mm2 \n\t" /* 0F0G0H0I */\

1811

"punpcklbw %%mm7, %%mm6 \n\t" /* 0I0J0K0L */\

1812

"pmullw "MANGLE(ff_pw_3)", %%mm3 \n\t" /* 3c - 6b */\

1813

"paddw %%mm2, %%mm1 \n\t" /* a */\

1814

"paddw %%mm6, %%mm4 \n\t" /* d */\

1815

"pmullw "MANGLE(ff_pw_20)", %%mm1 \n\t" /* 20a */\

1816

"psubw %%mm4, %%mm3 \n\t" /* - 6b +3c - d */\

1817

"paddw %6, %%mm1 \n\t"\

1818

"paddw %%mm1, %%mm3 \n\t" /* 20a - 6b +3c - d */\

1819

"psraw $5, %%mm3 \n\t"\

1820

"movq %5, %%mm1 \n\t"\

1821

"packuswb %%mm3, %%mm1 \n\t"\

910

1822

OP_MMX2(%%mm1, (%1),%%mm4, q)\

911

1823

/* mm0= GHIJ, mm2=FGHI, mm5=HIJK, mm6=IJKL, mm7=0 */\

912

1824

913

"movq 9(%0), %%mm1 \n\t" /* JKLMNOPQ */\

914

"movq %%mm1, %%mm4 \n\t" /* JKLMNOPQ */\

915

"movq %%mm1, %%mm3 \n\t" /* JKLMNOPQ */\

916

"psrlq $8, %%mm1 \n\t" /* KLMNOPQ0 */\

917

"psrlq $16, %%mm4 \n\t" /* LMNOPQ00 */\

918

"punpcklbw %%mm7, %%mm1 \n\t" /* 0K0L0M0N */\

919

"punpcklbw %%mm7, %%mm4 \n\t" /* 0L0M0N0O */\

920

"paddw %%mm1, %%mm5 \n\t" /* b */\

921

"paddw %%mm4, %%mm0 \n\t" /* c */\

922

"paddw %%mm5, %%mm5 \n\t" /* 2b */\

923

"psubw %%mm5, %%mm0 \n\t" /* c - 2b */\

924

"movq %%mm3, %%mm5 \n\t" /* JKLMNOPQ */\

925

"psrlq $24, %%mm3 \n\t" /* MNOPQ000 */\

926

"pmullw "MANGLE(ff_pw_3)", %%mm0 \n\t" /* 3c - 6b */\

927

"punpcklbw %%mm7, %%mm3 \n\t" /* 0M0N0O0P */\

928

"paddw %%mm3, %%mm2 \n\t" /* d */\

929

"psubw %%mm2, %%mm0 \n\t" /* -6b + 3c - d */\

930

"movq %%mm5, %%mm2 \n\t" /* JKLMNOPQ */\

931

"punpcklbw %%mm7, %%mm2 \n\t" /* 0J0K0L0M */\

932

"punpckhbw %%mm7, %%mm5 \n\t" /* 0N0O0P0Q */\

933

"paddw %%mm2, %%mm6 \n\t" /* a */\

934

"pmullw "MANGLE(ff_pw_20)", %%mm6 \n\t" /* 20a */\

935

"paddw %6, %%mm0 \n\t"\

936

"paddw %%mm6, %%mm0 \n\t" /* 20a - 6b + 3c - d */\

937

"psraw $5, %%mm0 \n\t"\

1825

"movq 9(%0), %%mm1 \n\t" /* JKLMNOPQ */\

1826

"movq %%mm1, %%mm4 \n\t" /* JKLMNOPQ */\

1827

"movq %%mm1, %%mm3 \n\t" /* JKLMNOPQ */\

1828

"psrlq $8, %%mm1 \n\t" /* KLMNOPQ0 */\

1829

"psrlq $16, %%mm4 \n\t" /* LMNOPQ00 */\

1830

"punpcklbw %%mm7, %%mm1 \n\t" /* 0K0L0M0N */\

1831

"punpcklbw %%mm7, %%mm4 \n\t" /* 0L0M0N0O */\

1832

"paddw %%mm1, %%mm5 \n\t" /* b */\

1833

"paddw %%mm4, %%mm0 \n\t" /* c */\

1834

"paddw %%mm5, %%mm5 \n\t" /* 2b */\

1835

"psubw %%mm5, %%mm0 \n\t" /* c - 2b */\

1836

"movq %%mm3, %%mm5 \n\t" /* JKLMNOPQ */\

1837

"psrlq $24, %%mm3 \n\t" /* MNOPQ000 */\

1838

"pmullw "MANGLE(ff_pw_3)", %%mm0 \n\t" /* 3c - 6b */\

1839

"punpcklbw %%mm7, %%mm3 \n\t" /* 0M0N0O0P */\

1840

"paddw %%mm3, %%mm2 \n\t" /* d */\

1841

"psubw %%mm2, %%mm0 \n\t" /* -6b + 3c - d */\

1842

"movq %%mm5, %%mm2 \n\t" /* JKLMNOPQ */\

1843

"punpcklbw %%mm7, %%mm2 \n\t" /* 0J0K0L0M */\

1844

"punpckhbw %%mm7, %%mm5 \n\t" /* 0N0O0P0Q */\

1845

"paddw %%mm2, %%mm6 \n\t" /* a */\

1846

"pmullw "MANGLE(ff_pw_20)", %%mm6 \n\t" /* 20a */\

1847

"paddw %6, %%mm0 \n\t"\

1848

"paddw %%mm6, %%mm0 \n\t" /* 20a - 6b + 3c - d */\

1849

"psraw $5, %%mm0 \n\t"\

938

1850

/* mm1=KLMN, mm2=JKLM, mm3=MNOP, mm4=LMNO, mm5=NOPQ mm7=0 */\

939

1851

940

"paddw %%mm5, %%mm3 \n\t" /* a */\

941

"pshufw $0xF9, %%mm5, %%mm6 \n\t" /* 0O0P0Q0Q */\

942

"paddw %%mm4, %%mm6 \n\t" /* b */\

943

"pshufw $0xBE, %%mm5, %%mm4 \n\t" /* 0P0Q0Q0P */\

944

"pshufw $0x6F, %%mm5, %%mm5 \n\t" /* 0Q0Q0P0O */\

945

"paddw %%mm1, %%mm4 \n\t" /* c */\

946

"paddw %%mm2, %%mm5 \n\t" /* d */\

947

"paddw %%mm6, %%mm6 \n\t" /* 2b */\

948

"psubw %%mm6, %%mm4 \n\t" /* c - 2b */\

949

"pmullw "MANGLE(ff_pw_20)", %%mm3 \n\t" /* 20a */\

950

"pmullw "MANGLE(ff_pw_3)", %%mm4 \n\t" /* 3c - 6b */\

951

"psubw %%mm5, %%mm3 \n\t" /* -6b + 3c - d */\

952

"paddw %6, %%mm4 \n\t"\

953

"paddw %%mm3, %%mm4 \n\t" /* 20a - 6b + 3c - d */\

954

"psraw $5, %%mm4 \n\t"\

955

"packuswb %%mm4, %%mm0 \n\t"\

1852

"paddw %%mm5, %%mm3 \n\t" /* a */\

1853

"pshufw $0xF9, %%mm5, %%mm6 \n\t" /* 0O0P0Q0Q */\

1854

"paddw %%mm4, %%mm6 \n\t" /* b */\

1855

"pshufw $0xBE, %%mm5, %%mm4 \n\t" /* 0P0Q0Q0P */\

1856

"pshufw $0x6F, %%mm5, %%mm5 \n\t" /* 0Q0Q0P0O */\

1857

"paddw %%mm1, %%mm4 \n\t" /* c */\

1858

"paddw %%mm2, %%mm5 \n\t" /* d */\

1859

"paddw %%mm6, %%mm6 \n\t" /* 2b */\

1860

"psubw %%mm6, %%mm4 \n\t" /* c - 2b */\

1861

"pmullw "MANGLE(ff_pw_20)", %%mm3 \n\t" /* 20a */\

1862

"pmullw "MANGLE(ff_pw_3)", %%mm4 \n\t" /* 3c - 6b */\

1863

"psubw %%mm5, %%mm3 \n\t" /* -6b + 3c - d */\

1864

"paddw %6, %%mm4 \n\t"\

1865

"paddw %%mm3, %%mm4 \n\t" /* 20a - 6b + 3c - d */\

1866

"psraw $5, %%mm4 \n\t"\

1867

"packuswb %%mm4, %%mm0 \n\t"\

956

1868

OP_MMX2(%%mm0, 8(%1), %%mm4, q)\

957

1869

958

"addl %3, %0 \n\t"\

959

"addl %4, %1 \n\t"\

960

"decl %2 \n\t"\

961

" jnz 1b \n\t"\

1870

"add %3, %0 \n\t"\

1871

"add %4, %1 \n\t"\

1872

"decl %2 \n\t"\

1873

" jnz 1b \n\t"\

962

1874

: "+a"(src), "+c"(dst), "+m"(h)\

963

: "d"(srcStride), "S"(dstStride), /*"m"(ff_pw_20), "m"(ff_pw_3),*/ "m"(temp), "m"(ROUNDER)\

1875

: "d"((long)srcStride), "S"((long)dstStride), /*"m"(ff_pw_20), "m"(ff_pw_3),*/ "m"(temp), "m"(ROUNDER)\

964

1876

: "memory"\

965

1877

);\

966

1878

988

1900

temp[14]= (src[14]+src[15])*20 - (src[13]+src[16])*6 + (src[12]+src[16])*3 - (src[11]+src[15]);\

989

1901

temp[15]= (src[15]+src[16])*20 - (src[14]+src[16])*6 + (src[13]+src[15])*3 - (src[12]+src[14]);\

990

1902

asm volatile(\

991

"movq (%0), %%mm0 \n\t"\

992

"movq 8(%0), %%mm1 \n\t"\

993

"paddw %2, %%mm0 \n\t"\

994

"paddw %2, %%mm1 \n\t"\

995

"psraw $5, %%mm0 \n\t"\

996

"psraw $5, %%mm1 \n\t"\

997

"packuswb %%mm1, %%mm0 \n\t"\

1903

"movq (%0), %%mm0 \n\t"\

1904

"movq 8(%0), %%mm1 \n\t"\

1905

"paddw %2, %%mm0 \n\t"\

1906

"paddw %2, %%mm1 \n\t"\

1907

"psraw $5, %%mm0 \n\t"\

1908

"psraw $5, %%mm1 \n\t"\

1909

"packuswb %%mm1, %%mm0 \n\t"\

998

1910

OP_3DNOW(%%mm0, (%1), %%mm1, q)\

999

"movq 16(%0), %%mm0 \n\t"\

1000

"movq 24(%0), %%mm1 \n\t"\

1001

"paddw %2, %%mm0 \n\t"\

1002

"paddw %2, %%mm1 \n\t"\

1003

"psraw $5, %%mm0 \n\t"\

1004

"psraw $5, %%mm1 \n\t"\

1005

"packuswb %%mm1, %%mm0 \n\t"\

1911

"movq 16(%0), %%mm0 \n\t"\

1912

"movq 24(%0), %%mm1 \n\t"\

1913

"paddw %2, %%mm0 \n\t"\

1914

"paddw %2, %%mm1 \n\t"\

1915

"psraw $5, %%mm0 \n\t"\

1916

"psraw $5, %%mm1 \n\t"\

1917

"packuswb %%mm1, %%mm0 \n\t"\

1006

1918

OP_3DNOW(%%mm0, 8(%1), %%mm1, q)\

1007

1919

:: "r"(temp), "r"(dst), "m"(ROUNDER)\

1008

1920

: "memory"\

1016

1928

uint64_t temp;\

1017

1929

1018

1930

asm volatile(\

1019

"pxor %%mm7, %%mm7 \n\t"\

1020

"1: \n\t"\

1021

"movq (%0), %%mm0 \n\t" /* ABCDEFGH */\

1022

"movq %%mm0, %%mm1 \n\t" /* ABCDEFGH */\

1023

"movq %%mm0, %%mm2 \n\t" /* ABCDEFGH */\

1024

"punpcklbw %%mm7, %%mm0 \n\t" /* 0A0B0C0D */\

1025

"punpckhbw %%mm7, %%mm1 \n\t" /* 0E0F0G0H */\

1026

"pshufw $0x90, %%mm0, %%mm5 \n\t" /* 0A0A0B0C */\

1027

"pshufw $0x41, %%mm0, %%mm6 \n\t" /* 0B0A0A0B */\

1028

"movq %%mm2, %%mm3 \n\t" /* ABCDEFGH */\

1029

"movq %%mm2, %%mm4 \n\t" /* ABCDEFGH */\

1030

"psllq $8, %%mm2 \n\t" /* 0ABCDEFG */\

1031

"psllq $16, %%mm3 \n\t" /* 00ABCDEF */\

1032

"psllq $24, %%mm4 \n\t" /* 000ABCDE */\

1033

"punpckhbw %%mm7, %%mm2 \n\t" /* 0D0E0F0G */\

1034

"punpckhbw %%mm7, %%mm3 \n\t" /* 0C0D0E0F */\

1035

"punpckhbw %%mm7, %%mm4 \n\t" /* 0B0C0D0E */\

1036

"paddw %%mm3, %%mm5 \n\t" /* b */\

1037

"paddw %%mm2, %%mm6 \n\t" /* c */\

1038

"paddw %%mm5, %%mm5 \n\t" /* 2b */\

1039

"psubw %%mm5, %%mm6 \n\t" /* c - 2b */\

1040

"pshufw $0x06, %%mm0, %%mm5 \n\t" /* 0C0B0A0A */\

1041

"pmullw "MANGLE(ff_pw_3)", %%mm6 \n\t" /* 3c - 6b */\

1042

"paddw %%mm4, %%mm0 \n\t" /* a */\

1043

"paddw %%mm1, %%mm5 \n\t" /* d */\

1044

"pmullw "MANGLE(ff_pw_20)", %%mm0 \n\t" /* 20a */\

1045

"psubw %%mm5, %%mm0 \n\t" /* 20a - d */\

1046

"paddw %6, %%mm6 \n\t"\

1047

"paddw %%mm6, %%mm0 \n\t" /* 20a - 6b + 3c - d */\

1048

"psraw $5, %%mm0 \n\t"\

1931

"pxor %%mm7, %%mm7 \n\t"\

1932

"1: \n\t"\

1933

"movq (%0), %%mm0 \n\t" /* ABCDEFGH */\

1934

"movq %%mm0, %%mm1 \n\t" /* ABCDEFGH */\

1935

"movq %%mm0, %%mm2 \n\t" /* ABCDEFGH */\

1936

"punpcklbw %%mm7, %%mm0 \n\t" /* 0A0B0C0D */\

1937

"punpckhbw %%mm7, %%mm1 \n\t" /* 0E0F0G0H */\

1938

"pshufw $0x90, %%mm0, %%mm5 \n\t" /* 0A0A0B0C */\

1939

"pshufw $0x41, %%mm0, %%mm6 \n\t" /* 0B0A0A0B */\

1940

"movq %%mm2, %%mm3 \n\t" /* ABCDEFGH */\

1941

"movq %%mm2, %%mm4 \n\t" /* ABCDEFGH */\

1942

"psllq $8, %%mm2 \n\t" /* 0ABCDEFG */\

1943

"psllq $16, %%mm3 \n\t" /* 00ABCDEF */\

1944

"psllq $24, %%mm4 \n\t" /* 000ABCDE */\

1945

"punpckhbw %%mm7, %%mm2 \n\t" /* 0D0E0F0G */\

1946

"punpckhbw %%mm7, %%mm3 \n\t" /* 0C0D0E0F */\

1947

"punpckhbw %%mm7, %%mm4 \n\t" /* 0B0C0D0E */\

1948

"paddw %%mm3, %%mm5 \n\t" /* b */\

1949

"paddw %%mm2, %%mm6 \n\t" /* c */\

1950

"paddw %%mm5, %%mm5 \n\t" /* 2b */\

1951

"psubw %%mm5, %%mm6 \n\t" /* c - 2b */\

1952

"pshufw $0x06, %%mm0, %%mm5 \n\t" /* 0C0B0A0A */\

1953

"pmullw "MANGLE(ff_pw_3)", %%mm6 \n\t" /* 3c - 6b */\

1954

"paddw %%mm4, %%mm0 \n\t" /* a */\

1955

"paddw %%mm1, %%mm5 \n\t" /* d */\

1956

"pmullw "MANGLE(ff_pw_20)", %%mm0 \n\t" /* 20a */\

1957

"psubw %%mm5, %%mm0 \n\t" /* 20a - d */\

1958

"paddw %6, %%mm6 \n\t"\

1959

"paddw %%mm6, %%mm0 \n\t" /* 20a - 6b + 3c - d */\

1960

"psraw $5, %%mm0 \n\t"\

1049

1961

/* mm1=EFGH, mm2=DEFG, mm3=CDEF, mm4=BCDE, mm7=0 */\

1050

1962

1051

"movd 5(%0), %%mm5 \n\t" /* FGHI */\

1052

"punpcklbw %%mm7, %%mm5 \n\t" /* 0F0G0H0I */\

1053

"pshufw $0xF9, %%mm5, %%mm6 \n\t" /* 0G0H0I0I */\

1054

"paddw %%mm5, %%mm1 \n\t" /* a */\

1055

"paddw %%mm6, %%mm2 \n\t" /* b */\

1056

"pshufw $0xBE, %%mm5, %%mm6 \n\t" /* 0H0I0I0H */\

1057

"pshufw $0x6F, %%mm5, %%mm5 \n\t" /* 0I0I0H0G */\

1058

"paddw %%mm6, %%mm3 \n\t" /* c */\

1059

"paddw %%mm5, %%mm4 \n\t" /* d */\

1060

"paddw %%mm2, %%mm2 \n\t" /* 2b */\

1061

"psubw %%mm2, %%mm3 \n\t" /* c - 2b */\

1062

"pmullw "MANGLE(ff_pw_20)", %%mm1 \n\t" /* 20a */\

1063

"pmullw "MANGLE(ff_pw_3)", %%mm3 \n\t" /* 3c - 6b */\

1064

"psubw %%mm4, %%mm3 \n\t" /* -6b + 3c - d */\

1065

"paddw %6, %%mm1 \n\t"\

1066

"paddw %%mm1, %%mm3 \n\t" /* 20a - 6b + 3c - d */\

1067

"psraw $5, %%mm3 \n\t"\

1068

"packuswb %%mm3, %%mm0 \n\t"\

1963

"movd 5(%0), %%mm5 \n\t" /* FGHI */\

1964

"punpcklbw %%mm7, %%mm5 \n\t" /* 0F0G0H0I */\

1965

"pshufw $0xF9, %%mm5, %%mm6 \n\t" /* 0G0H0I0I */\

1966

"paddw %%mm5, %%mm1 \n\t" /* a */\

1967

"paddw %%mm6, %%mm2 \n\t" /* b */\

1968

"pshufw $0xBE, %%mm5, %%mm6 \n\t" /* 0H0I0I0H */\

1969

"pshufw $0x6F, %%mm5, %%mm5 \n\t" /* 0I0I0H0G */\

1970

"paddw %%mm6, %%mm3 \n\t" /* c */\

1971

"paddw %%mm5, %%mm4 \n\t" /* d */\

1972

"paddw %%mm2, %%mm2 \n\t" /* 2b */\

1973

"psubw %%mm2, %%mm3 \n\t" /* c - 2b */\

1974

"pmullw "MANGLE(ff_pw_20)", %%mm1 \n\t" /* 20a */\

1975

"pmullw "MANGLE(ff_pw_3)", %%mm3 \n\t" /* 3c - 6b */\

1976

"psubw %%mm4, %%mm3 \n\t" /* -6b + 3c - d */\

1977

"paddw %6, %%mm1 \n\t"\

1978

"paddw %%mm1, %%mm3 \n\t" /* 20a - 6b + 3c - d */\

1979

"psraw $5, %%mm3 \n\t"\

1980

"packuswb %%mm3, %%mm0 \n\t"\

1069

1981

OP_MMX2(%%mm0, (%1), %%mm4, q)\

1070

1982

1071

"addl %3, %0 \n\t"\

1072

"addl %4, %1 \n\t"\

1073

"decl %2 \n\t"\

1074

" jnz 1b \n\t"\

1983

"add %3, %0 \n\t"\

1984

"add %4, %1 \n\t"\

1985

"decl %2 \n\t"\

1986

" jnz 1b \n\t"\

1075

1987

: "+a"(src), "+c"(dst), "+m"(h)\

1076

: "S"(srcStride), "D"(dstStride), /*"m"(ff_pw_20), "m"(ff_pw_3),*/ "m"(temp), "m"(ROUNDER)\

1988

: "S"((long)srcStride), "D"((long)dstStride), /*"m"(ff_pw_20), "m"(ff_pw_3),*/ "m"(temp), "m"(ROUNDER)\

1077

1989

: "memory"\

1078

1990

);\

1079

1991

1093

2005

temp[ 6]= (src[ 6]+src[ 7])*20 - (src[ 5]+src[ 8])*6 + (src[ 4]+src[ 8])*3 - (src[ 3]+src[ 7]);\

1094

2006

temp[ 7]= (src[ 7]+src[ 8])*20 - (src[ 6]+src[ 8])*6 + (src[ 5]+src[ 7])*3 - (src[ 4]+src[ 6]);\

1095

2007

asm volatile(\

1096

"movq (%0), %%mm0 \n\t"\

1097

"movq 8(%0), %%mm1 \n\t"\

1098

"paddw %2, %%mm0 \n\t"\

1099

"paddw %2, %%mm1 \n\t"\

1100

"psraw $5, %%mm0 \n\t"\

1101

"psraw $5, %%mm1 \n\t"\

1102

"packuswb %%mm1, %%mm0 \n\t"\

2008

"movq (%0), %%mm0 \n\t"\

2009

"movq 8(%0), %%mm1 \n\t"\

2010

"paddw %2, %%mm0 \n\t"\

2011

"paddw %2, %%mm1 \n\t"\

2012

"psraw $5, %%mm0 \n\t"\

2013

"psraw $5, %%mm1 \n\t"\

2014

"packuswb %%mm1, %%mm0 \n\t"\

1103

2015

OP_3DNOW(%%mm0, (%1), %%mm1, q)\

1104

2016

:: "r"(temp), "r"(dst), "m"(ROUNDER)\

1105

2017

:"memory"\

1118

2030

1119

2031

/*FIXME unroll */\

1120

2032

asm volatile(\

1121

"pxor %%mm7, %%mm7 \n\t"\

1122

"1: \n\t"\

1123

"movq (%0), %%mm0 \n\t"\

1124

"movq (%0), %%mm1 \n\t"\

1125

"movq 8(%0), %%mm2 \n\t"\

1126

"movq 8(%0), %%mm3 \n\t"\

1127

"punpcklbw %%mm7, %%mm0 \n\t"\

1128

"punpckhbw %%mm7, %%mm1 \n\t"\

1129

"punpcklbw %%mm7, %%mm2 \n\t"\

1130

"punpckhbw %%mm7, %%mm3 \n\t"\

1131

"movq %%mm0, (%1) \n\t"\

1132

"movq %%mm1, 17*8(%1) \n\t"\

1133

"movq %%mm2, 2*17*8(%1) \n\t"\

1134

"movq %%mm3, 3*17*8(%1) \n\t"\

1135

"addl $8, %1 \n\t"\

1136

"addl %3, %0 \n\t"\

1137

"decl %2 \n\t"\

1138

" jnz 1b \n\t"\

2033

"pxor %%mm7, %%mm7 \n\t"\

2034

"1: \n\t"\

2035

"movq (%0), %%mm0 \n\t"\

2036

"movq (%0), %%mm1 \n\t"\

2037

"movq 8(%0), %%mm2 \n\t"\

2038

"movq 8(%0), %%mm3 \n\t"\

2039

"punpcklbw %%mm7, %%mm0 \n\t"\

2040

"punpckhbw %%mm7, %%mm1 \n\t"\

2041

"punpcklbw %%mm7, %%mm2 \n\t"\

2042

"punpckhbw %%mm7, %%mm3 \n\t"\

2043

"movq %%mm0, (%1) \n\t"\

2044

"movq %%mm1, 17*8(%1) \n\t"\

2045

"movq %%mm2, 2*17*8(%1) \n\t"\

2046

"movq %%mm3, 3*17*8(%1) \n\t"\

2047

"add $8, %1 \n\t"\

2048

"add %3, %0 \n\t"\

2049

"decl %2 \n\t"\

2050

" jnz 1b \n\t"\

1139

2051

: "+r" (src), "+r" (temp_ptr), "+r"(count)\

1140

: "r" (srcStride)\

2052

: "r" ((long)srcStride)\

1141

2053

: "memory"\

1142

2054

);\

1143

2055

1146

2058

1147

2059

/*FIXME reorder for speed */\

1148

2060

asm volatile(\

1149

/*"pxor %%mm7, %%mm7 \n\t"*/\

1150

"1: \n\t"\

1151

"movq (%0), %%mm0 \n\t"\

1152

"movq 8(%0), %%mm1 \n\t"\

1153

"movq 16(%0), %%mm2 \n\t"\

1154

"movq 24(%0), %%mm3 \n\t"\

2061

/*"pxor %%mm7, %%mm7 \n\t"*/\

2062

"1: \n\t"\

2063

"movq (%0), %%mm0 \n\t"\

2064

"movq 8(%0), %%mm1 \n\t"\

2065

"movq 16(%0), %%mm2 \n\t"\

2066

"movq 24(%0), %%mm3 \n\t"\

1155

2067

QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 16(%0), 8(%0), (%0), 32(%0), (%1), OP)\

1156

2068

QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 8(%0), (%0), (%0), 40(%0), (%1, %3), OP)\

1157

"addl %4, %1 \n\t"\

2069

"add %4, %1 \n\t"\

1158

2070

QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, (%0), (%0), 8(%0), 48(%0), (%1), OP)\

1159

2071

1160

2072

QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, (%0), 8(%0), 16(%0), 56(%0), (%1, %3), OP)\

1161

"addl %4, %1 \n\t"\

2073

"add %4, %1 \n\t"\

1162

2074

QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 8(%0), 16(%0), 24(%0), 64(%0), (%1), OP)\

1163

2075

QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 16(%0), 24(%0), 32(%0), 72(%0), (%1, %3), OP)\

1164

"addl %4, %1 \n\t"\

2076

"add %4, %1 \n\t"\

1165

2077

QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, 24(%0), 32(%0), 40(%0), 80(%0), (%1), OP)\

1166

2078

QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, 32(%0), 40(%0), 48(%0), 88(%0), (%1, %3), OP)\

1167

"addl %4, %1 \n\t"\

2079

"add %4, %1 \n\t"\

1168

2080

QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 40(%0), 48(%0), 56(%0), 96(%0), (%1), OP)\

1169

2081

QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 48(%0), 56(%0), 64(%0),104(%0), (%1, %3), OP)\

1170

"addl %4, %1 \n\t"\

2082

"add %4, %1 \n\t"\

1171

2083

QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, 56(%0), 64(%0), 72(%0),112(%0), (%1), OP)\

1172

2084

QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, 64(%0), 72(%0), 80(%0),120(%0), (%1, %3), OP)\

1173

"addl %4, %1 \n\t"\

2085

"add %4, %1 \n\t"\

1174

2086

QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 72(%0), 80(%0), 88(%0),128(%0), (%1), OP)\

1175

2087

1176

2088

QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 80(%0), 88(%0), 96(%0),128(%0), (%1, %3), OP)\

1177

"addl %4, %1 \n\t" \

2089

"add %4, %1 \n\t" \

1178

2090

QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, 88(%0), 96(%0),104(%0),120(%0), (%1), OP)\

1179

2091

QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, 96(%0),104(%0),112(%0),112(%0), (%1, %3), OP)\

1180

2092

1181

"addl $136, %0 \n\t"\

1182

"addl %6, %1 \n\t"\

1183

"decl %2 \n\t"\

1184

" jnz 1b \n\t"\

2093

"add $136, %0 \n\t"\

2094

"add %6, %1 \n\t"\

2095

"decl %2 \n\t"\

2096

" jnz 1b \n\t"\

1185

2097

1186

2098

: "+r"(temp_ptr), "+r"(dst), "+g"(count)\

1187

: "r"(dstStride), "r"(2*dstStride), /*"m"(ff_pw_20), "m"(ff_pw_3),*/ "m"(ROUNDER), "g"(4-14*dstStride)\

2099

: "r"((long)dstStride), "r"(2*(long)dstStride), /*"m"(ff_pw_20), "m"(ff_pw_3),*/ "m"(ROUNDER), "g"(4-14*(long)dstStride)\

1188

2100

:"memory"\

1189

2101

);\

1190

2102

1191

2103

1192

2104

static void OPNAME ## mpeg4_qpel8_v_lowpass_ ## MMX(uint8_t *dst, uint8_t *src, int dstStride, int srcStride){\

1193

uint64_t temp[9*4];\

2105

uint64_t temp[9*2];\

1194

2106

uint64_t *temp_ptr= temp;\

1195

2107

int count= 9;\

1196

2108

1197

2109

/*FIXME unroll */\

1198

2110

asm volatile(\

1199

"pxor %%mm7, %%mm7 \n\t"\

1200

"1: \n\t"\

1201

"movq (%0), %%mm0 \n\t"\

1202

"movq (%0), %%mm1 \n\t"\

1203

"punpcklbw %%mm7, %%mm0 \n\t"\

1204

"punpckhbw %%mm7, %%mm1 \n\t"\

1205

"movq %%mm0, (%1) \n\t"\

1206

"movq %%mm1, 9*8(%1) \n\t"\

1207

"addl $8, %1 \n\t"\

1208

"addl %3, %0 \n\t"\

1209

"decl %2 \n\t"\

1210

" jnz 1b \n\t"\

2111

"pxor %%mm7, %%mm7 \n\t"\

2112

"1: \n\t"\

2113

"movq (%0), %%mm0 \n\t"\

2114

"movq (%0), %%mm1 \n\t"\

2115

"punpcklbw %%mm7, %%mm0 \n\t"\

2116

"punpckhbw %%mm7, %%mm1 \n\t"\

2117

"movq %%mm0, (%1) \n\t"\

2118

"movq %%mm1, 9*8(%1) \n\t"\

2119

"add $8, %1 \n\t"\

2120

"add %3, %0 \n\t"\

2121

"decl %2 \n\t"\

2122

" jnz 1b \n\t"\

1211

2123

: "+r" (src), "+r" (temp_ptr), "+r"(count)\

1212

: "r" (srcStride)\

2124

: "r" ((long)srcStride)\

1213

2125

: "memory"\

1214

2126

);\

1215

2127

1218

2130

1219

2131

/*FIXME reorder for speed */\

1220

2132

asm volatile(\

1221

/*"pxor %%mm7, %%mm7 \n\t"*/\

1222

"1: \n\t"\

1223

"movq (%0), %%mm0 \n\t"\

1224

"movq 8(%0), %%mm1 \n\t"\

1225

"movq 16(%0), %%mm2 \n\t"\

1226

"movq 24(%0), %%mm3 \n\t"\

2133

/*"pxor %%mm7, %%mm7 \n\t"*/\

2134

"1: \n\t"\

2135

"movq (%0), %%mm0 \n\t"\

2136

"movq 8(%0), %%mm1 \n\t"\

2137

"movq 16(%0), %%mm2 \n\t"\

2138

"movq 24(%0), %%mm3 \n\t"\

1227

2139

QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 16(%0), 8(%0), (%0), 32(%0), (%1), OP)\

1228

2140

QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 8(%0), (%0), (%0), 40(%0), (%1, %3), OP)\

1229

"addl %4, %1 \n\t"\

2141

"add %4, %1 \n\t"\

1230

2142

QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, (%0), (%0), 8(%0), 48(%0), (%1), OP)\

1231

2143

1232

2144

QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, (%0), 8(%0), 16(%0), 56(%0), (%1, %3), OP)\

1233

"addl %4, %1 \n\t"\

2145

"add %4, %1 \n\t"\

1234

2146

QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 8(%0), 16(%0), 24(%0), 64(%0), (%1), OP)\

1235

2147

1236

2148

QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 16(%0), 24(%0), 32(%0), 64(%0), (%1, %3), OP)\

1237

"addl %4, %1 \n\t"\

2149

"add %4, %1 \n\t"\

1238

2150

QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, 24(%0), 32(%0), 40(%0), 56(%0), (%1), OP)\

1239

2151

QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, 32(%0), 40(%0), 48(%0), 48(%0), (%1, %3), OP)\

1240

2152

1241

"addl $72, %0 \n\t"\

1242

"addl %6, %1 \n\t"\

1243

"decl %2 \n\t"\

1244

" jnz 1b \n\t"\

2153

"add $72, %0 \n\t"\

2154

"add %6, %1 \n\t"\

2155

"decl %2 \n\t"\

2156

" jnz 1b \n\t"\

1245

2157

1246

2158

: "+r"(temp_ptr), "+r"(dst), "+g"(count)\

1247

: "r"(dstStride), "r"(2*dstStride), /*"m"(ff_pw_20), "m"(ff_pw_3),*/ "m"(ROUNDER), "g"(4-6*dstStride)\

2159

: "r"((long)dstStride), "r"(2*(long)dstStride), /*"m"(ff_pw_20), "m"(ff_pw_3),*/ "m"(ROUNDER), "g"(4-6*(long)dstStride)\

1248

2160

: "memory"\

1249

2161

);\

1250

2162

1257

2169

uint64_t temp[8];\

1258

2170

uint8_t * const half= (uint8_t*)temp;\

1259

2171

put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(half, src, 8, stride, 8);\

1260

OPNAME ## pixels8_l2_mmx(dst, src, half, stride, stride, 8);\

2172

OPNAME ## pixels8_l2_ ## MMX(dst, src, half, stride, stride, 8);\

1261

2173

1262

2174

1263

2175

static void OPNAME ## qpel8_mc20_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1268

2180

uint64_t temp[8];\

1269

2181

uint8_t * const half= (uint8_t*)temp;\

1270

2182

put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(half, src, 8, stride, 8);\

1271

OPNAME ## pixels8_l2_mmx(dst, src+1, half, stride, stride, 8);\

2183

OPNAME ## pixels8_l2_ ## MMX(dst, src+1, half, stride, stride, 8);\

1272

2184

1273

2185

1274

2186

static void OPNAME ## qpel8_mc01_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1275

2187

uint64_t temp[8];\

1276

2188

uint8_t * const half= (uint8_t*)temp;\

1277

2189

put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(half, src, 8, stride);\

1278

OPNAME ## pixels8_l2_mmx(dst, src, half, stride, stride, 8);\

2190

OPNAME ## pixels8_l2_ ## MMX(dst, src, half, stride, stride, 8);\

1279

2191

1280

2192

1281

2193

static void OPNAME ## qpel8_mc02_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1286

2198

uint64_t temp[8];\

1287

2199

uint8_t * const half= (uint8_t*)temp;\

1288

2200

put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(half, src, 8, stride);\

1289

OPNAME ## pixels8_l2_mmx(dst, src+stride, half, stride, stride, 8);\

2201

OPNAME ## pixels8_l2_ ## MMX(dst, src+stride, half, stride, stride, 8);\

1290

2202

1291

2203

static void OPNAME ## qpel8_mc11_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1292

2204

uint64_t half[8 + 9];\

1293

2205

uint8_t * const halfH= ((uint8_t*)half) + 64;\

1294

2206

uint8_t * const halfHV= ((uint8_t*)half);\

1295

2207

put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8, stride, 9);\

1296

put ## RND ## pixels8_l2_mmx(halfH, src, halfH, 8, stride, 9);\

2208

put ## RND ## pixels8_l2_ ## MMX(halfH, src, halfH, 8, stride, 9);\

1297

2209

put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);\

1298

OPNAME ## pixels8_l2_mmx(dst, halfH, halfHV, stride, 8, 8);\

2210

OPNAME ## pixels8_l2_ ## MMX(dst, halfH, halfHV, stride, 8, 8);\

1299

2211

1300

2212

static void OPNAME ## qpel8_mc31_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1301

2213

uint64_t half[8 + 9];\

1302

2214

uint8_t * const halfH= ((uint8_t*)half) + 64;\

1303

2215

uint8_t * const halfHV= ((uint8_t*)half);\

1304

2216

put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8, stride, 9);\

1305

put ## RND ## pixels8_l2_mmx(halfH, src+1, halfH, 8, stride, 9);\

2217

put ## RND ## pixels8_l2_ ## MMX(halfH, src+1, halfH, 8, stride, 9);\

1306

2218

put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);\

1307

OPNAME ## pixels8_l2_mmx(dst, halfH, halfHV, stride, 8, 8);\

2219

OPNAME ## pixels8_l2_ ## MMX(dst, halfH, halfHV, stride, 8, 8);\

1308

2220

1309

2221

static void OPNAME ## qpel8_mc13_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1310

2222

uint64_t half[8 + 9];\

1311

2223

uint8_t * const halfH= ((uint8_t*)half) + 64;\

1312

2224

uint8_t * const halfHV= ((uint8_t*)half);\

1313

2225

put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8, stride, 9);\

1314

put ## RND ## pixels8_l2_mmx(halfH, src, halfH, 8, stride, 9);\

2226

put ## RND ## pixels8_l2_ ## MMX(halfH, src, halfH, 8, stride, 9);\

1315

2227

put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);\

1316

OPNAME ## pixels8_l2_mmx(dst, halfH+8, halfHV, stride, 8, 8);\

2228

OPNAME ## pixels8_l2_ ## MMX(dst, halfH+8, halfHV, stride, 8, 8);\

1317

2229

1318

2230

static void OPNAME ## qpel8_mc33_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1319

2231

uint64_t half[8 + 9];\

1320

2232

uint8_t * const halfH= ((uint8_t*)half) + 64;\

1321

2233

uint8_t * const halfHV= ((uint8_t*)half);\

1322

2234

put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8, stride, 9);\

1323

put ## RND ## pixels8_l2_mmx(halfH, src+1, halfH, 8, stride, 9);\

2235

put ## RND ## pixels8_l2_ ## MMX(halfH, src+1, halfH, 8, stride, 9);\

1324

2236

put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);\

1325

OPNAME ## pixels8_l2_mmx(dst, halfH+8, halfHV, stride, 8, 8);\

2237

OPNAME ## pixels8_l2_ ## MMX(dst, halfH+8, halfHV, stride, 8, 8);\

1326

2238

1327

2239

static void OPNAME ## qpel8_mc21_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1328

2240

uint64_t half[8 + 9];\

1330

2242

uint8_t * const halfHV= ((uint8_t*)half);\

1331

2243

put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8, stride, 9);\

1332

2244

put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);\

1333

OPNAME ## pixels8_l2_mmx(dst, halfH, halfHV, stride, 8, 8);\

2245

OPNAME ## pixels8_l2_ ## MMX(dst, halfH, halfHV, stride, 8, 8);\

1334

2246

1335

2247

static void OPNAME ## qpel8_mc23_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1336

2248

uint64_t half[8 + 9];\

1338

2250

uint8_t * const halfHV= ((uint8_t*)half);\

1339

2251

put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8, stride, 9);\

1340

2252

put ## RND ## mpeg4_qpel8_v_lowpass_ ## MMX(halfHV, halfH, 8, 8);\

1341

OPNAME ## pixels8_l2_mmx(dst, halfH+8, halfHV, stride, 8, 8);\

2253

OPNAME ## pixels8_l2_ ## MMX(dst, halfH+8, halfHV, stride, 8, 8);\

1342

2254

1343

2255

static void OPNAME ## qpel8_mc12_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1344

2256

uint64_t half[8 + 9];\

1345

2257

uint8_t * const halfH= ((uint8_t*)half);\

1346

2258

put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8, stride, 9);\

1347

put ## RND ## pixels8_l2_mmx(halfH, src, halfH, 8, stride, 9);\

2259

put ## RND ## pixels8_l2_ ## MMX(halfH, src, halfH, 8, stride, 9);\

1348

2260

OPNAME ## mpeg4_qpel8_v_lowpass_ ## MMX(dst, halfH, stride, 8);\

1349

2261

1350

2262

static void OPNAME ## qpel8_mc32_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1351

2263

uint64_t half[8 + 9];\

1352

2264

uint8_t * const halfH= ((uint8_t*)half);\

1353

2265

put ## RND ## mpeg4_qpel8_h_lowpass_ ## MMX(halfH, src, 8, stride, 9);\

1354

put ## RND ## pixels8_l2_mmx(halfH, src+1, halfH, 8, stride, 9);\

2266

put ## RND ## pixels8_l2_ ## MMX(halfH, src+1, halfH, 8, stride, 9);\

1355

2267

OPNAME ## mpeg4_qpel8_v_lowpass_ ## MMX(dst, halfH, stride, 8);\

1356

2268

1357

2269

static void OPNAME ## qpel8_mc22_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1368

2280

uint64_t temp[32];\

1369

2281

uint8_t * const half= (uint8_t*)temp;\

1370

2282

put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(half, src, 16, stride, 16);\

1371

OPNAME ## pixels16_l2_mmx(dst, src, half, stride, stride, 16);\

2283

OPNAME ## pixels16_l2_ ## MMX(dst, src, half, stride, stride, 16);\

1372

2284

1373

2285

1374

2286

static void OPNAME ## qpel16_mc20_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1379

2291

uint64_t temp[32];\

1380

2292

uint8_t * const half= (uint8_t*)temp;\

1381

2293

put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(half, src, 16, stride, 16);\

1382

OPNAME ## pixels16_l2_mmx(dst, src+1, half, stride, stride, 16);\

2294

OPNAME ## pixels16_l2_ ## MMX(dst, src+1, half, stride, stride, 16);\

1383

2295

1384

2296

1385

2297

static void OPNAME ## qpel16_mc01_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1386

2298

uint64_t temp[32];\

1387

2299

uint8_t * const half= (uint8_t*)temp;\

1388

2300

put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(half, src, 16, stride);\

1389

OPNAME ## pixels16_l2_mmx(dst, src, half, stride, stride, 16);\

2301

OPNAME ## pixels16_l2_ ## MMX(dst, src, half, stride, stride, 16);\

1390

2302

1391

2303

1392

2304

static void OPNAME ## qpel16_mc02_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1397

2309

uint64_t temp[32];\

1398

2310

uint8_t * const half= (uint8_t*)temp;\

1399

2311

put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(half, src, 16, stride);\

1400

OPNAME ## pixels16_l2_mmx(dst, src+stride, half, stride, stride, 16);\

2312

OPNAME ## pixels16_l2_ ## MMX(dst, src+stride, half, stride, stride, 16);\

1401

2313

1402

2314

static void OPNAME ## qpel16_mc11_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1403

2315

uint64_t half[16*2 + 17*2];\

1404

2316

uint8_t * const halfH= ((uint8_t*)half) + 256;\

1405

2317

uint8_t * const halfHV= ((uint8_t*)half);\

1406

2318

put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16, stride, 17);\

1407

put ## RND ## pixels16_l2_mmx(halfH, src, halfH, 16, stride, 17);\

2319

put ## RND ## pixels16_l2_ ## MMX(halfH, src, halfH, 16, stride, 17);\

1408

2320

put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH, 16, 16);\

1409

OPNAME ## pixels16_l2_mmx(dst, halfH, halfHV, stride, 16, 16);\

2321

OPNAME ## pixels16_l2_ ## MMX(dst, halfH, halfHV, stride, 16, 16);\

1410

2322

1411

2323

static void OPNAME ## qpel16_mc31_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1412

2324

uint64_t half[16*2 + 17*2];\

1413

2325

uint8_t * const halfH= ((uint8_t*)half) + 256;\

1414

2326

uint8_t * const halfHV= ((uint8_t*)half);\

1415

2327

put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16, stride, 17);\

1416

put ## RND ## pixels16_l2_mmx(halfH, src+1, halfH, 16, stride, 17);\

2328

put ## RND ## pixels16_l2_ ## MMX(halfH, src+1, halfH, 16, stride, 17);\

1417

2329

put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH, 16, 16);\

1418

OPNAME ## pixels16_l2_mmx(dst, halfH, halfHV, stride, 16, 16);\

2330

OPNAME ## pixels16_l2_ ## MMX(dst, halfH, halfHV, stride, 16, 16);\

1419

2331

1420

2332

static void OPNAME ## qpel16_mc13_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1421

2333

uint64_t half[16*2 + 17*2];\

1422

2334

uint8_t * const halfH= ((uint8_t*)half) + 256;\

1423

2335

uint8_t * const halfHV= ((uint8_t*)half);\

1424

2336

put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16, stride, 17);\

1425

put ## RND ## pixels16_l2_mmx(halfH, src, halfH, 16, stride, 17);\

2337

put ## RND ## pixels16_l2_ ## MMX(halfH, src, halfH, 16, stride, 17);\

1426

2338

put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH, 16, 16);\

1427

OPNAME ## pixels16_l2_mmx(dst, halfH+16, halfHV, stride, 16, 16);\

2339

OPNAME ## pixels16_l2_ ## MMX(dst, halfH+16, halfHV, stride, 16, 16);\

1428

2340

1429

2341

static void OPNAME ## qpel16_mc33_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1430

2342

uint64_t half[16*2 + 17*2];\

1431

2343

uint8_t * const halfH= ((uint8_t*)half) + 256;\

1432

2344

uint8_t * const halfHV= ((uint8_t*)half);\

1433

2345

put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16, stride, 17);\

1434

put ## RND ## pixels16_l2_mmx(halfH, src+1, halfH, 16, stride, 17);\

2346

put ## RND ## pixels16_l2_ ## MMX(halfH, src+1, halfH, 16, stride, 17);\

1435

2347

put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH, 16, 16);\

1436

OPNAME ## pixels16_l2_mmx(dst, halfH+16, halfHV, stride, 16, 16);\

2348

OPNAME ## pixels16_l2_ ## MMX(dst, halfH+16, halfHV, stride, 16, 16);\

1437

2349

1438

2350

static void OPNAME ## qpel16_mc21_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1439

2351

uint64_t half[16*2 + 17*2];\

1441

2353

uint8_t * const halfHV= ((uint8_t*)half);\

1442

2354

put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16, stride, 17);\

1443

2355

put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH, 16, 16);\

1444

OPNAME ## pixels16_l2_mmx(dst, halfH, halfHV, stride, 16, 16);\

2356

OPNAME ## pixels16_l2_ ## MMX(dst, halfH, halfHV, stride, 16, 16);\

1445

2357

1446

2358

static void OPNAME ## qpel16_mc23_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1447

2359

uint64_t half[16*2 + 17*2];\

1449

2361

uint8_t * const halfHV= ((uint8_t*)half);\

1450

2362

put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16, stride, 17);\

1451

2363

put ## RND ## mpeg4_qpel16_v_lowpass_ ## MMX(halfHV, halfH, 16, 16);\

1452

OPNAME ## pixels16_l2_mmx(dst, halfH+16, halfHV, stride, 16, 16);\

2364

OPNAME ## pixels16_l2_ ## MMX(dst, halfH+16, halfHV, stride, 16, 16);\

1453

2365

1454

2366

static void OPNAME ## qpel16_mc12_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1455

2367

uint64_t half[17*2];\

1456

2368

uint8_t * const halfH= ((uint8_t*)half);\

1457

2369

put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16, stride, 17);\

1458

put ## RND ## pixels16_l2_mmx(halfH, src, halfH, 16, stride, 17);\

2370

put ## RND ## pixels16_l2_ ## MMX(halfH, src, halfH, 16, stride, 17);\

1459

2371

OPNAME ## mpeg4_qpel16_v_lowpass_ ## MMX(dst, halfH, stride, 16);\

1460

2372

1461

2373

static void OPNAME ## qpel16_mc32_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1462

2374

uint64_t half[17*2];\

1463

2375

uint8_t * const halfH= ((uint8_t*)half);\

1464

2376

put ## RND ## mpeg4_qpel16_h_lowpass_ ## MMX(halfH, src, 16, stride, 17);\

1465

put ## RND ## pixels16_l2_mmx(halfH, src+1, halfH, 16, stride, 17);\

2377

put ## RND ## pixels16_l2_ ## MMX(halfH, src+1, halfH, 16, stride, 17);\

1466

2378

OPNAME ## mpeg4_qpel16_v_lowpass_ ## MMX(dst, halfH, stride, 16);\

1467

2379

1468

2380

static void OPNAME ## qpel16_mc22_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

1472

2384

OPNAME ## mpeg4_qpel16_v_lowpass_ ## MMX(dst, halfH, stride, 16);\

1473

2385

}

1474

2386

1475

1476

#define PUT_OP(a,b,temp, size) "mov" #size " " #a ", " #b " \n\t"

2387

#define PUT_OP(a,b,temp, size) "mov" #size " " #a ", " #b " \n\t"

1477

2388

#define AVG_3DNOW_OP(a,b,temp, size) \

1478

"mov" #size " " #b ", " #temp " \n\t"\

1479

"pavgusb " #temp ", " #a " \n\t"\

1480

"mov" #size " " #a ", " #b " \n\t"

2389

"mov" #size " " #b ", " #temp " \n\t"\

2390

"pavgusb " #temp ", " #a " \n\t"\

2391

"mov" #size " " #a ", " #b " \n\t"

1481

2392

#define AVG_MMX2_OP(a,b,temp, size) \

1482

"mov" #size " " #b ", " #temp " \n\t"\

1483

"pavgb " #temp ", " #a " \n\t"\

1484

"mov" #size " " #a ", " #b " \n\t"

2393

"mov" #size " " #b ", " #temp " \n\t"\

2394

"pavgb " #temp ", " #a " \n\t"\

2395

"mov" #size " " #a ", " #b " \n\t"

1485

2396

1486

2397

QPEL_BASE(put_ , ff_pw_16, _ , PUT_OP, PUT_OP)

1487

2398

QPEL_BASE(avg_ , ff_pw_16, _ , AVG_MMX2_OP, AVG_3DNOW_OP)

1493

2404

QPEL_OP(avg_ , ff_pw_16, _ , AVG_MMX2_OP, mmx2)

1494

2405

QPEL_OP(put_no_rnd_, ff_pw_15, _no_rnd_, PUT_OP, mmx2)

1495

2406

2407

/***********************************/

2408

/* bilinear qpel: not compliant to any spec, only for -lavdopts fast */

2409

2410

#define QPEL_2TAP_XY(OPNAME, SIZE, MMX, XY, HPEL)\

2411

static void OPNAME ## 2tap_qpel ## SIZE ## _mc ## XY ## _ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

2412

OPNAME ## pixels ## SIZE ## HPEL(dst, src, stride, SIZE);\

2413

}

2414

#define QPEL_2TAP_L3(OPNAME, SIZE, MMX, XY, S0, S1, S2)\

2415

static void OPNAME ## 2tap_qpel ## SIZE ## _mc ## XY ## _ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

2416

OPNAME ## 2tap_qpel ## SIZE ## _l3_ ## MMX(dst, src+S0, stride, SIZE, S1, S2);\

2417

}

2418

2419

#define QPEL_2TAP(OPNAME, SIZE, MMX)\

2420

QPEL_2TAP_XY(OPNAME, SIZE, MMX, 20, _x2_ ## MMX)\

2421

QPEL_2TAP_XY(OPNAME, SIZE, MMX, 02, _y2_ ## MMX)\

2422

QPEL_2TAP_XY(OPNAME, SIZE, MMX, 22, _xy2_mmx)\

2423

static const qpel_mc_func OPNAME ## 2tap_qpel ## SIZE ## _mc00_ ## MMX =\

2424

OPNAME ## qpel ## SIZE ## _mc00_ ## MMX;\

2425

static const qpel_mc_func OPNAME ## 2tap_qpel ## SIZE ## _mc21_ ## MMX =\

2426

OPNAME ## 2tap_qpel ## SIZE ## _mc20_ ## MMX;\

2427

static const qpel_mc_func OPNAME ## 2tap_qpel ## SIZE ## _mc12_ ## MMX =\

2428

OPNAME ## 2tap_qpel ## SIZE ## _mc02_ ## MMX;\

2429

static void OPNAME ## 2tap_qpel ## SIZE ## _mc32_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

2430

OPNAME ## pixels ## SIZE ## _y2_ ## MMX(dst, src+1, stride, SIZE);\

2431

2432

static void OPNAME ## 2tap_qpel ## SIZE ## _mc23_ ## MMX(uint8_t *dst, uint8_t *src, int stride){\

2433

OPNAME ## pixels ## SIZE ## _x2_ ## MMX(dst, src+stride, stride, SIZE);\

2434

2435

QPEL_2TAP_L3(OPNAME, SIZE, MMX, 10, 0, 1, 0)\

2436

QPEL_2TAP_L3(OPNAME, SIZE, MMX, 30, 1, -1, 0)\

2437

QPEL_2TAP_L3(OPNAME, SIZE, MMX, 01, 0, stride, 0)\

2438

QPEL_2TAP_L3(OPNAME, SIZE, MMX, 03, stride, -stride, 0)\

2439

QPEL_2TAP_L3(OPNAME, SIZE, MMX, 11, 0, stride, 1)\

2440

QPEL_2TAP_L3(OPNAME, SIZE, MMX, 31, 1, stride, -1)\

2441

QPEL_2TAP_L3(OPNAME, SIZE, MMX, 13, stride, -stride, 1)\

2442

QPEL_2TAP_L3(OPNAME, SIZE, MMX, 33, stride+1, -stride, -1)\

2443

2444

QPEL_2TAP(put_, 16, mmx2)

2445

QPEL_2TAP(avg_, 16, mmx2)

2446

QPEL_2TAP(put_, 8, mmx2)

2447

QPEL_2TAP(avg_, 8, mmx2)

2448

QPEL_2TAP(put_, 16, 3dnow)

2449

QPEL_2TAP(avg_, 16, 3dnow)

2450

QPEL_2TAP(put_, 8, 3dnow)

2451

QPEL_2TAP(avg_, 8, 3dnow)

2452

2453

1496

2454

#if 0

1497

2455

static void just_return() { return; }

1498

2456

#endif

1502

2460

c->put_no_rnd_ ## postfix1 = put_no_rnd_ ## postfix2;\

1503

2461

c->avg_ ## postfix1 = avg_ ## postfix2;

1504

2462

2463

static void gmc_mmx(uint8_t *dst, uint8_t *src, int stride, int h, int ox, int oy,

2464

int dxx, int dxy, int dyx, int dyy, int shift, int r, int width, int height){

2465

const int w = 8;

2466

const int ix = ox>>(16+shift);

2467

const int iy = oy>>(16+shift);

2468

const int oxs = ox>>4;

2469

const int oys = oy>>4;

2470

const int dxxs = dxx>>4;

2471

const int dxys = dxy>>4;

2472

const int dyxs = dyx>>4;

2473

const int dyys = dyy>>4;

2474

const uint16_t r4[4] = {r,r,r,r};

2475

const uint16_t dxy4[4] = {dxys,dxys,dxys,dxys};

2476

const uint16_t dyy4[4] = {dyys,dyys,dyys,dyys};

2477

const uint64_t shift2 = 2*shift;

2478

uint8_t edge_buf[(h+1)*stride];

2479

int x, y;

2480

2481

const int dxw = (dxx-(1<<(16+shift)))*(w-1);

2482

const int dyh = (dyy-(1<<(16+shift)))*(h-1);

2483

const int dxh = dxy*(h-1);

2484

const int dyw = dyx*(w-1);

2485

if( // non-constant fullpel offset (3% of blocks)

2486

(ox^(ox+dxw) | ox^(ox+dxh) | ox^(ox+dxw+dxh) |

2487

oy^(oy+dyw) | oy^(oy+dyh) | oy^(oy+dyw+dyh)) >> (16+shift)

2488

// uses more than 16 bits of subpel mv (only at huge resolution)

2489

|| (dxx|dxy|dyx|dyy)&15 )

2490

{

2491

//FIXME could still use mmx for some of the rows

2492

ff_gmc_c(dst, src, stride, h, ox, oy, dxx, dxy, dyx, dyy, shift, r, width, height);

2493

return;

2494

}

2495

2496

src += ix + iy*stride;

2497

if( (unsigned)ix >= width-w ||

2498

(unsigned)iy >= height-h )

2499

{

2500

ff_emulated_edge_mc(edge_buf, src, stride, w+1, h+1, ix, iy, width, height);

2501

src = edge_buf;

2502

}

2503

2504

asm volatile(

2505

"movd %0, %%mm6 \n\t"

2506

"pxor %%mm7, %%mm7 \n\t"

2507

"punpcklwd %%mm6, %%mm6 \n\t"

2508

"punpcklwd %%mm6, %%mm6 \n\t"

2509

:: "r"(1<<shift)

2510

);

2511

2512

for(x=0; x<w; x+=4){

2513

uint16_t dx4[4] = { oxs - dxys + dxxs*(x+0),

2514

oxs - dxys + dxxs*(x+1),

2515

oxs - dxys + dxxs*(x+2),

2516

oxs - dxys + dxxs*(x+3) };

2517

uint16_t dy4[4] = { oys - dyys + dyxs*(x+0),

2518

oys - dyys + dyxs*(x+1),

2519

oys - dyys + dyxs*(x+2),

2520

oys - dyys + dyxs*(x+3) };

2521

2522

for(y=0; y<h; y++){

2523

asm volatile(

2524

"movq %0, %%mm4 \n\t"

2525

"movq %1, %%mm5 \n\t"

2526

"paddw %2, %%mm4 \n\t"

2527

"paddw %3, %%mm5 \n\t"

2528

"movq %%mm4, %0 \n\t"

2529

"movq %%mm5, %1 \n\t"

2530

"psrlw $12, %%mm4 \n\t"

2531

"psrlw $12, %%mm5 \n\t"

2532

: "+m"(*dx4), "+m"(*dy4)

2533

: "m"(*dxy4), "m"(*dyy4)

2534

);

2535

2536

asm volatile(

2537

"movq %%mm6, %%mm2 \n\t"

2538

"movq %%mm6, %%mm1 \n\t"

2539

"psubw %%mm4, %%mm2 \n\t"

2540

"psubw %%mm5, %%mm1 \n\t"

2541

"movq %%mm2, %%mm0 \n\t"

2542

"movq %%mm4, %%mm3 \n\t"

2543

"pmullw %%mm1, %%mm0 \n\t" // (s-dx)*(s-dy)

2544

"pmullw %%mm5, %%mm3 \n\t" // dx*dy

2545

"pmullw %%mm5, %%mm2 \n\t" // (s-dx)*dy

2546

"pmullw %%mm4, %%mm1 \n\t" // dx*(s-dy)

2547

2548

"movd %4, %%mm5 \n\t"

2549

"movd %3, %%mm4 \n\t"

2550

"punpcklbw %%mm7, %%mm5 \n\t"

2551

"punpcklbw %%mm7, %%mm4 \n\t"

2552

"pmullw %%mm5, %%mm3 \n\t" // src[1,1] * dx*dy

2553

"pmullw %%mm4, %%mm2 \n\t" // src[0,1] * (s-dx)*dy

2554

2555

"movd %2, %%mm5 \n\t"

2556

"movd %1, %%mm4 \n\t"

2557

"punpcklbw %%mm7, %%mm5 \n\t"

2558

"punpcklbw %%mm7, %%mm4 \n\t"

2559

"pmullw %%mm5, %%mm1 \n\t" // src[1,0] * dx*(s-dy)

2560

"pmullw %%mm4, %%mm0 \n\t" // src[0,0] * (s-dx)*(s-dy)

2561

"paddw %5, %%mm1 \n\t"

2562

"paddw %%mm3, %%mm2 \n\t"

2563

"paddw %%mm1, %%mm0 \n\t"

2564

"paddw %%mm2, %%mm0 \n\t"

2565

2566

"psrlw %6, %%mm0 \n\t"

2567

"packuswb %%mm0, %%mm0 \n\t"

2568

"movd %%mm0, %0 \n\t"

2569

2570

: "=m"(dst[x+y*stride])

2571

: "m"(src[0]), "m"(src[1]),

2572

"m"(src[stride]), "m"(src[stride+1]),

2573

"m"(*r4), "m"(shift2)

2574

);

2575

src += stride;

2576

}

2577

src += 4-h*stride;

2578

}

2579

}

2580

2581

#ifdef CONFIG_ENCODERS

2582

static int try_8x8basis_mmx(int16_t rem[64], int16_t weight[64], int16_t basis[64], int scale){

2583

long i=0;

2584

2585

assert(FFABS(scale) < 256);

2586

scale<<= 16 + 1 - BASIS_SHIFT + RECON_SHIFT;

2587

2588

asm volatile(

2589

"pcmpeqw %%mm6, %%mm6 \n\t" // -1w

2590

"psrlw $15, %%mm6 \n\t" // 1w

2591

"pxor %%mm7, %%mm7 \n\t"

2592

"movd %4, %%mm5 \n\t"

2593

"punpcklwd %%mm5, %%mm5 \n\t"

2594

"punpcklwd %%mm5, %%mm5 \n\t"

2595

"1: \n\t"

2596

"movq (%1, %0), %%mm0 \n\t"

2597

"movq 8(%1, %0), %%mm1 \n\t"

2598

"pmulhw %%mm5, %%mm0 \n\t"

2599

"pmulhw %%mm5, %%mm1 \n\t"

2600

"paddw %%mm6, %%mm0 \n\t"

2601

"paddw %%mm6, %%mm1 \n\t"

2602

"psraw $1, %%mm0 \n\t"

2603

"psraw $1, %%mm1 \n\t"

2604

"paddw (%2, %0), %%mm0 \n\t"

2605

"paddw 8(%2, %0), %%mm1 \n\t"

2606

"psraw $6, %%mm0 \n\t"

2607

"psraw $6, %%mm1 \n\t"

2608

"pmullw (%3, %0), %%mm0 \n\t"

2609

"pmullw 8(%3, %0), %%mm1 \n\t"

2610

"pmaddwd %%mm0, %%mm0 \n\t"

2611

"pmaddwd %%mm1, %%mm1 \n\t"

2612

"paddd %%mm1, %%mm0 \n\t"

2613

"psrld $4, %%mm0 \n\t"

2614

"paddd %%mm0, %%mm7 \n\t"

2615

"add $16, %0 \n\t"

2616

"cmp $128, %0 \n\t" //FIXME optimize & bench

2617

" jb 1b \n\t"

2618

"movq %%mm7, %%mm6 \n\t"

2619

"psrlq $32, %%mm7 \n\t"

2620

"paddd %%mm6, %%mm7 \n\t"

2621

"psrld $2, %%mm7 \n\t"

2622

"movd %%mm7, %0 \n\t"

2623

2624

: "+r" (i)

2625

: "r"(basis), "r"(rem), "r"(weight), "g"(scale)

2626

);

2627

return i;

2628

}

2629

2630

static void add_8x8basis_mmx(int16_t rem[64], int16_t basis[64], int scale){

2631

long i=0;

2632

2633

if(FFABS(scale) < 256){

2634

scale<<= 16 + 1 - BASIS_SHIFT + RECON_SHIFT;

2635

asm volatile(

2636

"pcmpeqw %%mm6, %%mm6 \n\t" // -1w

2637

"psrlw $15, %%mm6 \n\t" // 1w

2638

"movd %3, %%mm5 \n\t"

2639

"punpcklwd %%mm5, %%mm5 \n\t"

2640

"punpcklwd %%mm5, %%mm5 \n\t"

2641

"1: \n\t"

2642

"movq (%1, %0), %%mm0 \n\t"

2643

"movq 8(%1, %0), %%mm1 \n\t"

2644

"pmulhw %%mm5, %%mm0 \n\t"

2645

"pmulhw %%mm5, %%mm1 \n\t"

2646

"paddw %%mm6, %%mm0 \n\t"

2647

"paddw %%mm6, %%mm1 \n\t"

2648

"psraw $1, %%mm0 \n\t"

2649

"psraw $1, %%mm1 \n\t"

2650

"paddw (%2, %0), %%mm0 \n\t"

2651

"paddw 8(%2, %0), %%mm1 \n\t"

2652

"movq %%mm0, (%2, %0) \n\t"

2653

"movq %%mm1, 8(%2, %0) \n\t"

2654

"add $16, %0 \n\t"

2655

"cmp $128, %0 \n\t" //FIXME optimize & bench

2656

" jb 1b \n\t"

2657

2658

: "+r" (i)

2659

: "r"(basis), "r"(rem), "g"(scale)

2660

);

2661

}else{

2662

for(i=0; i<8*8; i++){

2663

rem[i] += (basis[i]*scale + (1<<(BASIS_SHIFT - RECON_SHIFT-1)))>>(BASIS_SHIFT - RECON_SHIFT);

2664

}

2665

}

2666

}

2667

#endif /* CONFIG_ENCODERS */

2668

2669

#define PREFETCH(name, op) \

2670

static void name(void *mem, int stride, int h){\

2671

const uint8_t *p= mem;\

2672

do{\

2673

asm volatile(#op" %0" :: "m"(*p));\

2674

p+= stride;\

2675

}while(--h);\

2676

}

2677

PREFETCH(prefetch_mmx2, prefetcht0)

2678

PREFETCH(prefetch_3dnow, prefetch)

2679

#undef PREFETCH

2680

2681

#include "h264dsp_mmx.c"

2682

2683

/* AVS specific */

2684

void ff_cavsdsp_init_mmx2(DSPContext* c, AVCodecContext *avctx);

2685

2686

void ff_put_cavs_qpel8_mc00_mmx2(uint8_t *dst, uint8_t *src, int stride) {

2687

put_pixels8_mmx(dst, src, stride, 8);

2688

}

2689

void ff_avg_cavs_qpel8_mc00_mmx2(uint8_t *dst, uint8_t *src, int stride) {

2690

avg_pixels8_mmx(dst, src, stride, 8);

2691

}

2692

void ff_put_cavs_qpel16_mc00_mmx2(uint8_t *dst, uint8_t *src, int stride) {

2693

put_pixels16_mmx(dst, src, stride, 16);

2694

}

2695

void ff_avg_cavs_qpel16_mc00_mmx2(uint8_t *dst, uint8_t *src, int stride) {

2696

avg_pixels16_mmx(dst, src, stride, 16);

2697

}

2698

1505

2699

/* external functions, from idct_mmx.c */

1506

2700

void ff_mmx_idct(DCTELEM *block);

1507

2701

void ff_mmxext_idct(DCTELEM *block);

1508

2702

2703

void ff_vp3_idct_sse2(int16_t *input_data);

2704

void ff_vp3_idct_mmx(int16_t *data);

2705

void ff_vp3_dsp_init_mmx(void);

2706

1509

2707

/* XXX: those functions should be suppressed ASAP when all IDCTs are

1510

2708

converted */

2709

#ifdef CONFIG_GPL

1511

2710

static void ff_libmpeg2mmx_idct_put(uint8_t *dest, int line_size, DCTELEM *block)

1512

2711

{

1513

2712

ff_mmx_idct (block);

1528

2727

ff_mmxext_idct (block);

1529

2728

add_pixels_clamped_mmx(block, dest, line_size);

1530

2729

}

1531

2730

#endif

2731

static void ff_vp3_idct_put_sse2(uint8_t *dest, int line_size, DCTELEM *block)

2732

{

2733

ff_vp3_idct_sse2(block);

2734

put_signed_pixels_clamped_mmx(block, dest, line_size);

2735

}

2736

static void ff_vp3_idct_add_sse2(uint8_t *dest, int line_size, DCTELEM *block)

2737

{

2738

ff_vp3_idct_sse2(block);

2739

add_pixels_clamped_mmx(block, dest, line_size);

2740

}

2741

static void ff_vp3_idct_put_mmx(uint8_t *dest, int line_size, DCTELEM *block)

2742

{

2743

ff_vp3_idct_mmx(block);

2744

put_signed_pixels_clamped_mmx(block, dest, line_size);

2745

}

2746

static void ff_vp3_idct_add_mmx(uint8_t *dest, int line_size, DCTELEM *block)

2747

{

2748

ff_vp3_idct_mmx(block);

2749

add_pixels_clamped_mmx(block, dest, line_size);

2750

}

2751

static void ff_idct_xvid_mmx_put(uint8_t *dest, int line_size, DCTELEM *block)

2752

{

2753

ff_idct_xvid_mmx (block);

2754

put_pixels_clamped_mmx(block, dest, line_size);

2755

}

2756

static void ff_idct_xvid_mmx_add(uint8_t *dest, int line_size, DCTELEM *block)

2757

{

2758

ff_idct_xvid_mmx (block);

2759

add_pixels_clamped_mmx(block, dest, line_size);

2760

}

2761

static void ff_idct_xvid_mmx2_put(uint8_t *dest, int line_size, DCTELEM *block)

2762

{

2763

ff_idct_xvid_mmx2 (block);

2764

put_pixels_clamped_mmx(block, dest, line_size);

2765

}

2766

static void ff_idct_xvid_mmx2_add(uint8_t *dest, int line_size, DCTELEM *block)

2767

{

2768

ff_idct_xvid_mmx2 (block);

2769

add_pixels_clamped_mmx(block, dest, line_size);

2770

}

2771

2772

static void vorbis_inverse_coupling_3dnow(float *mag, float *ang, int blocksize)

2773

{

2774

int i;

2775

asm volatile("pxor %%mm7, %%mm7":);

2776

for(i=0; i<blocksize; i+=2) {

2777

asm volatile(

2778

"movq %0, %%mm0 \n\t"

2779

"movq %1, %%mm1 \n\t"

2780

"movq %%mm0, %%mm2 \n\t"

2781

"movq %%mm1, %%mm3 \n\t"

2782

"pfcmpge %%mm7, %%mm2 \n\t" // m <= 0.0

2783

"pfcmpge %%mm7, %%mm3 \n\t" // a <= 0.0

2784

"pslld $31, %%mm2 \n\t" // keep only the sign bit

2785

"pxor %%mm2, %%mm1 \n\t"

2786

"movq %%mm3, %%mm4 \n\t"

2787

"pand %%mm1, %%mm3 \n\t"

2788

"pandn %%mm1, %%mm4 \n\t"

2789

"pfadd %%mm0, %%mm3 \n\t" // a = m + ((a<0) & (a ^ sign(m)))

2790

"pfsub %%mm4, %%mm0 \n\t" // m = m + ((a>0) & (a ^ sign(m)))

2791

"movq %%mm3, %1 \n\t"

2792

"movq %%mm0, %0 \n\t"

2793

:"+m"(mag[i]), "+m"(ang[i])

2794

::"memory"

2795

);

2796

}

2797

asm volatile("femms");

2798

}

2799

static void vorbis_inverse_coupling_sse(float *mag, float *ang, int blocksize)

2800

{

2801

int i;

2802

2803

asm volatile(

2804

"movaps %0, %%xmm5 \n\t"

2805

::"m"(ff_pdw_80000000[0])

2806

);

2807

for(i=0; i<blocksize; i+=4) {

2808

asm volatile(

2809

"movaps %0, %%xmm0 \n\t"

2810

"movaps %1, %%xmm1 \n\t"

2811

"xorps %%xmm2, %%xmm2 \n\t"

2812

"xorps %%xmm3, %%xmm3 \n\t"

2813

"cmpleps %%xmm0, %%xmm2 \n\t" // m <= 0.0

2814

"cmpleps %%xmm1, %%xmm3 \n\t" // a <= 0.0

2815

"andps %%xmm5, %%xmm2 \n\t" // keep only the sign bit

2816

"xorps %%xmm2, %%xmm1 \n\t"

2817

"movaps %%xmm3, %%xmm4 \n\t"

2818

"andps %%xmm1, %%xmm3 \n\t"

2819

"andnps %%xmm1, %%xmm4 \n\t"

2820

"addps %%xmm0, %%xmm3 \n\t" // a = m + ((a<0) & (a ^ sign(m)))

2821

"subps %%xmm4, %%xmm0 \n\t" // m = m + ((a>0) & (a ^ sign(m)))

2822

"movaps %%xmm3, %1 \n\t"

2823

"movaps %%xmm0, %0 \n\t"

2824

:"+m"(mag[i]), "+m"(ang[i])

2825

::"memory"

2826

);

2827

}

2828

}

2829

2830

static void vector_fmul_3dnow(float *dst, const float *src, int len){

2831

long i = (len-4)*4;

2832

asm volatile(

2833

"1: \n\t"

2834

"movq (%1,%0), %%mm0 \n\t"

2835

"movq 8(%1,%0), %%mm1 \n\t"

2836

"pfmul (%2,%0), %%mm0 \n\t"

2837

"pfmul 8(%2,%0), %%mm1 \n\t"

2838

"movq %%mm0, (%1,%0) \n\t"

2839

"movq %%mm1, 8(%1,%0) \n\t"

2840

"sub $16, %0 \n\t"

2841

"jge 1b \n\t"

2842

"femms \n\t"

2843

:"+r"(i)

2844

:"r"(dst), "r"(src)

2845

:"memory"

2846

);

2847

}

2848

static void vector_fmul_sse(float *dst, const float *src, int len){

2849

long i = (len-8)*4;

2850

asm volatile(

2851

"1: \n\t"

2852

"movaps (%1,%0), %%xmm0 \n\t"

2853

"movaps 16(%1,%0), %%xmm1 \n\t"

2854

"mulps (%2,%0), %%xmm0 \n\t"

2855

"mulps 16(%2,%0), %%xmm1 \n\t"

2856

"movaps %%xmm0, (%1,%0) \n\t"

2857

"movaps %%xmm1, 16(%1,%0) \n\t"

2858

"sub $32, %0 \n\t"

2859

"jge 1b \n\t"

2860

:"+r"(i)

2861

:"r"(dst), "r"(src)

2862

:"memory"

2863

);

2864

}

2865

2866

static void vector_fmul_reverse_3dnow2(float *dst, const float *src0, const float *src1, int len){

2867

long i = len*4-16;

2868

asm volatile(

2869

"1: \n\t"

2870

"pswapd 8(%1), %%mm0 \n\t"

2871

"pswapd (%1), %%mm1 \n\t"

2872

"pfmul (%3,%0), %%mm0 \n\t"

2873

"pfmul 8(%3,%0), %%mm1 \n\t"

2874

"movq %%mm0, (%2,%0) \n\t"

2875

"movq %%mm1, 8(%2,%0) \n\t"

2876

"add $16, %1 \n\t"

2877

"sub $16, %0 \n\t"

2878

"jge 1b \n\t"

2879

:"+r"(i), "+r"(src1)

2880

:"r"(dst), "r"(src0)

2881

);

2882

asm volatile("femms");

2883

}

2884

static void vector_fmul_reverse_sse(float *dst, const float *src0, const float *src1, int len){

2885

long i = len*4-32;

2886

asm volatile(

2887

"1: \n\t"

2888

"movaps 16(%1), %%xmm0 \n\t"

2889

"movaps (%1), %%xmm1 \n\t"

2890

"shufps $0x1b, %%xmm0, %%xmm0 \n\t"

2891

"shufps $0x1b, %%xmm1, %%xmm1 \n\t"

2892

"mulps (%3,%0), %%xmm0 \n\t"

2893

"mulps 16(%3,%0), %%xmm1 \n\t"

2894

"movaps %%xmm0, (%2,%0) \n\t"

2895

"movaps %%xmm1, 16(%2,%0) \n\t"

2896

"add $32, %1 \n\t"

2897

"sub $32, %0 \n\t"

2898

"jge 1b \n\t"

2899

:"+r"(i), "+r"(src1)

2900

:"r"(dst), "r"(src0)

2901

);

2902

}

2903

2904

static void vector_fmul_add_add_3dnow(float *dst, const float *src0, const float *src1,

2905

const float *src2, int src3, int len, int step){

2906

long i = (len-4)*4;

2907

if(step == 2 && src3 == 0){

2908

dst += (len-4)*2;

2909

asm volatile(

2910

"1: \n\t"

2911

"movq (%2,%0), %%mm0 \n\t"

2912

"movq 8(%2,%0), %%mm1 \n\t"

2913

"pfmul (%3,%0), %%mm0 \n\t"

2914

"pfmul 8(%3,%0), %%mm1 \n\t"

2915

"pfadd (%4,%0), %%mm0 \n\t"

2916

"pfadd 8(%4,%0), %%mm1 \n\t"

2917

"movd %%mm0, (%1) \n\t"

2918

"movd %%mm1, 16(%1) \n\t"

2919

"psrlq $32, %%mm0 \n\t"

2920

"psrlq $32, %%mm1 \n\t"

2921

"movd %%mm0, 8(%1) \n\t"

2922

"movd %%mm1, 24(%1) \n\t"

2923

"sub $32, %1 \n\t"

2924

"sub $16, %0 \n\t"

2925

"jge 1b \n\t"

2926

:"+r"(i), "+r"(dst)

2927

:"r"(src0), "r"(src1), "r"(src2)

2928

:"memory"

2929

);

2930

}

2931

else if(step == 1 && src3 == 0){

2932

asm volatile(

2933

"1: \n\t"

2934

"movq (%2,%0), %%mm0 \n\t"

2935

"movq 8(%2,%0), %%mm1 \n\t"

2936

"pfmul (%3,%0), %%mm0 \n\t"

2937

"pfmul 8(%3,%0), %%mm1 \n\t"

2938

"pfadd (%4,%0), %%mm0 \n\t"

2939

"pfadd 8(%4,%0), %%mm1 \n\t"

2940

"movq %%mm0, (%1,%0) \n\t"

2941

"movq %%mm1, 8(%1,%0) \n\t"

2942

"sub $16, %0 \n\t"

2943

"jge 1b \n\t"

2944

:"+r"(i)

2945

:"r"(dst), "r"(src0), "r"(src1), "r"(src2)

2946

:"memory"

2947

);

2948

}

2949

else

2950

ff_vector_fmul_add_add_c(dst, src0, src1, src2, src3, len, step);

2951

asm volatile("femms");

2952

}

2953

static void vector_fmul_add_add_sse(float *dst, const float *src0, const float *src1,

2954

const float *src2, int src3, int len, int step){

2955

long i = (len-8)*4;

2956

if(step == 2 && src3 == 0){

2957

dst += (len-8)*2;

2958

asm volatile(

2959

"1: \n\t"

2960

"movaps (%2,%0), %%xmm0 \n\t"

2961

"movaps 16(%2,%0), %%xmm1 \n\t"

2962

"mulps (%3,%0), %%xmm0 \n\t"

2963

"mulps 16(%3,%0), %%xmm1 \n\t"

2964

"addps (%4,%0), %%xmm0 \n\t"

2965

"addps 16(%4,%0), %%xmm1 \n\t"

2966

"movss %%xmm0, (%1) \n\t"

2967

"movss %%xmm1, 32(%1) \n\t"

2968

"movhlps %%xmm0, %%xmm2 \n\t"

2969

"movhlps %%xmm1, %%xmm3 \n\t"

2970

"movss %%xmm2, 16(%1) \n\t"

2971

"movss %%xmm3, 48(%1) \n\t"

2972

"shufps $0xb1, %%xmm0, %%xmm0 \n\t"

2973

"shufps $0xb1, %%xmm1, %%xmm1 \n\t"

2974

"movss %%xmm0, 8(%1) \n\t"

2975

"movss %%xmm1, 40(%1) \n\t"

2976

"movhlps %%xmm0, %%xmm2 \n\t"

2977

"movhlps %%xmm1, %%xmm3 \n\t"

2978

"movss %%xmm2, 24(%1) \n\t"

2979

"movss %%xmm3, 56(%1) \n\t"

2980

"sub $64, %1 \n\t"

2981

"sub $32, %0 \n\t"

2982

"jge 1b \n\t"

2983

:"+r"(i), "+r"(dst)

2984

:"r"(src0), "r"(src1), "r"(src2)

2985

:"memory"

2986

);

2987

}

2988

else if(step == 1 && src3 == 0){

2989

asm volatile(

2990

"1: \n\t"

2991

"movaps (%2,%0), %%xmm0 \n\t"

2992

"movaps 16(%2,%0), %%xmm1 \n\t"

2993

"mulps (%3,%0), %%xmm0 \n\t"

2994

"mulps 16(%3,%0), %%xmm1 \n\t"

2995

"addps (%4,%0), %%xmm0 \n\t"

2996

"addps 16(%4,%0), %%xmm1 \n\t"

2997

"movaps %%xmm0, (%1,%0) \n\t"

2998

"movaps %%xmm1, 16(%1,%0) \n\t"

2999

"sub $32, %0 \n\t"

3000

"jge 1b \n\t"

3001

:"+r"(i)

3002

:"r"(dst), "r"(src0), "r"(src1), "r"(src2)

3003

:"memory"

3004

);

3005

}

3006

else

3007

ff_vector_fmul_add_add_c(dst, src0, src1, src2, src3, len, step);

3008

}

3009

3010

static void float_to_int16_3dnow(int16_t *dst, const float *src, int len){

3011

// not bit-exact: pf2id uses different rounding than C and SSE

3012

int i;

3013

for(i=0; i<len; i+=4) {

3014

asm volatile(

3015

"pf2id %1, %%mm0 \n\t"

3016

"pf2id %2, %%mm1 \n\t"

3017

"packssdw %%mm1, %%mm0 \n\t"

3018

"movq %%mm0, %0 \n\t"

3019

:"=m"(dst[i])

3020

:"m"(src[i]), "m"(src[i+2])

3021

);

3022

}

3023

asm volatile("femms");

3024

}

3025

static void float_to_int16_sse(int16_t *dst, const float *src, int len){

3026

int i;

3027

for(i=0; i<len; i+=4) {

3028

asm volatile(

3029

"cvtps2pi %1, %%mm0 \n\t"

3030

"cvtps2pi %2, %%mm1 \n\t"

3031

"packssdw %%mm1, %%mm0 \n\t"

3032

"movq %%mm0, %0 \n\t"

3033

:"=m"(dst[i])

3034

:"m"(src[i]), "m"(src[i+2])

3035

);

3036

}

3037

asm volatile("emms");

3038

}

3039

3040

#ifdef CONFIG_SNOW_DECODER

3041

extern void ff_snow_horizontal_compose97i_sse2(DWTELEM *b, int width);

3042

extern void ff_snow_horizontal_compose97i_mmx(DWTELEM *b, int width);

3043

extern void ff_snow_vertical_compose97i_sse2(DWTELEM *b0, DWTELEM *b1, DWTELEM *b2, DWTELEM *b3, DWTELEM *b4, DWTELEM *b5, int width);

3044

extern void ff_snow_vertical_compose97i_mmx(DWTELEM *b0, DWTELEM *b1, DWTELEM *b2, DWTELEM *b3, DWTELEM *b4, DWTELEM *b5, int width);

3045

extern void ff_snow_inner_add_yblock_sse2(const uint8_t *obmc, const int obmc_stride, uint8_t * * block, int b_w, int b_h,

3046

int src_x, int src_y, int src_stride, slice_buffer * sb, int add, uint8_t * dst8);

3047

extern void ff_snow_inner_add_yblock_mmx(const uint8_t *obmc, const int obmc_stride, uint8_t * * block, int b_w, int b_h,

3048

int src_x, int src_y, int src_stride, slice_buffer * sb, int add, uint8_t * dst8);

3049

#endif

3050

1532

3051

void dsputil_init_mmx(DSPContext* c, AVCodecContext *avctx)

1533

3052

{

1534

3053

mm_flags = mm_support();

1535

3054

1536

3055

if (avctx->dsp_mask) {

1537

if (avctx->dsp_mask & FF_MM_FORCE)

1538

mm_flags |= (avctx->dsp_mask & 0xffff);

1539

else

1540

mm_flags &= ~(avctx->dsp_mask & 0xffff);

3056

if (avctx->dsp_mask & FF_MM_FORCE)

3057

mm_flags |= (avctx->dsp_mask & 0xffff);

3058

else

3059

mm_flags &= ~(avctx->dsp_mask & 0xffff);

1541

3060

}

1542

3061

1543

3062

#if 0

1544

fprintf(stderr, "libavcodec: CPU flags:");

3063

av_log(avctx, AV_LOG_INFO, "libavcodec: CPU flags:");

1545

3064

if (mm_flags & MM_MMX)

1546

fprintf(stderr, " mmx");

3065

av_log(avctx, AV_LOG_INFO, " mmx");

1547

3066

if (mm_flags & MM_MMXEXT)

1548

fprintf(stderr, " mmxext");

3067

av_log(avctx, AV_LOG_INFO, " mmxext");

1549

3068

if (mm_flags & MM_3DNOW)

1550

fprintf(stderr, " 3dnow");

3069

av_log(avctx, AV_LOG_INFO, " 3dnow");

1551

3070

if (mm_flags & MM_SSE)

1552

fprintf(stderr, " sse");

3071

av_log(avctx, AV_LOG_INFO, " sse");

1553

3072

if (mm_flags & MM_SSE2)

1554

fprintf(stderr, " sse2");

1555

fprintf(stderr, "\n");

3073

av_log(avctx, AV_LOG_INFO, " sse2");

3074

av_log(avctx, AV_LOG_INFO, "\n");

1556

3075

#endif

1557

3076

1558

3077

if (mm_flags & MM_MMX) {

3078

const int idct_algo= avctx->idct_algo;

3079

3080

#ifdef CONFIG_ENCODERS

1559

3081

const int dct_algo = avctx->dct_algo;

1560

const int idct_algo= avctx->idct_algo;

1561

1562

#ifdef CONFIG_ENCODERS

1563

if(dct_algo==FF_DCT_AUTO || dct_algo==FF_DCT_MMX)

1564

c->fdct = ff_fdct_mmx;

1565

#endif //CONFIG_ENCODERS

1566

1567

if(idct_algo==FF_IDCT_AUTO || idct_algo==FF_IDCT_SIMPLEMMX){

1568

c->idct_put= ff_simple_idct_put_mmx;

1569

c->idct_add= ff_simple_idct_add_mmx;

1570

c->idct = ff_simple_idct_mmx;

1571

c->idct_permutation_type= FF_SIMPLE_IDCT_PERM;

1572

}else if(idct_algo==FF_IDCT_LIBMPEG2MMX){

1573

if(mm_flags & MM_MMXEXT){

1574

c->idct_put= ff_libmpeg2mmx2_idct_put;

1575

c->idct_add= ff_libmpeg2mmx2_idct_add;

1576

c->idct = ff_mmxext_idct;

3082

if(dct_algo==FF_DCT_AUTO || dct_algo==FF_DCT_MMX){

3083

if(mm_flags & MM_SSE2){

3084

c->fdct = ff_fdct_sse2;

3085

}else if(mm_flags & MM_MMXEXT){

3086

c->fdct = ff_fdct_mmx2;

1577

3087

}else{

1578

c->idct_put= ff_libmpeg2mmx_idct_put;

1579

c->idct_add= ff_libmpeg2mmx_idct_add;

1580

c->idct = ff_mmx_idct;

1581

}

1582

c->idct_permutation_type= FF_LIBMPEG2_IDCT_PERM;

1583

}

1584

3088

c->fdct = ff_fdct_mmx;

3089

}

3090

}

3091

#endif //CONFIG_ENCODERS

3092

if(avctx->lowres==0){

3093

if(idct_algo==FF_IDCT_AUTO || idct_algo==FF_IDCT_SIMPLEMMX){

3094

c->idct_put= ff_simple_idct_put_mmx;

3095

c->idct_add= ff_simple_idct_add_mmx;

3096

c->idct = ff_simple_idct_mmx;

3097

c->idct_permutation_type= FF_SIMPLE_IDCT_PERM;

3098

#ifdef CONFIG_GPL

3099

}else if(idct_algo==FF_IDCT_LIBMPEG2MMX){

3100

if(mm_flags & MM_MMXEXT){

3101

c->idct_put= ff_libmpeg2mmx2_idct_put;

3102

c->idct_add= ff_libmpeg2mmx2_idct_add;

3103

c->idct = ff_mmxext_idct;

3104

}else{

3105

c->idct_put= ff_libmpeg2mmx_idct_put;

3106

c->idct_add= ff_libmpeg2mmx_idct_add;

3107

c->idct = ff_mmx_idct;

3108

}

3109

c->idct_permutation_type= FF_LIBMPEG2_IDCT_PERM;

3110

#endif

3111

}else if(idct_algo==FF_IDCT_VP3 &&

3112

avctx->codec->id!=CODEC_ID_THEORA &&

3113

!(avctx->flags & CODEC_FLAG_BITEXACT)){

3114

if(mm_flags & MM_SSE2){

3115

c->idct_put= ff_vp3_idct_put_sse2;

3116

c->idct_add= ff_vp3_idct_add_sse2;

3117

c->idct = ff_vp3_idct_sse2;

3118

c->idct_permutation_type= FF_TRANSPOSE_IDCT_PERM;

3119

}else{

3120

ff_vp3_dsp_init_mmx();

3121

c->idct_put= ff_vp3_idct_put_mmx;

3122

c->idct_add= ff_vp3_idct_add_mmx;

3123

c->idct = ff_vp3_idct_mmx;

3124

c->idct_permutation_type= FF_PARTTRANS_IDCT_PERM;

3125

}

3126

}else if(idct_algo==FF_IDCT_CAVS){

3127

c->idct_permutation_type= FF_TRANSPOSE_IDCT_PERM;

3128

}else if(idct_algo==FF_IDCT_XVIDMMX){

3129

if(mm_flags & MM_MMXEXT){

3130

c->idct_put= ff_idct_xvid_mmx2_put;

3131

c->idct_add= ff_idct_xvid_mmx2_add;

3132

c->idct = ff_idct_xvid_mmx2;

3133

}else{

3134

c->idct_put= ff_idct_xvid_mmx_put;

3135

c->idct_add= ff_idct_xvid_mmx_add;

3136

c->idct = ff_idct_xvid_mmx;

3137

}

3138

}

3139

}

3140

3141

#ifdef CONFIG_ENCODERS

1585

3142

c->get_pixels = get_pixels_mmx;

1586

3143

c->diff_pixels = diff_pixels_mmx;

3144

#endif //CONFIG_ENCODERS

1587

3145

c->put_pixels_clamped = put_pixels_clamped_mmx;

3146

c->put_signed_pixels_clamped = put_signed_pixels_clamped_mmx;

1588

3147

c->add_pixels_clamped = add_pixels_clamped_mmx;

1589

3148

c->clear_blocks = clear_blocks_mmx;

3149

#ifdef CONFIG_ENCODERS

1590

3150

c->pix_sum = pix_sum16_mmx;

3151

#endif //CONFIG_ENCODERS

1591

3152

1592

3153

c->put_pixels_tab[0][0] = put_pixels16_mmx;

1593

3154

c->put_pixels_tab[0][1] = put_pixels16_x2_mmx;

1628

3189

c->avg_no_rnd_pixels_tab[1][1] = avg_no_rnd_pixels8_x2_mmx;

1629

3190

c->avg_no_rnd_pixels_tab[1][2] = avg_no_rnd_pixels8_y2_mmx;

1630

3191

c->avg_no_rnd_pixels_tab[1][3] = avg_no_rnd_pixels8_xy2_mmx;

1631

3192

3193

c->gmc= gmc_mmx;

3194

1632

3195

c->add_bytes= add_bytes_mmx;

3196

#ifdef CONFIG_ENCODERS

1633

3197

c->diff_bytes= diff_bytes_mmx;

1634

3198

1635

3199

c->hadamard8_diff[0]= hadamard8_diff16_mmx;

1636

3200

c->hadamard8_diff[1]= hadamard8_diff_mmx;

1637

1638

c->pix_norm1 = pix_norm1_mmx;

1639

c->sse[0] = sse16_mmx;

1640

3201

3202

c->pix_norm1 = pix_norm1_mmx;

3203

c->sse[0] = (mm_flags & MM_SSE2) ? sse16_sse2 : sse16_mmx;

3204

c->sse[1] = sse8_mmx;

3205

c->vsad[4]= vsad_intra16_mmx;

3206

3207

c->nsse[0] = nsse16_mmx;

3208

c->nsse[1] = nsse8_mmx;

3209

if(!(avctx->flags & CODEC_FLAG_BITEXACT)){

3210

c->vsad[0] = vsad16_mmx;

3211

}

3212

3213

if(!(avctx->flags & CODEC_FLAG_BITEXACT)){

3214

c->try_8x8basis= try_8x8basis_mmx;

3215

}

3216

c->add_8x8basis= add_8x8basis_mmx;

3217

3218

#endif //CONFIG_ENCODERS

3219

3220

c->h263_v_loop_filter= h263_v_loop_filter_mmx;

3221

c->h263_h_loop_filter= h263_h_loop_filter_mmx;

3222

c->put_h264_chroma_pixels_tab[0]= put_h264_chroma_mc8_mmx;

3223

c->put_h264_chroma_pixels_tab[1]= put_h264_chroma_mc4_mmx;

3224

3225

c->h264_idct_dc_add=

3226

c->h264_idct_add= ff_h264_idct_add_mmx;

3227

c->h264_idct8_dc_add=

3228

c->h264_idct8_add= ff_h264_idct8_add_mmx;

3229

1641

3230

if (mm_flags & MM_MMXEXT) {

3231

c->prefetch = prefetch_mmx2;

3232

1642

3233

c->put_pixels_tab[0][1] = put_pixels16_x2_mmx2;

1643

3234

c->put_pixels_tab[0][2] = put_pixels16_y2_mmx2;

1644

3235

1653

3244

c->avg_pixels_tab[1][1] = avg_pixels8_x2_mmx2;

1654

3245

c->avg_pixels_tab[1][2] = avg_pixels8_y2_mmx2;

1655

3246

3247

#ifdef CONFIG_ENCODERS

1656

3248

c->hadamard8_diff[0]= hadamard8_diff16_mmx2;

1657

3249

c->hadamard8_diff[1]= hadamard8_diff_mmx2;

3250

c->vsad[4]= vsad_intra16_mmx2;

3251

#endif //CONFIG_ENCODERS

3252

3253

c->h264_idct_dc_add= ff_h264_idct_dc_add_mmx2;

3254

c->h264_idct8_dc_add= ff_h264_idct8_dc_add_mmx2;

1658

3255

1659

3256

if(!(avctx->flags & CODEC_FLAG_BITEXACT)){

1660

3257

c->put_no_rnd_pixels_tab[0][1] = put_no_rnd_pixels16_x2_mmx2;

1663

3260

c->put_no_rnd_pixels_tab[1][2] = put_no_rnd_pixels8_y2_mmx2;

1664

3261

c->avg_pixels_tab[0][3] = avg_pixels16_xy2_mmx2;

1665

3262

c->avg_pixels_tab[1][3] = avg_pixels8_xy2_mmx2;

3263

#ifdef CONFIG_ENCODERS

3264

c->vsad[0] = vsad16_mmx2;

3265

#endif //CONFIG_ENCODERS

1666

3266

}

1667

3267

1668

3268

#if 1

1699

3299

SET_QPEL_FUNC(qpel_pixels_tab[1][14], qpel8_mc23_mmx2)

1700

3300

SET_QPEL_FUNC(qpel_pixels_tab[1][15], qpel8_mc33_mmx2)

1701

3301

#endif

3302

3303

//FIXME 3dnow too

3304

#define dspfunc(PFX, IDX, NUM) \

3305

c->PFX ## _pixels_tab[IDX][ 0] = PFX ## NUM ## _mc00_mmx2; \

3306

c->PFX ## _pixels_tab[IDX][ 1] = PFX ## NUM ## _mc10_mmx2; \

3307

c->PFX ## _pixels_tab[IDX][ 2] = PFX ## NUM ## _mc20_mmx2; \

3308

c->PFX ## _pixels_tab[IDX][ 3] = PFX ## NUM ## _mc30_mmx2; \

3309

c->PFX ## _pixels_tab[IDX][ 4] = PFX ## NUM ## _mc01_mmx2; \

3310

c->PFX ## _pixels_tab[IDX][ 5] = PFX ## NUM ## _mc11_mmx2; \

3311

c->PFX ## _pixels_tab[IDX][ 6] = PFX ## NUM ## _mc21_mmx2; \

3312

c->PFX ## _pixels_tab[IDX][ 7] = PFX ## NUM ## _mc31_mmx2; \

3313

c->PFX ## _pixels_tab[IDX][ 8] = PFX ## NUM ## _mc02_mmx2; \

3314

c->PFX ## _pixels_tab[IDX][ 9] = PFX ## NUM ## _mc12_mmx2; \

3315

c->PFX ## _pixels_tab[IDX][10] = PFX ## NUM ## _mc22_mmx2; \

3316

c->PFX ## _pixels_tab[IDX][11] = PFX ## NUM ## _mc32_mmx2; \

3317

c->PFX ## _pixels_tab[IDX][12] = PFX ## NUM ## _mc03_mmx2; \

3318

c->PFX ## _pixels_tab[IDX][13] = PFX ## NUM ## _mc13_mmx2; \

3319

c->PFX ## _pixels_tab[IDX][14] = PFX ## NUM ## _mc23_mmx2; \

3320

c->PFX ## _pixels_tab[IDX][15] = PFX ## NUM ## _mc33_mmx2

3321

3322

dspfunc(put_h264_qpel, 0, 16);

3323

dspfunc(put_h264_qpel, 1, 8);

3324

dspfunc(put_h264_qpel, 2, 4);

3325

dspfunc(avg_h264_qpel, 0, 16);

3326

dspfunc(avg_h264_qpel, 1, 8);

3327

dspfunc(avg_h264_qpel, 2, 4);

3328

3329

dspfunc(put_2tap_qpel, 0, 16);

3330

dspfunc(put_2tap_qpel, 1, 8);

3331

dspfunc(avg_2tap_qpel, 0, 16);

3332

dspfunc(avg_2tap_qpel, 1, 8);

3333

#undef dspfunc

3334

3335

c->avg_h264_chroma_pixels_tab[0]= avg_h264_chroma_mc8_mmx2;

3336

c->avg_h264_chroma_pixels_tab[1]= avg_h264_chroma_mc4_mmx2;

3337

c->avg_h264_chroma_pixels_tab[2]= avg_h264_chroma_mc2_mmx2;

3338

c->put_h264_chroma_pixels_tab[2]= put_h264_chroma_mc2_mmx2;

3339

c->h264_v_loop_filter_luma= h264_v_loop_filter_luma_mmx2;

3340

c->h264_h_loop_filter_luma= h264_h_loop_filter_luma_mmx2;

3341

c->h264_v_loop_filter_chroma= h264_v_loop_filter_chroma_mmx2;

3342

c->h264_h_loop_filter_chroma= h264_h_loop_filter_chroma_mmx2;

3343

c->h264_v_loop_filter_chroma_intra= h264_v_loop_filter_chroma_intra_mmx2;

3344

c->h264_h_loop_filter_chroma_intra= h264_h_loop_filter_chroma_intra_mmx2;

3345

c->h264_loop_filter_strength= h264_loop_filter_strength_mmx2;

3346

3347

c->weight_h264_pixels_tab[0]= ff_h264_weight_16x16_mmx2;

3348

c->weight_h264_pixels_tab[1]= ff_h264_weight_16x8_mmx2;

3349

c->weight_h264_pixels_tab[2]= ff_h264_weight_8x16_mmx2;

3350

c->weight_h264_pixels_tab[3]= ff_h264_weight_8x8_mmx2;

3351

c->weight_h264_pixels_tab[4]= ff_h264_weight_8x4_mmx2;

3352

c->weight_h264_pixels_tab[5]= ff_h264_weight_4x8_mmx2;

3353

c->weight_h264_pixels_tab[6]= ff_h264_weight_4x4_mmx2;

3354

c->weight_h264_pixels_tab[7]= ff_h264_weight_4x2_mmx2;

3355

3356

c->biweight_h264_pixels_tab[0]= ff_h264_biweight_16x16_mmx2;

3357

c->biweight_h264_pixels_tab[1]= ff_h264_biweight_16x8_mmx2;

3358

c->biweight_h264_pixels_tab[2]= ff_h264_biweight_8x16_mmx2;

3359

c->biweight_h264_pixels_tab[3]= ff_h264_biweight_8x8_mmx2;

3360

c->biweight_h264_pixels_tab[4]= ff_h264_biweight_8x4_mmx2;

3361

c->biweight_h264_pixels_tab[5]= ff_h264_biweight_4x8_mmx2;

3362

c->biweight_h264_pixels_tab[6]= ff_h264_biweight_4x4_mmx2;

3363

c->biweight_h264_pixels_tab[7]= ff_h264_biweight_4x2_mmx2;

3364

3365

#ifdef CONFIG_CAVS_DECODER

3366

ff_cavsdsp_init_mmx2(c, avctx);

3367

#endif

3368

3369

#ifdef CONFIG_ENCODERS

3370

c->sub_hfyu_median_prediction= sub_hfyu_median_prediction_mmx2;

3371

#endif //CONFIG_ENCODERS

1702

3372

} else if (mm_flags & MM_3DNOW) {

3373

c->prefetch = prefetch_3dnow;

3374

1703

3375

c->put_pixels_tab[0][1] = put_pixels16_x2_3dnow;

1704

3376

c->put_pixels_tab[0][2] = put_pixels16_y2_3dnow;

1705

3377

1755

3427

SET_QPEL_FUNC(qpel_pixels_tab[1][13], qpel8_mc13_3dnow)

1756

3428

SET_QPEL_FUNC(qpel_pixels_tab[1][14], qpel8_mc23_3dnow)

1757

3429

SET_QPEL_FUNC(qpel_pixels_tab[1][15], qpel8_mc33_3dnow)

1758

}

3430

3431

#define dspfunc(PFX, IDX, NUM) \

3432

c->PFX ## _pixels_tab[IDX][ 0] = PFX ## NUM ## _mc00_3dnow; \

3433

c->PFX ## _pixels_tab[IDX][ 1] = PFX ## NUM ## _mc10_3dnow; \

3434

c->PFX ## _pixels_tab[IDX][ 2] = PFX ## NUM ## _mc20_3dnow; \

3435

c->PFX ## _pixels_tab[IDX][ 3] = PFX ## NUM ## _mc30_3dnow; \

3436

c->PFX ## _pixels_tab[IDX][ 4] = PFX ## NUM ## _mc01_3dnow; \

3437

c->PFX ## _pixels_tab[IDX][ 5] = PFX ## NUM ## _mc11_3dnow; \

3438

c->PFX ## _pixels_tab[IDX][ 6] = PFX ## NUM ## _mc21_3dnow; \

3439

c->PFX ## _pixels_tab[IDX][ 7] = PFX ## NUM ## _mc31_3dnow; \

3440

c->PFX ## _pixels_tab[IDX][ 8] = PFX ## NUM ## _mc02_3dnow; \

3441

c->PFX ## _pixels_tab[IDX][ 9] = PFX ## NUM ## _mc12_3dnow; \

3442

c->PFX ## _pixels_tab[IDX][10] = PFX ## NUM ## _mc22_3dnow; \

3443

c->PFX ## _pixels_tab[IDX][11] = PFX ## NUM ## _mc32_3dnow; \

3444

c->PFX ## _pixels_tab[IDX][12] = PFX ## NUM ## _mc03_3dnow; \

3445

c->PFX ## _pixels_tab[IDX][13] = PFX ## NUM ## _mc13_3dnow; \

3446

c->PFX ## _pixels_tab[IDX][14] = PFX ## NUM ## _mc23_3dnow; \

3447

c->PFX ## _pixels_tab[IDX][15] = PFX ## NUM ## _mc33_3dnow

3448

3449

dspfunc(put_h264_qpel, 0, 16);

3450

dspfunc(put_h264_qpel, 1, 8);

3451

dspfunc(put_h264_qpel, 2, 4);

3452

dspfunc(avg_h264_qpel, 0, 16);

3453

dspfunc(avg_h264_qpel, 1, 8);

3454

dspfunc(avg_h264_qpel, 2, 4);

3455

3456

dspfunc(put_2tap_qpel, 0, 16);

3457

dspfunc(put_2tap_qpel, 1, 8);

3458

dspfunc(avg_2tap_qpel, 0, 16);

3459

dspfunc(avg_2tap_qpel, 1, 8);

3460

3461

c->avg_h264_chroma_pixels_tab[0]= avg_h264_chroma_mc8_3dnow;

3462

c->avg_h264_chroma_pixels_tab[1]= avg_h264_chroma_mc4_3dnow;

3463

}

3464

3465

#ifdef CONFIG_SNOW_DECODER

3466

if(mm_flags & MM_SSE2){

3467

c->horizontal_compose97i = ff_snow_horizontal_compose97i_sse2;

3468

c->vertical_compose97i = ff_snow_vertical_compose97i_sse2;

3469

c->inner_add_yblock = ff_snow_inner_add_yblock_sse2;

3470

}

3471

else{

3472

c->horizontal_compose97i = ff_snow_horizontal_compose97i_mmx;

3473

c->vertical_compose97i = ff_snow_vertical_compose97i_mmx;

3474

c->inner_add_yblock = ff_snow_inner_add_yblock_mmx;

3475

}

3476

#endif

3477

3478

if(mm_flags & MM_3DNOW){

3479

c->vorbis_inverse_coupling = vorbis_inverse_coupling_3dnow;

3480

c->vector_fmul = vector_fmul_3dnow;

3481

if(!(avctx->flags & CODEC_FLAG_BITEXACT))

3482

c->float_to_int16 = float_to_int16_3dnow;

3483

}

3484

if(mm_flags & MM_3DNOWEXT)

3485

c->vector_fmul_reverse = vector_fmul_reverse_3dnow2;

3486

if(mm_flags & MM_SSE){

3487

c->vorbis_inverse_coupling = vorbis_inverse_coupling_sse;

3488

c->vector_fmul = vector_fmul_sse;

3489

c->float_to_int16 = float_to_int16_sse;

3490

c->vector_fmul_reverse = vector_fmul_reverse_sse;

3491

c->vector_fmul_add_add = vector_fmul_add_add_sse;

3492

}

3493

if(mm_flags & MM_3DNOW)

3494

c->vector_fmul_add_add = vector_fmul_add_add_3dnow; // faster than sse

1759

3495

}

1760

3496

3497

#ifdef CONFIG_ENCODERS

1761

3498

dsputil_init_pix_mmx(c, avctx);

3499

#endif //CONFIG_ENCODERS

1762

3500

#if 0

1763

3501

// for speed testing

1764

3502

get_pixels = just_return;

Older »