~ubuntu-branches/ubuntu/raring/libjpeg-turbo/raring-updates

« back to all changes in this revision

Viewing changes to simd/jcqnts2f-64.asm

Committer: Package Import Robot
Author(s): Tom Gall
Date: 2011-09-13 03:53:56 UTC
Revision ID: package-import@ubuntu.com-20110913035356-1jybp1r6on1l3son

Tags: upstream-1.1.90+svn702

Import upstream version 1.1.90+svn702

files added:

BUILDING.txt

CMakeLists.txt

ChangeLog.txt

Makefile.am

README

README-turbo.txt

acinclude.m4

bmp.c

bmp.h

cderror.h

cdjpeg.c

cdjpeg.h

change.log

cjpeg.1

cjpeg.c

cmakescripts

cmakescripts/getdate.bat

cmakescripts/testclean.cmake

coderules.txt

configure.ac

djpeg.1

djpeg.c

doc/html

doc/html/annotated.html

doc/html/bc_s.png

doc/html/classes.html

doc/html/closed.png

doc/html/doxygen.css

doc/html/doxygen.png

doc/html/functions.html

doc/html/functions_vars.html

doc/html/group___turbo_j_p_e_g.html

doc/html/index.html

doc/html/installdox

doc/html/jquery.js

doc/html/modules.html

doc/html/nav_f.png

doc/html/nav_h.png

doc/html/open.png

doc/html/search

doc/html/search/all_64.html

doc/html/search/all_68.html

doc/html/search/all_6e.html

doc/html/search/all_6f.html

doc/html/search/all_72.html

doc/html/search/all_74.html

doc/html/search/all_77.html

doc/html/search/all_78.html

doc/html/search/all_79.html

doc/html/search/classes_74.html

doc/html/search/close.png

doc/html/search/mag_sel.png

doc/html/search/nomatches.html

doc/html/search/search.css

doc/html/search/search.js

doc/html/search/search_l.png

doc/html/search/search_m.png

doc/html/search/search_r.png

doc/html/search/variables_64.html

doc/html/search/variables_68.html

doc/html/search/variables_6e.html

doc/html/search/variables_6f.html

doc/html/search/variables_72.html

doc/html/search/variables_77.html

doc/html/search/variables_78.html

doc/html/search/variables_79.html

doc/html/structtjregion.html

doc/html/structtjscalingfactor.html

doc/html/structtjtransform.html

doc/html/tab_a.png

doc/html/tab_b.png

doc/html/tab_h.png

doc/html/tab_s.png

doc/html/tabs.css

doxygen.config

example.c

filelist.txt

install.txt

jaricom.c

java

java/CMakeLists.txt

java/MANIFEST.MF

java/Makefile.am

java/README

java/TJExample.java

java/TJUnitTest.java

java/doc

java/doc/allclasses-frame.html

java/doc/allclasses-noframe.html

java/doc/constant-values.html

java/doc/deprecated-list.html

java/doc/help-doc.html

java/doc/index-all.html

java/doc/index.html

java/doc/org

java/doc/org/libjpegturbo

java/doc/org/libjpegturbo/turbojpeg

java/doc/org/libjpegturbo/turbojpeg/TJ.html

java/doc/org/libjpegturbo/turbojpeg/TJCompressor.html

java/doc/org/libjpegturbo/turbojpeg/TJDecompressor.html

java/doc/org/libjpegturbo/turbojpeg/TJScalingFactor.html

java/doc/org/libjpegturbo/turbojpeg/TJTransform.html

java/doc/org/libjpegturbo/turbojpeg/TJTransformer.html

java/doc/org/libjpegturbo/turbojpeg/package-frame.html

java/doc/org/libjpegturbo/turbojpeg/package-summary.html

java/doc/org/libjpegturbo/turbojpeg/package-tree.html

java/doc/overview-tree.html

java/doc/package-list

java/doc/resources

java/doc/resources/inherit.gif

java/doc/serialized-form.html

java/doc/stylesheet.css

java/org

java/org/libjpegturbo

java/org/libjpegturbo/turbojpeg

java/org/libjpegturbo/turbojpeg/TJ.java

java/org/libjpegturbo/turbojpeg/TJCompressor.java

java/org/libjpegturbo/turbojpeg/TJDecompressor.java

java/org/libjpegturbo/turbojpeg/TJLoader.java

java/org/libjpegturbo/turbojpeg/TJLoader.java.in

java/org/libjpegturbo/turbojpeg/TJScalingFactor.java

java/org/libjpegturbo/turbojpeg/TJTransform.java

java/org/libjpegturbo/turbojpeg/TJTransformer.java

java/org_libjpegturbo_turbojpeg_TJ.h

java/org_libjpegturbo_turbojpeg_TJCompressor.h

java/org_libjpegturbo_turbojpeg_TJDecompressor.h

java/org_libjpegturbo_turbojpeg_TJTransformer.h

jcapimin.c

jcapistd.c

jcarith.c

jccoefct.c

jccolext.c

jccolor.c

jcdctmgr.c

jchuff.c

jchuff.h

jcinit.c

jcmainct.c

jcmarker.c

jcmaster.c

jcomapi.c

jconfig.h.in

jconfig.txt

jcparam.c

jcphuff.c

jcprepct.c

jcsample.c

jctrans.c

jdapimin.c

jdapistd.c

jdarith.c

jdatadst-tj.c

jdatadst.c

jdatasrc-tj.c

jdatasrc.c

jdcoefct.c

jdcolext.c

jdcolor.c

jdct.h

jddctmgr.c

jdhuff.c

jdhuff.h

jdinput.c

jdmainct.c

jdmarker.c

jdmaster.c

jdmerge.c

jdmrgext.c

jdphuff.c

jdpostct.c

jdsample.c

jdtrans.c

jerror.c

jerror.h

jfdctflt.c

jfdctfst.c

jfdctint.c

jidctflt.c

jidctfst.c

jidctint.c

jidctred.c

jinclude.h

jmemmgr.c

jmemnobs.c

jmemsys.h

jmorecfg.h

jpegcomp.h

jpegint.h

jpeglib.h

jpegtran.1

jpegtran.c

jquant1.c

jquant2.c

jsimd.h

jsimd_none.c

jsimddct.h

jutils.c

jversion.h

libjpeg.map.in

libjpeg.txt

rdbmp.c

rdcolmap.c

rdgif.c

rdjpgcom.1

rdjpgcom.c

rdppm.c

rdrle.c

rdswitch.c

rdtarga.c

release

release/Description.plist.in

release/Info.plist.in

release/License.rtf

release/ReadMe.rtf

release/Welcome.rtf

release/copyright

release/deb-control.tmpl

release/libjpeg-turbo.nsi.in

release/libjpeg-turbo.spec.in

release/makecygwinpkg.in

release/makedpkg.in

release/makemacpkg.in

release/makesunpkg.in

release/pkginfo.in

release/uninstall.in

sharedlib

sharedlib/CMakeLists.txt

simd

simd/CMakeLists.txt

simd/Makefile.am

simd/jcclrmmx.asm

simd/jcclrss2-64.asm

simd/jcclrss2.asm

simd/jccolmmx.asm

simd/jccolss2-64.asm

simd/jccolss2.asm

simd/jcgrammx.asm

simd/jcgrass2-64.asm

simd/jcgrass2.asm

simd/jcgrymmx.asm

simd/jcgryss2-64.asm

simd/jcgryss2.asm

simd/jcolsamp.inc

simd/jcqnt3dn.asm

simd/jcqntmmx.asm

simd/jcqnts2f-64.asm

simd/jcqnts2f.asm

simd/jcqnts2i-64.asm

simd/jcqnts2i.asm

simd/jcqntsse.asm

simd/jcsammmx.asm

simd/jcsamss2-64.asm

simd/jcsamss2.asm

simd/jdclrmmx.asm

simd/jdclrss2-64.asm

simd/jdclrss2.asm

simd/jdcolmmx.asm

simd/jdcolss2-64.asm

simd/jdcolss2.asm

simd/jdct.inc

simd/jdmermmx.asm

simd/jdmerss2-64.asm

simd/jdmerss2.asm

simd/jdmrgmmx.asm

simd/jdmrgss2-64.asm

simd/jdmrgss2.asm

simd/jdsammmx.asm

simd/jdsamss2-64.asm

simd/jdsamss2.asm

simd/jf3dnflt.asm

simd/jfmmxfst.asm

simd/jfmmxint.asm

simd/jfss2fst-64.asm

simd/jfss2fst.asm

simd/jfss2int-64.asm

simd/jfss2int.asm

simd/jfsseflt-64.asm

simd/jfsseflt.asm

simd/ji3dnflt.asm

simd/jimmxfst.asm

simd/jimmxint.asm

simd/jimmxred.asm

simd/jiss2flt-64.asm

simd/jiss2flt.asm

simd/jiss2fst-64.asm

simd/jiss2fst.asm

simd/jiss2int-64.asm

simd/jiss2int.asm

simd/jiss2red-64.asm

simd/jiss2red.asm

simd/jisseflt.asm

simd/jsimd.h

simd/jsimd_arm.c

simd/jsimd_arm_neon.S

simd/jsimd_i386.c

simd/jsimd_x86_64.c

simd/jsimdcfg.inc.h

simd/jsimdcpu.asm

simd/jsimdext.inc

simd/nasm_lt.sh

structure.txt

testimg.bmp

testimgari.jpg

testimgari.ppm

testimgcrop.jpg

testimgflt-nosimd.jpg

testimgflt.jpg

testimgflt.ppm

testimgfst.jpg

testimgfst.ppm

testimgfst100.jpg

testimgfst1_2.ppm

testimgfst1_4.ppm

testimgfst1_8.ppm

testimggray.jpg

testimgint.jpg

testimgint.ppm

testimgint1_2.ppm

testimgint1_4.ppm

testimgint1_8.ppm

testimgp.jpg

testorig.jpg

testorig.ppm

tjbench.c

tjunittest.c

tjutil.c

tjutil.h

transupp.c

transupp.h

turbojpeg-jni.c

turbojpeg-mapfile

turbojpeg-mapfile.jni

turbojpeg.c

turbojpeg.h

usage.txt

win/config.h.in

win/jconfig.h.in

win/jpeg62.def

win/jpeg7.def

win/jpeg8.def

win/jsimdcfg.inc

wizard.txt

wrbmp.c

wrgif.c

wrjpgcom.1

wrjpgcom.c

wrppm.c

wrrle.c

wrtarga.c

Show diffs side-by-side

added added

removed removed

simd/jcqnts2f-64.asm

;

; jcqnts2f-64.asm - sample data conversion and quantization (64-bit SSE & SSE2)

;

; Based on

; x86 SIMD extension for IJG JPEG library

; For conditions of distribution and use, see copyright notice in jsimdext.inc

;

; This file should be assembled with NASM (Netwide Assembler),

; can *not* be assembled with Microsoft's MASM or any compatible

; assembler (including Borland's Turbo Assembler).

; NASM is available from http://nasm.sourceforge.net/ or

; http://sourceforge.net/project/showfiles.php?group_id=6208

;

; [TAB8]

%include "jsimdext.inc"

%include "jdct.inc"

; --------------------------------------------------------------------------

SECTION SEG_TEXT

BITS 64

;

; Load data into workspace, applying unsigned->signed conversion

;

; GLOBAL(void)

; jsimd_convsamp_float_sse2 (JSAMPARRAY sample_data, JDIMENSION start_col,

; FAST_FLOAT * workspace);

;

; r10 = JSAMPARRAY sample_data

; r11 = JDIMENSION start_col

; r12 = FAST_FLOAT * workspace

align 16

global EXTN(jsimd_convsamp_float_sse2)

EXTN(jsimd_convsamp_float_sse2):

push rbp

mov rax,rsp

mov rbp,rsp

collect_args

push rbx

pcmpeqw xmm7,xmm7

psllw xmm7,7

packsswb xmm7,xmm7 ; xmm7 = PB_CENTERJSAMPLE (0x808080..)

mov rsi, r10

mov rax, r11

mov rdi, r12

mov rcx, DCTSIZE/2

.convloop:

mov rbx, JSAMPROW [rsi+0*SIZEOF_JSAMPROW] ; (JSAMPLE *)

mov rdx, JSAMPROW [rsi+1*SIZEOF_JSAMPROW] ; (JSAMPLE *)

movq xmm0, XMM_MMWORD [rbx+rax*SIZEOF_JSAMPLE]

movq xmm1, XMM_MMWORD [rdx+rax*SIZEOF_JSAMPLE]

psubb xmm0,xmm7 ; xmm0=(01234567)

psubb xmm1,xmm7 ; xmm1=(89ABCDEF)

punpcklbw xmm0,xmm0 ; xmm0=(*0*1*2*3*4*5*6*7)

punpcklbw xmm1,xmm1 ; xmm1=(*8*9*A*B*C*D*E*F)

punpcklwd xmm2,xmm0 ; xmm2=(***0***1***2***3)

punpckhwd xmm0,xmm0 ; xmm0=(***4***5***6***7)

punpcklwd xmm3,xmm1 ; xmm3=(***8***9***A***B)

punpckhwd xmm1,xmm1 ; xmm1=(***C***D***E***F)

psrad xmm2,(DWORD_BIT-BYTE_BIT) ; xmm2=(0123)

psrad xmm0,(DWORD_BIT-BYTE_BIT) ; xmm0=(4567)

cvtdq2ps xmm2,xmm2 ; xmm2=(0123)

cvtdq2ps xmm0,xmm0 ; xmm0=(4567)

psrad xmm3,(DWORD_BIT-BYTE_BIT) ; xmm3=(89AB)

psrad xmm1,(DWORD_BIT-BYTE_BIT) ; xmm1=(CDEF)

cvtdq2ps xmm3,xmm3 ; xmm3=(89AB)

cvtdq2ps xmm1,xmm1 ; xmm1=(CDEF)

movaps XMMWORD [XMMBLOCK(0,0,rdi,SIZEOF_FAST_FLOAT)], xmm2

movaps XMMWORD [XMMBLOCK(0,1,rdi,SIZEOF_FAST_FLOAT)], xmm0

movaps XMMWORD [XMMBLOCK(1,0,rdi,SIZEOF_FAST_FLOAT)], xmm3

movaps XMMWORD [XMMBLOCK(1,1,rdi,SIZEOF_FAST_FLOAT)], xmm1

add rsi, byte 2*SIZEOF_JSAMPROW

add rdi, byte 2*DCTSIZE*SIZEOF_FAST_FLOAT

dec rcx

jnz short .convloop

pop rbx

uncollect_args

pop rbp

ret

; --------------------------------------------------------------------------

100

;

101

; Quantize/descale the coefficients, and store into coef_block

102

;

103

; GLOBAL(void)

104

; jsimd_quantize_float_sse2 (JCOEFPTR coef_block, FAST_FLOAT * divisors,

105

; FAST_FLOAT * workspace);

106

;

107

108

; r10 = JCOEFPTR coef_block

109

; r11 = FAST_FLOAT * divisors

110

; r12 = FAST_FLOAT * workspace

111

112

align 16

113

global EXTN(jsimd_quantize_float_sse2)

114

115

EXTN(jsimd_quantize_float_sse2):

116

push rbp

117

mov rax,rsp

118

mov rbp,rsp

119

collect_args

120

121

mov rsi, r12

122

mov rdx, r11

123

mov rdi, r10

124

mov rax, DCTSIZE2/16

125

.quantloop:

126

movaps xmm0, XMMWORD [XMMBLOCK(0,0,rsi,SIZEOF_FAST_FLOAT)]

127

movaps xmm1, XMMWORD [XMMBLOCK(0,1,rsi,SIZEOF_FAST_FLOAT)]

128

mulps xmm0, XMMWORD [XMMBLOCK(0,0,rdx,SIZEOF_FAST_FLOAT)]

129

mulps xmm1, XMMWORD [XMMBLOCK(0,1,rdx,SIZEOF_FAST_FLOAT)]

130

movaps xmm2, XMMWORD [XMMBLOCK(1,0,rsi,SIZEOF_FAST_FLOAT)]

131

movaps xmm3, XMMWORD [XMMBLOCK(1,1,rsi,SIZEOF_FAST_FLOAT)]

132

mulps xmm2, XMMWORD [XMMBLOCK(1,0,rdx,SIZEOF_FAST_FLOAT)]

133

mulps xmm3, XMMWORD [XMMBLOCK(1,1,rdx,SIZEOF_FAST_FLOAT)]

134

135

cvtps2dq xmm0,xmm0

136

cvtps2dq xmm1,xmm1

137

cvtps2dq xmm2,xmm2

138

cvtps2dq xmm3,xmm3

139

140

packssdw xmm0,xmm1

141

packssdw xmm2,xmm3

142

143

movdqa XMMWORD [XMMBLOCK(0,0,rdi,SIZEOF_JCOEF)], xmm0

144

movdqa XMMWORD [XMMBLOCK(1,0,rdi,SIZEOF_JCOEF)], xmm2

145

146

add rsi, byte 16*SIZEOF_FAST_FLOAT

147

add rdx, byte 16*SIZEOF_FAST_FLOAT

148

add rdi, byte 16*SIZEOF_JCOEF

149

dec rax

150

jnz short .quantloop

151

152

uncollect_args

153

pop rbp

154

ret

155

156

; For some reason, the OS X linker does not honor the request to align the

157

; segment unless we do this.

158

align 16

Older »