~ubuntu-branches/ubuntu/vivid/atlas/vivid

« back to all changes in this revision

Viewing changes to src/blas/level3/kernel/ATL_trsmKL_rk4.c

Committer: Package Import Robot
Author(s): Sébastien Villemot, Sylvestre Ledru, Sébastien Villemot
Date: 2013-06-11 15:58:16 UTC
mfrom: (1.1.4) (25 sid)
mto: This revision was merged to the branch mainline in revision 26.
Revision ID: package-import@ubuntu.com-20130611155816-8xeeiziu1iml040c

Tags: 3.10.1-1

http://bugs.debian.org/609287

http://bugs.debian.org/602524

http://bugs.debian.org/701921

http://bugs.debian.org/666203

http://bugs.debian.org/701068

http://bugs.debian.org/697431

[ Sylvestre Ledru ]
* New upstream release (Closes: #609287)

[ Sébastien Villemot ]
* Provide architectural defaults (i.e. precomputed timings) for all
  release archs (except armel and mips for the time being, due to slow
  porterboxes). This will make the package build much faster and should
  eliminate transient build failures due to excessive variance in the
  timings.
* Move symlinks for lib{cblas,f77blas,atlas,lapack_atlas} out of the
  libblas.so.3 alternative and make them always present, so that
  software relying on these libs do not break when another alternative
  is selected for BLAS
* ATLAS now has improved ARM support with native asm constructs. This required
  the following tunes:
  + armel-is-v4t.diff: new patch, prevents FTBFS on armel; otherwise,
    ATLAS uses asm constructs too recent for the platform (armel is only v4t)
  + debian/rules: on armhf, define the ATL_ARM_HARDFP flag; otherwise the asm
    constructs use the soft-float ABI for passing floating points
  + on armhf, ensure that -mfloat-abi=softfp and -mcpu=vfpv3 flags are never
    used; this is implemented via a patch (armhf.diff) and by the use of fixed
    archdefs
* The generic package is now built without multi-threading, because otherwise
  the package fails to build on some single-processor machines (this required
  the introduction of a patch: fix-non-threaded-build.diff). As a side effect,
  the build of the custom package gracefully handles non-threaded
  builds. (Closes: #602524)
* Add libblas.a as slave in the libblas.so alternative (Closes: #701921)
* Add symlinks for lib{f77blas,atlas}.a in /usr/lib (Closes: #666203)
* Modify shlibs file of libatlas3-base, such that packages using
  libblas/liblapack depend on any BLAS/LAPACK alternative, while packages
  depending on ATLAS-specific libraries (e.g. libatlas.so) depend specifically
  on libatlas3-base.
* corei1.diff: remove patch, applied upstream
* Use my @debian.org email address
* Remove obsolete DM-Upload-Allowed flag
* Switch VCS to git
* Remove Conflicts/Replaces against pre-squeeze packages
* libatlas-base-dev now provides libblas.so, as libblas-dev
* No longer use -Wa,--noexecstack in CFLAGS, it makes the package FTBFS
* Do not use POWER3 arch for powerpcspe port (Closes: #701068)
* Bump to debhelper compat level 9
* README.Debian: mention that devscripts is needed to compile the custom
  package (Closes: #697431)
* Bump Standards-Version to 3.9.4. As a consequence, add Built-Using
  fields because the package embeds stuff from liblapack-pic

files added:
.pc

.pc/.quilt_patches

.pc/.quilt_series

.pc/.version

.pc/02_rename_lapack_atlas.diff

.pc/02_rename_lapack_atlas.diff/CONFIG

.pc/02_rename_lapack_atlas.diff/CONFIG/src

.pc/02_rename_lapack_atlas.diff/CONFIG/src/SpewMakeInc.c

.pc/02_rename_lapack_atlas.diff/Make.top

.pc/02_rename_lapack_atlas.diff/makes

.pc/02_rename_lapack_atlas.diff/makes/Make.lib

.pc/10_s390.diff

.pc/10_s390.diff/CONFIG

.pc/10_s390.diff/CONFIG/src

.pc/10_s390.diff/CONFIG/src/SpewMakeInc.c

.pc/10_s390.diff/CONFIG/src/probe_comp.c

.pc/16_warning-removed.diff

.pc/16_warning-removed.diff/Make.top

.pc/17_hppa.diff

.pc/17_hppa.diff/CONFIG

.pc/17_hppa.diff/CONFIG/include

.pc/17_hppa.diff/CONFIG/include/atlconf.h

.pc/17_hppa.diff/CONFIG/src

.pc/17_hppa.diff/CONFIG/src/SpewMakeInc.c

.pc/17_hppa.diff/CONFIG/src/probe_comp.c

.pc/18_alpha.diff

.pc/18_alpha.diff/CONFIG

.pc/18_alpha.diff/CONFIG/include

.pc/18_alpha.diff/CONFIG/include/atlconf.h

.pc/18_alpha.diff/CONFIG/src

.pc/18_alpha.diff/CONFIG/src/SpewMakeInc.c

.pc/18_alpha.diff/CONFIG/src/probe_comp.c

.pc/20_armel.diff

.pc/20_armel.diff/CONFIG

.pc/20_armel.diff/CONFIG/include

.pc/20_armel.diff/CONFIG/include/atlconf.h

.pc/20_armel.diff/CONFIG/src

.pc/20_armel.diff/CONFIG/src/SpewMakeInc.c

.pc/20_armel.diff/CONFIG/src/probe_comp.c

.pc/21_mips2.diff

.pc/21_mips2.diff/CONFIG

.pc/21_mips2.diff/CONFIG/src

.pc/21_mips2.diff/CONFIG/src/SpewMakeInc.c

.pc/21_mips2.diff/CONFIG/src/probe_comp.c

.pc/22_sh.diff

.pc/22_sh.diff/CONFIG

.pc/22_sh.diff/CONFIG/include

.pc/22_sh.diff/CONFIG/include/atlconf.h

.pc/22_sh.diff/CONFIG/src

.pc/22_sh.diff/CONFIG/src/SpewMakeInc.c

.pc/22_sh.diff/CONFIG/src/probe_comp.c

.pc/applied-patches

.pc/armel-is-v4t.diff

.pc/armel-is-v4t.diff/CONFIG

.pc/armel-is-v4t.diff/CONFIG/src

.pc/armel-is-v4t.diff/CONFIG/src/backend

.pc/armel-is-v4t.diff/CONFIG/src/backend/probe_gas_arm.S

.pc/armhf.diff

.pc/armhf.diff/CONFIG

.pc/armhf.diff/CONFIG/src

.pc/armhf.diff/CONFIG/src/atlcomp.txt

.pc/fix-non-threaded-build.diff

.pc/fix-non-threaded-build.diff/bin

.pc/fix-non-threaded-build.diff/bin/atlas_install.c

.pc/kfreebsd.diff

.pc/kfreebsd.diff/CONFIG

.pc/kfreebsd.diff/CONFIG/src

.pc/kfreebsd.diff/CONFIG/src/SpewMakeInc.c

.pc/shared_libraries.diff

.pc/shared_libraries.diff/CONFIG

.pc/shared_libraries.diff/CONFIG/src

.pc/shared_libraries.diff/CONFIG/src/Makefile

.pc/shared_libraries.diff/Make.top

.pc/shared_libraries.diff/makes

.pc/shared_libraries.diff/makes/Make.lib

.pc/static_full_blas_lapack.diff

.pc/static_full_blas_lapack.diff/CONFIG

.pc/static_full_blas_lapack.diff/CONFIG/src

.pc/static_full_blas_lapack.diff/CONFIG/src/Makefile

.pc/static_full_blas_lapack.diff/CONFIG/src/SpewMakeInc.c

.pc/static_full_blas_lapack.diff/Make.top

.pc/static_full_blas_lapack.diff/makes

.pc/static_full_blas_lapack.diff/makes/Make.lib

CONFIG/ARCHS/AMD64K10h32SSE3.tar.bz2

CONFIG/ARCHS/AMD64K10h64SSE3.tar.bz2

CONFIG/ARCHS/AMDDOZER32AVXFMA4.tar.bz2

CONFIG/ARCHS/AMDDOZER64AVXFMA4.tar.bz2

CONFIG/ARCHS/ARMv732.tar.bz2

CONFIG/ARCHS/ARMv732NEON.tar.bz2

CONFIG/ARCHS/BOZOL1.tar.bz2

CONFIG/ARCHS/Core232SSE3.tar.bz2

CONFIG/ARCHS/Core264SSE3.tar.bz2

CONFIG/ARCHS/CoreDuo32SSE3.tar.bz2

CONFIG/ARCHS/Corei132SSE3.tar.bz2

CONFIG/ARCHS/Corei164SSE3.tar.bz2

CONFIG/ARCHS/Corei232AVX.tar.bz2

CONFIG/ARCHS/Corei264AVX.tar.bz2

CONFIG/ARCHS/Corei264SSE3.tar.bz2

CONFIG/ARCHS/HAMMER64SSE3.tar.bz2

CONFIG/ARCHS/IA64Itan264.tar.bz2

CONFIG/ARCHS/IBMz1032.tar.bz2

CONFIG/ARCHS/IBMz1064.tar.bz2

CONFIG/ARCHS/IBMz19632.tar.bz2

CONFIG/ARCHS/IBMz19664.tar.bz2

CONFIG/ARCHS/K7323DNow.tar.bz2

CONFIG/ARCHS/MIPSICE932.tar.bz2

CONFIG/ARCHS/MIPSICE964.tar.bz2

CONFIG/ARCHS/MIPSR1xK64.tar.bz2

CONFIG/ARCHS/P432SSE2.tar.bz2

CONFIG/ARCHS/P4E32SSE3.tar.bz2

CONFIG/ARCHS/P4E64SSE3.tar.bz2

CONFIG/ARCHS/PIII32SSE1.tar.bz2

CONFIG/ARCHS/POWER432.tar.bz2

CONFIG/ARCHS/POWER464.tar.bz2

CONFIG/ARCHS/POWER564.tar.bz2

CONFIG/ARCHS/POWER764VSX.tar.bz2

CONFIG/ARCHS/PPCG432AltiVec.tar.bz2

CONFIG/ARCHS/PPCG532AltiVec.tar.bz2

CONFIG/ARCHS/PPCG564AltiVec.tar.bz2

CONFIG/ARCHS/PPRO32.tar.bz2

CONFIG/ARCHS/USIII32.tar.bz2

CONFIG/ARCHS/USIII64.tar.bz2

CONFIG/ARCHS/USIV32.tar.bz2

CONFIG/ARCHS/USIV64.tar.bz2

CONFIG/ARCHS/UST232.tar.bz2

CONFIG/ARCHS/UST264.tar.bz2

CONFIG/ARCHS/atlas_test1.1.3.tar.bz2

CONFIG/ARCHS/lapack_test.tar.bz2

CONFIG/ARCHS/negmmfile.c

CONFIG/ARCHS/negmvfile.c

CONFIG/ARCHS/negr1file.c

CONFIG/ARCHS/x86SSE132SSE1.tar.bz2

CONFIG/ARCHS/x86SSE232SSE2.tar.bz2

CONFIG/ARCHS/x86x8732.tar.bz2

CONFIG/include/atlas_sys.h

CONFIG/src/IsGcc.c

CONFIG/src/backend/archinfo_sfu.c

CONFIG/src/backend/archinfo_win.c

CONFIG/src/backend/probe_AVX.S

CONFIG/src/backend/probe_AVXFMA4.S

CONFIG/src/backend/probe_AVXMAC.S

CONFIG/src/backend/probe_NEON.S

CONFIG/src/backend/probe_VSX.S

CONFIG/src/backend/probe_aff_BINDP.c

CONFIG/src/backend/probe_aff_CPUSET.c

CONFIG/src/backend/probe_aff_PBIND.c

CONFIG/src/backend/probe_aff_PLPA.c

CONFIG/src/backend/probe_aff_RUNON.c

CONFIG/src/backend/probe_aff_SCHED.c

CONFIG/src/backend/probe_aff_SETAFFNP.c

CONFIG/src/backend/probe_aff_SETPROCNP.c

CONFIG/src/backend/probe_aff_WIN.c

CONFIG/src/backend/probe_aff_WIN64.c

CONFIG/src/backend/probe_dAVX.c

CONFIG/src/backend/probe_gas_arm.S

CONFIG/src/backend/probe_gas_s390.S

CONFIG/src/gcc3p.c

CONFIG/src/gnuccw.c

CONFIG/src/gnuf90w.c

CONFIG/src/mgwcmp.c

CONFIG/src/probe_aff.c

EXtest

EXtest/mvntest.c

EXtest/mvttest.c

EXtest/r1test.c

EXtest/r2test.c

bin/dlamchtest.f

bin/extract.c

bin/l2peak.sh

bin/lanbtst.c

bin/latime.c

bin/ormtst.c

bin/qrtst.c

bin/slamchtest.f

bin/stattime.c

bin/sum2csv.sh

debian/archdefs

debian/archdefs/README

debian/archdefs/amd64

debian/archdefs/amd64/x86SSE264SSE2.tar.bz2

debian/archdefs/arm

debian/archdefs/arm/ARMv732.tar.bz2

debian/archdefs/arm/ARMv732NEON.tar.bz2

debian/archdefs/i386

debian/archdefs/i386/x86x8732.tar.bz2

debian/archdefs/ia64

debian/archdefs/ia64/IA64Itan64.tar.bz2

debian/archdefs/mips

debian/archdefs/mipsel

debian/archdefs/mipsel/UNKNOWN32.tar.bz2

debian/archdefs/powerpc

debian/archdefs/powerpc/POWER332.tar.bz2

debian/archdefs/s390

debian/archdefs/s390/IBMz932.tar.bz2

debian/archdefs/s390x

debian/archdefs/s390x/IBMz964.tar.bz2

debian/archdefs/sparc

debian/archdefs/sparc/USI32.tar.bz2

debian/libatlas-base-dev.links

debian/libatlas-base-dev.preinst

debian/libatlas3-base.links

debian/libatlas3-base.shlibs

debian/patches/armel-is-v4t.diff

debian/patches/armhf.diff

debian/patches/fix-non-threaded-build.diff

debian/patches/series

debian/patches/shared_libraries.diff

debian/patches/static_full_blas_lapack.diff

debian/source/include-binaries

include/C_lapack.h

include/atlas_C2Flapack.h

include/atlas_genparse.h

include/atlas_gentesttime.h

include/atlas_lamch.h

include/atlas_mmparse.h

include/atlas_mmtesttime.h

include/atlas_mvparse.h

include/atlas_mvtesttime.h

include/atlas_pca.h

include/atlas_ptalias_lapack.h

include/atlas_qrrmeth.h

include/atlas_r1parse.h

include/atlas_r1testtime.h

include/atlas_r2.h

include/atlas_r2testtime.h

include/atlas_sys.h

include/atlas_threads.h

include/atlas_tlapack.h

include/atlas_tlevel3.h

include/atlas_tlvl2.h

include/atlas_tlvl3.h

include/atlas_tvec.h

interfaces/blas/C/src/cblas_cger2c.c

interfaces/blas/C/src/cblas_cger2u.c

interfaces/blas/C/src/cblas_dger2.c

interfaces/blas/C/src/cblas_sger2.c

interfaces/blas/C/src/cblas_zger2c.c

interfaces/blas/C/src/cblas_zger2u.c

interfaces/blas/F77/src/cger2c.f

interfaces/blas/F77/src/cger2u.f

interfaces/blas/F77/src/dger2.f

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_ger2.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_ger2c.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_ger2u.c

interfaces/blas/F77/src/sger2.f

interfaces/blas/F77/src/zger2c.f

interfaces/blas/F77/src/zger2u.f

interfaces/lapack/C/src/clapack_cgelqf.c

interfaces/lapack/C/src/clapack_cgels.c

interfaces/lapack/C/src/clapack_cgeqlf.c

interfaces/lapack/C/src/clapack_cgeqrf.c

interfaces/lapack/C/src/clapack_cgerqf.c

interfaces/lapack/C/src/clapack_dgelqf.c

interfaces/lapack/C/src/clapack_dgels.c

interfaces/lapack/C/src/clapack_dgeqlf.c

interfaces/lapack/C/src/clapack_dgeqrf.c

interfaces/lapack/C/src/clapack_dgerqf.c

interfaces/lapack/C/src/clapack_dlamch.c

interfaces/lapack/C/src/clapack_ilaenv.c

interfaces/lapack/C/src/clapack_sgelqf.c

interfaces/lapack/C/src/clapack_sgels.c

interfaces/lapack/C/src/clapack_sgeqlf.c

interfaces/lapack/C/src/clapack_sgeqrf.c

interfaces/lapack/C/src/clapack_sgerqf.c

interfaces/lapack/C/src/clapack_slamch.c

interfaces/lapack/C/src/clapack_zgelqf.c

interfaces/lapack/C/src/clapack_zgels.c

interfaces/lapack/C/src/clapack_zgeqlf.c

interfaces/lapack/C/src/clapack_zgeqrf.c

interfaces/lapack/C/src/clapack_zgerqf.c

interfaces/lapack/C2F

interfaces/lapack/C2F/src

interfaces/lapack/C2F/src/ATL_C2Fgels.c

interfaces/lapack/C2F/src/ATL_C2Formlq.c

interfaces/lapack/C2F/src/ATL_C2Formql.c

interfaces/lapack/C2F/src/ATL_C2Formqr.c

interfaces/lapack/C2F/src/ATL_C2Formrq.c

interfaces/lapack/C2F/src/ATL_C2Funmlq.c

interfaces/lapack/C2F/src/ATL_C2Funmql.c

interfaces/lapack/C2F/src/ATL_C2Funmqr.c

interfaces/lapack/C2F/src/ATL_C2Funmrq.c

interfaces/lapack/F77/src/cgelqf.f

interfaces/lapack/F77/src/cgels.f

interfaces/lapack/F77/src/cgeqlf.f

interfaces/lapack/F77/src/cgeqrf.f

interfaces/lapack/F77/src/cgerqf.f

interfaces/lapack/F77/src/clarfb.f

interfaces/lapack/F77/src/clarft.f

interfaces/lapack/F77/src/dgelqf.f

interfaces/lapack/F77/src/dgels.f

interfaces/lapack/F77/src/dgeqlf.f

interfaces/lapack/F77/src/dgeqrf.f

interfaces/lapack/F77/src/dgerqf.f

interfaces/lapack/F77/src/dlamc3.f

interfaces/lapack/F77/src/dlarfb.f

interfaces/lapack/F77/src/dlarft.f

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_gelqf.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_gels.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_geqlf.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_geqrf.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_gerqf.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_ilaenv.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_larfb.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_larft.c

interfaces/lapack/F77/src/lamch.c

interfaces/lapack/F77/src/sgelqf.f

interfaces/lapack/F77/src/sgels.f

interfaces/lapack/F77/src/sgeqlf.f

interfaces/lapack/F77/src/sgeqrf.f

interfaces/lapack/F77/src/sgerqf.f

interfaces/lapack/F77/src/slamc3.f

interfaces/lapack/F77/src/slarfb.f

interfaces/lapack/F77/src/slarft.f

interfaces/lapack/F77/src/zgelqf.f

interfaces/lapack/F77/src/zgels.f

interfaces/lapack/F77/src/zgeqlf.f

interfaces/lapack/F77/src/zgeqrf.f

interfaces/lapack/F77/src/zgerqf.f

interfaces/lapack/F77/src/zlarfb.f

interfaces/lapack/F77/src/zlarft.f

makes/Make.C2Flp

makes/Make.EXtst

makes/Make.dummy

makes/Make.f77refblas

makes/Make.l2thr

makes/Make.l3thr

makes/Make.lathr

makes/Make.latune

makes/Make.plinc

makes/Make.res_chart

makes/Make.res_new

makes/Make.res_raw

makes/Make.res_tvec

makes/Make.thr

makes/Make.ttune

results

results/atl2tvec.c

results/cattvecs.c

results/mergetvecs.c

results/perctvecs.c

results/reducetvec.c

results/report.base

results/stattime.c

results/tvec2plp.c

src/auxil/ATL_cplxdivide.c

src/auxil/ATL_flushCacheByAddr.c

src/auxil/ATL_geApBt_NB.c

src/auxil/ATL_gecollapse.c

src/auxil/ATL_gemaxnrm.c

src/auxil/ATL_geset.c

src/auxil/ATL_geswapT.c

src/auxil/ATL_sqtrans.c

src/auxil/ATL_syApAt.c

src/auxil/ATL_syApAt_NB.c

src/auxil/ATL_tradd.c

src/auxil/ATL_trcollapse.c

src/auxil/ATL_trsetL.c

src/auxil/ATL_trsetU.c

src/blas/f77reference

src/blas/f77reference/README

src/blas/f77reference/caxpy.f

src/blas/f77reference/ccopy.f

src/blas/f77reference/cdotc.f

src/blas/f77reference/cdotu.f

src/blas/f77reference/cgbmv.f

src/blas/f77reference/cgemm.f

src/blas/f77reference/cgemv.f

src/blas/f77reference/cgerc.f

src/blas/f77reference/cgeru.f

src/blas/f77reference/chbmv.f

src/blas/f77reference/chemm.f

src/blas/f77reference/chemv.f

src/blas/f77reference/cher.f

src/blas/f77reference/cher2.f

src/blas/f77reference/cher2k.f

src/blas/f77reference/cherk.f

src/blas/f77reference/chpmv.f

src/blas/f77reference/chpr.f

src/blas/f77reference/chpr2.f

src/blas/f77reference/crotg.f

src/blas/f77reference/cscal.f

src/blas/f77reference/csrot.f

src/blas/f77reference/csscal.f

src/blas/f77reference/cswap.f

src/blas/f77reference/csymm.f

src/blas/f77reference/csyr2k.f

src/blas/f77reference/csyrk.f

src/blas/f77reference/ctbmv.f

src/blas/f77reference/ctbsv.f

src/blas/f77reference/ctpmv.f

src/blas/f77reference/ctpsv.f

src/blas/f77reference/ctrmm.f

src/blas/f77reference/ctrmv.f

src/blas/f77reference/ctrsm.f

src/blas/f77reference/ctrsv.f

src/blas/f77reference/dasum.f

src/blas/f77reference/daxpy.f

src/blas/f77reference/dcabs1.f

src/blas/f77reference/dcopy.f

src/blas/f77reference/ddot.f

src/blas/f77reference/dgbmv.f

src/blas/f77reference/dgemm.f

src/blas/f77reference/dgemv.f

src/blas/f77reference/dger.f

src/blas/f77reference/dnrm2.f

src/blas/f77reference/drot.f

src/blas/f77reference/drotg.f

src/blas/f77reference/drotm.f

src/blas/f77reference/drotmg.f

src/blas/f77reference/dsbmv.f

src/blas/f77reference/dscal.f

src/blas/f77reference/dsdot.f

src/blas/f77reference/dspmv.f

src/blas/f77reference/dspr.f

src/blas/f77reference/dspr2.f

src/blas/f77reference/dswap.f

src/blas/f77reference/dsymm.f

src/blas/f77reference/dsymv.f

src/blas/f77reference/dsyr.f

src/blas/f77reference/dsyr2.f

src/blas/f77reference/dsyr2k.f

src/blas/f77reference/dsyrk.f

src/blas/f77reference/dtbmv.f

src/blas/f77reference/dtbsv.f

src/blas/f77reference/dtpmv.f

src/blas/f77reference/dtpsv.f

src/blas/f77reference/dtrmm.f

src/blas/f77reference/dtrmv.f

src/blas/f77reference/dtrsm.f

src/blas/f77reference/dtrsv.f

src/blas/f77reference/dzasum.f

src/blas/f77reference/dznrm2.f

src/blas/f77reference/icamax.f

src/blas/f77reference/idamax.f

src/blas/f77reference/isamax.f

src/blas/f77reference/izamax.f

src/blas/f77reference/lsame.f

src/blas/f77reference/sasum.f

src/blas/f77reference/saxpy.f

src/blas/f77reference/scabs1.f

src/blas/f77reference/scasum.f

src/blas/f77reference/scnrm2.f

src/blas/f77reference/scopy.f

src/blas/f77reference/sdot.f

src/blas/f77reference/sdsdot.f

src/blas/f77reference/sgbmv.f

src/blas/f77reference/sgemm.f

src/blas/f77reference/sgemv.f

src/blas/f77reference/sger.f

src/blas/f77reference/snrm2.f

src/blas/f77reference/srot.f

src/blas/f77reference/srotg.f

src/blas/f77reference/srotm.f

src/blas/f77reference/srotmg.f

src/blas/f77reference/ssbmv.f

src/blas/f77reference/sscal.f

src/blas/f77reference/sspmv.f

src/blas/f77reference/sspr.f

src/blas/f77reference/sspr2.f

src/blas/f77reference/sswap.f

src/blas/f77reference/ssymm.f

src/blas/f77reference/ssymv.f

src/blas/f77reference/ssyr.f

src/blas/f77reference/ssyr2.f

src/blas/f77reference/ssyr2k.f

src/blas/f77reference/ssyrk.f

src/blas/f77reference/stbmv.f

src/blas/f77reference/stbsv.f

src/blas/f77reference/stpmv.f

src/blas/f77reference/stpsv.f

src/blas/f77reference/strmm.f

src/blas/f77reference/strmv.f

src/blas/f77reference/strsm.f

src/blas/f77reference/strsv.f

src/blas/f77reference/xerbla.f

src/blas/f77reference/zaxpy.f

src/blas/f77reference/zcopy.f

src/blas/f77reference/zdotc.f

src/blas/f77reference/zdotu.f

src/blas/f77reference/zdrot.f

src/blas/f77reference/zdscal.f

src/blas/f77reference/zgbmv.f

src/blas/f77reference/zgemm.f

src/blas/f77reference/zgemv.f

src/blas/f77reference/zgerc.f

src/blas/f77reference/zgeru.f

src/blas/f77reference/zhbmv.f

src/blas/f77reference/zhemm.f

src/blas/f77reference/zhemv.f

src/blas/f77reference/zher.f

src/blas/f77reference/zher2.f

src/blas/f77reference/zher2k.f

src/blas/f77reference/zherk.f

src/blas/f77reference/zhpmv.f

src/blas/f77reference/zhpr.f

src/blas/f77reference/zhpr2.f

src/blas/f77reference/zrotg.f

src/blas/f77reference/zscal.f

src/blas/f77reference/zswap.f

src/blas/f77reference/zsymm.f

src/blas/f77reference/zsyr2k.f

src/blas/f77reference/zsyrk.f

src/blas/f77reference/ztbmv.f

src/blas/f77reference/ztbsv.f

src/blas/f77reference/ztpmv.f

src/blas/f77reference/ztpsv.f

src/blas/f77reference/ztrmm.f

src/blas/f77reference/ztrmv.f

src/blas/f77reference/ztrsm.f

src/blas/f77reference/ztrsv.f

src/blas/gemv/ATL_gemvCN.c

src/blas/gemv/ATL_gemvCT.c

src/blas/gemv/ATL_gemvN.c

src/blas/gemv/ATL_gemvT.c

src/blas/gemv/ATL_mvnk_Mlt16.c

src/blas/gemv/ATL_mvnk_smallN.c

src/blas/gemv/ATL_mvtk_Mlt16.c

src/blas/gemv/ATL_mvtk_smallN.c

src/blas/ger/ATL_ger2.c

src/blas/ger/ATL_ger2k_Mlt16.c

src/blas/ger/ATL_ger2k_Nlt8.c

src/blas/ger/ATL_gerk_Mlt16.c

src/blas/ger/ATL_gerk_axpy.c

src/blas/level2/ATL_L2AIsOverlapped.c

src/blas/level3/kernel/ATL_ctrsmKL_rk2.c

src/blas/level3/kernel/ATL_ctrsmKR_rk2.c

src/blas/level3/kernel/ATL_trsmKL_rk4.c

src/blas/level3/kernel/ATL_trsmKR_rk4.c

src/lapack/ATL_gelq2.c

src/lapack/ATL_gelqf.c

src/lapack/ATL_gelqr.c

src/lapack/ATL_gels.c

src/lapack/ATL_geql2.c

src/lapack/ATL_geqlf.c

src/lapack/ATL_geqlr.c

src/lapack/ATL_geqr2.c

src/lapack/ATL_geqrf.c

src/lapack/ATL_geqrr.c

src/lapack/ATL_gerq2.c

src/lapack/ATL_gerqf.c

src/lapack/ATL_gerqr.c

src/lapack/ATL_getf2.c

src/lapack/ATL_ilaenv.c

src/lapack/ATL_lacgv.c

src/lapack/ATL_ladiv.c

src/lapack/ATL_lamch.c

src/lapack/ATL_lapy2.c

src/lapack/ATL_lapy3.c

src/lapack/ATL_larf.c

src/lapack/ATL_larfb.c

src/lapack/ATL_larfg.c

src/lapack/ATL_larft.c

src/lapack/ATL_lascl.c

src/lapack/ATL_ormlq.c

src/lapack/ATL_ormql.c

src/lapack/ATL_ormqr.c

src/lapack/ATL_ormrq.c

src/lapack/ATL_trtrs.c

src/testing/ATL_f77gelqf.c

src/testing/ATL_f77geqlf.c

src/testing/ATL_f77geqrf.c

src/testing/ATL_f77gerqf.c

src/threads

src/threads/ATL_DecAtomicCount_amd64.S

src/threads/ATL_DecAtomicCount_ia32.S

src/threads/ATL_DecAtomicCount_mips.S

src/threads/ATL_DecAtomicCount_mut.c

src/threads/ATL_DecAtomicCount_ppc.S

src/threads/ATL_DecAtomicCount_sparc.S

src/threads/ATL_DecAtomicCount_win64.S

src/threads/ATL_DecGlobalAtomicCount.c

src/threads/ATL_FreeAtomicCount_arch.c

src/threads/ATL_FreeAtomicCount_mut.c

src/threads/ATL_FreeGlobalAtomicCount.c

src/threads/ATL_GetAtomicCount.c

src/threads/ATL_GetGlobalAtomicCount.c

src/threads/ATL_ResetAtomicCount_amd64.S

src/threads/ATL_ResetAtomicCount_ia32.S

src/threads/ATL_ResetAtomicCount_mips.S

src/threads/ATL_ResetAtomicCount_mut.c

src/threads/ATL_ResetAtomicCount_ppc.S

src/threads/ATL_ResetAtomicCount_sparc.S

src/threads/ATL_ResetAtomicCount_win64.S

src/threads/ATL_ResetGlobalAtomicCount.c

src/threads/ATL_SetAtomicCount_arch.c

src/threads/ATL_SetAtomicCount_mut.c

src/threads/ATL_SetGlobalAtomicCount.c

src/threads/ATL_dyntlaunch.c

src/threads/ATL_goparallel.c

src/threads/ATL_goparallel_prank.c

src/threads/ATL_lin0tlaunch.c

src/threads/ATL_log2tlaunch.c

src/threads/ATL_mutex_free.c

src/threads/ATL_mutex_init.c

src/threads/ATL_mutex_lock.c

src/threads/ATL_mutex_trylock.c

src/threads/ATL_mutex_unlock.c

src/threads/ATL_thread_exit.c

src/threads/ATL_thread_join.c

src/threads/ATL_thread_start.c

src/threads/ATL_thread_yield.c

src/threads/blas

src/threads/blas/level2

src/threads/blas/level2/ATL_tgemv.c

src/threads/blas/level2/ATL_tger.c

src/threads/blas/level3

src/threads/blas/level3/ATL_Xtgemm.c

src/threads/blas/level3/ATL_Xtsyr2k.c

src/threads/blas/level3/ATL_Xtsyrk.c

src/threads/blas/level3/ATL_tNumGemmThreads.c

src/threads/blas/level3/ATL_tgemm.c

src/threads/blas/level3/ATL_tgemm_K.c

src/threads/blas/level3/ATL_tgemm_M.c

src/threads/blas/level3/ATL_tgemm_N.c

src/threads/blas/level3/ATL_tgemm_bigMN_Kp.c

src/threads/blas/level3/ATL_tgemm_p.c

src/threads/blas/level3/ATL_tgemm_rec.c

src/threads/blas/level3/ATL_tgemm_rkK.c

src/threads/blas/level3/ATL_themm.c

src/threads/blas/level3/ATL_ther2k.c

src/threads/blas/level3/ATL_therk.c

src/threads/blas/level3/ATL_threadMM.c

src/threads/blas/level3/ATL_tsymm.c

src/threads/blas/level3/ATL_tsyr2k.c

src/threads/blas/level3/ATL_tsyrk.c

src/threads/blas/level3/ATL_ttrmm.c

src/threads/blas/level3/ATL_ttrsm.c

src/threads/lapack

src/threads/lapack/ATL_tgeql2.c

src/threads/lapack/ATL_tgeqr2.c

src/threads/lapack/ATL_tgetf2.c

tune/blas/gemm/CASES/ATL_cmm4x4x128_av.c

tune/blas/gemm/CASES/ATL_dmm2x4x256_fma4.c

tune/blas/gemm/CASES/ATL_dmm4x2x256_avx.c

tune/blas/gemm/CASES/ATL_dmm4x4x2pf_arm.c

tune/blas/gemm/CASES/ATL_smm2x4x256_fma4.c

tune/blas/gemm/CASES/ATL_smm4x2x256_avx.c

tune/blas/gemm/CASES/ATL_smm4x4x2dld_arm.c

tune/blas/gemm/CASES/ATL_smm4x4x2pf_arm.c

tune/blas/gemm/CASES/ATL_smm4x4x4_neon.c

tune/blas/gemm/CASES/ccases.vnb

tune/blas/gemm/CASES/dcases.vnb

tune/blas/gemm/CASES/scases.vnb

tune/blas/gemm/CASES/zcases.vnb

tune/blas/gemm/gmmsearch.c

tune/blas/gemm/mmcuncpsearch.c

tune/blas/gemm/mmflagsearch.c

tune/blas/gemm/mmgen_sse.c

tune/blas/gemm/mmksearch_sse.c

tune/blas/gemm/mmtime_pt.c

tune/blas/gemv/MVNCASES

tune/blas/gemv/MVNCASES/ATL_cgemvN_8x4_sse3.c

tune/blas/gemv/MVNCASES/ATL_cgemvN_axpy.c

tune/blas/gemv/MVNCASES/ATL_gemvN_axpy.c

tune/blas/gemv/MVNCASES/ATL_gemvN_v6x8_vsx.c

tune/blas/gemv/MVNCASES/ATL_mvnk_28x1_dot.c

tune/blas/gemv/MVNCASES/ATL_sgemvN_8x4_sse.c

tune/blas/gemv/MVNCASES/Make.ext

tune/blas/gemv/MVNCASES/cmvncases.idx

tune/blas/gemv/MVNCASES/dmvncases.idx

tune/blas/gemv/MVNCASES/smvncases.idx

tune/blas/gemv/MVNCASES/zmvncases.idx

tune/blas/gemv/MVTCASES

tune/blas/gemv/MVTCASES/ATL_cgemvT_8x4_avx.c

tune/blas/gemv/MVTCASES/ATL_cgemvT_8x4_sse3.c

tune/blas/gemv/MVTCASES/ATL_cgemvT_dot.c

tune/blas/gemv/MVTCASES/ATL_dgemvT_2x8_sse3.c

tune/blas/gemv/MVTCASES/ATL_gemvT_8xv3_vsx.c

tune/blas/gemv/MVTCASES/ATL_gemvT_dot.c

tune/blas/gemv/MVTCASES/ATL_sgemvT_8x4_neon.S

tune/blas/gemv/MVTCASES/ATL_sgemvT_8x4_sse.c

tune/blas/gemv/MVTCASES/Make.ext

tune/blas/gemv/MVTCASES/cmvtcases.idx

tune/blas/gemv/MVTCASES/dmvtcases.idx

tune/blas/gemv/MVTCASES/smvtcases.idx

tune/blas/gemv/MVTCASES/zmvtcases.idx

tune/blas/gemv/atlas-l2g.base

tune/blas/gemv/mvktime.c

tune/blas/gemv/mvnhgen.c

tune/blas/gemv/mvnksearch.c

tune/blas/gemv/mvnktest.c

tune/blas/gemv/mvntest.c

tune/blas/gemv/mvthgen.c

tune/blas/gemv/mvtksearch.c

tune/blas/gemv/mvtktest.c

tune/blas/gemv/mvttest.c

tune/blas/ger/R1CASES

tune/blas/ger/R1CASES/ATL_cgerk_2x1p.c

tune/blas/ger/R1CASES/ATL_cgerk_8x4_sse3.c

tune/blas/ger/R1CASES/ATL_cgerk_axpy.c

tune/blas/ger/R1CASES/ATL_dgerk_4x8_sse.c

tune/blas/ger/R1CASES/ATL_dgerk_8x1_Cw.c

tune/blas/ger/R1CASES/ATL_gerk_1x4_0.c

tune/blas/ger/R1CASES/ATL_gerk_4x4_1.c

tune/blas/ger/R1CASES/ATL_gerk_8x4_0.c

tune/blas/ger/R1CASES/ATL_gerk_axpy.c

tune/blas/ger/R1CASES/ATL_gerk_vx4_vsx.c

tune/blas/ger/R1CASES/ATL_sgerk_8x4_sse.c

tune/blas/ger/R1CASES/ATL_zgerk_1x4_sse3.c

tune/blas/ger/R1CASES/cr1cases.idx

tune/blas/ger/R1CASES/dr1cases.idx

tune/blas/ger/R1CASES/sr1cases.idx

tune/blas/ger/R1CASES/zr1cases.idx

tune/blas/ger/R2CASES

tune/blas/ger/R2CASES/ATL_cger2k_1x1_1.c

tune/blas/ger/R2CASES/ATL_dger2k_2x2_sse3.c

tune/blas/ger/R2CASES/ATL_ger2k_1x1_1.c

tune/blas/ger/R2CASES/ATL_sger2K_NEON.S

tune/blas/ger/R2CASES/ATL_sger2K_NEON_lda4.S

tune/blas/ger/R2CASES/ATL_zger2k_2x1_sse3.c

tune/blas/ger/R2CASES/ATL_zger2k_rk2_avx.c

tune/blas/ger/R2CASES/ATL_zger2k_rk2_sse3.c

tune/blas/ger/R2CASES/cr2cases.idx

tune/blas/ger/R2CASES/dr2cases.idx

tune/blas/ger/R2CASES/sr2cases.idx

tune/blas/ger/R2CASES/zr2cases.idx

tune/blas/ger/r1hgen.c

tune/blas/ger/r1ksearch.c

tune/blas/ger/r1ktest.c

tune/blas/ger/r1ktime.c

tune/blas/ger/r1sum2csv.c

tune/blas/ger/r2hgen.c

tune/blas/ger/r2ksearch.c

tune/blas/ger/r2ktest.c

tune/blas/ger/r2ktime.c

tune/blas/ger/s1nxtune.c

tune/blas/ger/s2nxtune.c

tune/blas/level1/AXPY/zaxpy_avx.c

tune/blas/level1/DOT/zdot1_x1y1_sse2.c

tune/blas/level1/IAMAX/ciamax_avx.c

tune/blas/level1/NRM2/nrm2_ssqmax1_x1.c

tune/lapack

tune/lapack/lanbsrch.c

tune/sysinfo/emit_lamch.c

tune/sysinfo/masrch.c

tune/sysinfo/matime.c

tune/threads

tune/threads/DoFlops_amd64.S

tune/threads/probe_nthr.c

tune/threads/test_count.c

tune/threads/tune_aff.c

tune/threads/tune_count.c

tune/threads/tune_spawn.c

tune/threads/tune_spawn_fp.c

files removed:
CONFIG/ARCHS/AMD64K10h32SSE3.tgz

CONFIG/ARCHS/AMD64K10h64SSE3.tgz

CONFIG/ARCHS/BOZOL1.tgz

CONFIG/ARCHS/Core232SSE3.tgz

CONFIG/ARCHS/Core264SSE3.tgz

CONFIG/ARCHS/Corei164SSE3.tgz

CONFIG/ARCHS/HAMMER32SSE2.tgz

CONFIG/ARCHS/HAMMER32SSE3.tgz

CONFIG/ARCHS/HAMMER64SSE2.tgz

CONFIG/ARCHS/HAMMER64SSE3.tgz

CONFIG/ARCHS/IA64Itan264.tgz

CONFIG/ARCHS/MIPSICE932.tgz

CONFIG/ARCHS/MIPSICE964.tgz

CONFIG/ARCHS/MIPSR1xK64.tgz

CONFIG/ARCHS/P432SSE2.tgz

CONFIG/ARCHS/P4E32SSE3.tgz

CONFIG/ARCHS/P4E64SSE3.tgz

CONFIG/ARCHS/PIII32SSE1.tgz

CONFIG/ARCHS/POWER432.tgz

CONFIG/ARCHS/POWER464.tgz

CONFIG/ARCHS/POWER564.tgz

CONFIG/ARCHS/POWER764.tgz

CONFIG/ARCHS/PPCG432AltiVec.tgz

CONFIG/ARCHS/PPCG532AltiVec.tgz

CONFIG/ARCHS/PPCG564AltiVec.tgz

CONFIG/ARCHS/USIII32.tgz

CONFIG/ARCHS/USIII64.tgz

CONFIG/ARCHS/USIV32.tgz

CONFIG/ARCHS/USIV64.tgz

debian/patches/01_force_kernel_failure.diff.do.not.apply

debian/patches/03_full_blas_lapack.diff

debian/patches/04_static_install_target.diff

debian/patches/05_shared_full_blas.diff

debian/patches/06_install_shared.diff

debian/patches/07_full_sonames.diff

debian/patches/08_install_shared_lib_call.diff

debian/patches/09_mkdir_inst_dir.diff

debian/patches/12_check-exists.diff

debian/patches/23_fix_unresolvable_on_sh4.diff

makes/Make.l1ptblas

makes/Make.l2ptblas

makes/Make.l3ptblas

makes/Make.miptblas

src/blas/level2/kernel/ATL_hbmvL.c

src/blas/level2/kernel/ATL_hbmvU.c

src/blas/level2/kernel/ATL_hemvL.c

src/blas/level2/kernel/ATL_hemvU.c

src/blas/level2/kernel/ATL_her2L.c

src/blas/level2/kernel/ATL_her2U.c

src/blas/level2/kernel/ATL_herL.c

src/blas/level2/kernel/ATL_herU.c

src/blas/level2/kernel/ATL_hpmvL.c

src/blas/level2/kernel/ATL_hpmvU.c

src/blas/level2/kernel/ATL_hpr2L.c

src/blas/level2/kernel/ATL_hpr2U.c

src/blas/level2/kernel/ATL_hprL.c

src/blas/level2/kernel/ATL_hprU.c

src/blas/level2/kernel/ATL_sbmvL.c

src/blas/level2/kernel/ATL_sbmvU.c

src/blas/level2/kernel/ATL_spmvL.c

src/blas/level2/kernel/ATL_spmvU.c

src/blas/level2/kernel/ATL_spr2L.c

src/blas/level2/kernel/ATL_spr2U.c

src/blas/level2/kernel/ATL_sprL.c

src/blas/level2/kernel/ATL_sprU.c

src/blas/level2/kernel/ATL_symvL.c

src/blas/level2/kernel/ATL_symvU.c

src/blas/level2/kernel/ATL_syr2L.c

src/blas/level2/kernel/ATL_syr2U.c

src/blas/level2/kernel/ATL_syrL.c

src/blas/level2/kernel/ATL_syrU.c

src/blas/level2/kernel/ATL_tbmvLC.c

src/blas/level2/kernel/ATL_tbmvLCN.c

src/blas/level2/kernel/ATL_tbmvLCU.c

src/blas/level2/kernel/ATL_tbmvLH.c

src/blas/level2/kernel/ATL_tbmvLHN.c

src/blas/level2/kernel/ATL_tbmvLHU.c

src/blas/level2/kernel/ATL_tbmvLN.c

src/blas/level2/kernel/ATL_tbmvLNN.c

src/blas/level2/kernel/ATL_tbmvLNU.c

src/blas/level2/kernel/ATL_tbmvLT.c

src/blas/level2/kernel/ATL_tbmvLTN.c

src/blas/level2/kernel/ATL_tbmvLTU.c

src/blas/level2/kernel/ATL_tbmvUC.c

src/blas/level2/kernel/ATL_tbmvUCN.c

src/blas/level2/kernel/ATL_tbmvUCU.c

src/blas/level2/kernel/ATL_tbmvUH.c

src/blas/level2/kernel/ATL_tbmvUHN.c

src/blas/level2/kernel/ATL_tbmvUHU.c

src/blas/level2/kernel/ATL_tbmvUN.c

src/blas/level2/kernel/ATL_tbmvUNN.c

src/blas/level2/kernel/ATL_tbmvUNU.c

src/blas/level2/kernel/ATL_tbmvUT.c

src/blas/level2/kernel/ATL_tbmvUTN.c

src/blas/level2/kernel/ATL_tbmvUTU.c

src/blas/level2/kernel/ATL_tbsvLC.c

src/blas/level2/kernel/ATL_tbsvLCN.c

src/blas/level2/kernel/ATL_tbsvLCU.c

src/blas/level2/kernel/ATL_tbsvLH.c

src/blas/level2/kernel/ATL_tbsvLHN.c

src/blas/level2/kernel/ATL_tbsvLHU.c

src/blas/level2/kernel/ATL_tbsvLN.c

src/blas/level2/kernel/ATL_tbsvLNN.c

src/blas/level2/kernel/ATL_tbsvLNU.c

src/blas/level2/kernel/ATL_tbsvLT.c

src/blas/level2/kernel/ATL_tbsvLTN.c

src/blas/level2/kernel/ATL_tbsvLTU.c

src/blas/level2/kernel/ATL_tbsvUC.c

src/blas/level2/kernel/ATL_tbsvUCN.c

src/blas/level2/kernel/ATL_tbsvUCU.c

src/blas/level2/kernel/ATL_tbsvUH.c

src/blas/level2/kernel/ATL_tbsvUHN.c

src/blas/level2/kernel/ATL_tbsvUHU.c

src/blas/level2/kernel/ATL_tbsvUN.c

src/blas/level2/kernel/ATL_tbsvUNN.c

src/blas/level2/kernel/ATL_tbsvUNU.c

src/blas/level2/kernel/ATL_tbsvUT.c

src/blas/level2/kernel/ATL_tbsvUTN.c

src/blas/level2/kernel/ATL_tbsvUTU.c

src/blas/level2/kernel/ATL_tpmvLC.c

src/blas/level2/kernel/ATL_tpmvLCN.c

src/blas/level2/kernel/ATL_tpmvLCU.c

src/blas/level2/kernel/ATL_tpmvLH.c

src/blas/level2/kernel/ATL_tpmvLHN.c

src/blas/level2/kernel/ATL_tpmvLHU.c

src/blas/level2/kernel/ATL_tpmvLN.c

src/blas/level2/kernel/ATL_tpmvLNN.c

src/blas/level2/kernel/ATL_tpmvLNU.c

src/blas/level2/kernel/ATL_tpmvLT.c

src/blas/level2/kernel/ATL_tpmvLTN.c

src/blas/level2/kernel/ATL_tpmvLTU.c

src/blas/level2/kernel/ATL_tpmvUC.c

src/blas/level2/kernel/ATL_tpmvUCN.c

src/blas/level2/kernel/ATL_tpmvUCU.c

src/blas/level2/kernel/ATL_tpmvUH.c

src/blas/level2/kernel/ATL_tpmvUHN.c

src/blas/level2/kernel/ATL_tpmvUHU.c

src/blas/level2/kernel/ATL_tpmvUN.c

src/blas/level2/kernel/ATL_tpmvUNN.c

src/blas/level2/kernel/ATL_tpmvUNU.c

src/blas/level2/kernel/ATL_tpmvUT.c

src/blas/level2/kernel/ATL_tpmvUTN.c

src/blas/level2/kernel/ATL_tpmvUTU.c

src/blas/level2/kernel/ATL_tpsvLC.c

src/blas/level2/kernel/ATL_tpsvLCN.c

src/blas/level2/kernel/ATL_tpsvLCU.c

src/blas/level2/kernel/ATL_tpsvLH.c

src/blas/level2/kernel/ATL_tpsvLHN.c

src/blas/level2/kernel/ATL_tpsvLHU.c

src/blas/level2/kernel/ATL_tpsvLN.c

src/blas/level2/kernel/ATL_tpsvLNN.c

src/blas/level2/kernel/ATL_tpsvLNU.c

src/blas/level2/kernel/ATL_tpsvLT.c

src/blas/level2/kernel/ATL_tpsvLTN.c

src/blas/level2/kernel/ATL_tpsvLTU.c

src/blas/level2/kernel/ATL_tpsvUC.c

src/blas/level2/kernel/ATL_tpsvUCN.c

src/blas/level2/kernel/ATL_tpsvUCU.c

src/blas/level2/kernel/ATL_tpsvUH.c

src/blas/level2/kernel/ATL_tpsvUHN.c

src/blas/level2/kernel/ATL_tpsvUHU.c

src/blas/level2/kernel/ATL_tpsvUN.c

src/blas/level2/kernel/ATL_tpsvUNN.c

src/blas/level2/kernel/ATL_tpsvUNU.c

src/blas/level2/kernel/ATL_tpsvUT.c

src/blas/level2/kernel/ATL_tpsvUTN.c

src/blas/level2/kernel/ATL_tpsvUTU.c

src/blas/level2/kernel/ATL_trmvLC.c

src/blas/level2/kernel/ATL_trmvLCN.c

src/blas/level2/kernel/ATL_trmvLCU.c

src/blas/level2/kernel/ATL_trmvLH.c

src/blas/level2/kernel/ATL_trmvLHN.c

src/blas/level2/kernel/ATL_trmvLHU.c

src/blas/level2/kernel/ATL_trmvLN.c

src/blas/level2/kernel/ATL_trmvLNN.c

src/blas/level2/kernel/ATL_trmvLNU.c

src/blas/level2/kernel/ATL_trmvLT.c

src/blas/level2/kernel/ATL_trmvLTN.c

src/blas/level2/kernel/ATL_trmvLTU.c

src/blas/level2/kernel/ATL_trmvUC.c

src/blas/level2/kernel/ATL_trmvUCN.c

src/blas/level2/kernel/ATL_trmvUCU.c

src/blas/level2/kernel/ATL_trmvUH.c

src/blas/level2/kernel/ATL_trmvUHN.c

src/blas/level2/kernel/ATL_trmvUHU.c

src/blas/level2/kernel/ATL_trmvUNN.c

src/blas/level2/kernel/ATL_trmvUNU.c

src/blas/level2/kernel/ATL_trmvUT.c

src/blas/level2/kernel/ATL_trmvUTN.c

src/blas/level2/kernel/ATL_trmvUTU.c

src/blas/level2/kernel/ATL_trsvLC.c

src/blas/level2/kernel/ATL_trsvLCN.c

src/blas/level2/kernel/ATL_trsvLCU.c

src/blas/level2/kernel/ATL_trsvLH.c

src/blas/level2/kernel/ATL_trsvLHN.c

src/blas/level2/kernel/ATL_trsvLHU.c

src/blas/level2/kernel/ATL_trsvLN.c

src/blas/level2/kernel/ATL_trsvLNN.c

src/blas/level2/kernel/ATL_trsvLNU.c

src/blas/level2/kernel/ATL_trsvLT.c

src/blas/level2/kernel/ATL_trsvLTN.c

src/blas/level2/kernel/ATL_trsvLTU.c

src/blas/level2/kernel/ATL_trsvUC.c

src/blas/level2/kernel/ATL_trsvUCN.c

src/blas/level2/kernel/ATL_trsvUCU.c

src/blas/level2/kernel/ATL_trsvUH.c

src/blas/level2/kernel/ATL_trsvUHN.c

src/blas/level2/kernel/ATL_trsvUHU.c

src/blas/level2/kernel/ATL_trsvUN.c

src/blas/level2/kernel/ATL_trsvUNN.c

src/blas/level2/kernel/ATL_trsvUNU.c

src/blas/level2/kernel/ATL_trsvUT.c

src/blas/level2/kernel/ATL_trsvUTN.c

src/blas/level2/kernel/ATL_trsvUTU.c

src/pthreads

src/pthreads/blas

src/pthreads/blas/level1

src/pthreads/blas/level1/README

src/pthreads/blas/level2

src/pthreads/blas/level2/README

src/pthreads/blas/level3

src/pthreads/blas/level3/ATL_Sgemm.c

src/pthreads/blas/level3/ATL_Ssymm.c

src/pthreads/blas/level3/ATL_Ssyr2k.c

src/pthreads/blas/level3/ATL_Ssyrk.c

src/pthreads/blas/level3/ATL_Strmm.c

src/pthreads/blas/level3/ATL_Strsm.c

src/pthreads/blas/level3/ATL_ptgemm.c

src/pthreads/blas/level3/ATL_pthemm.c

src/pthreads/blas/level3/ATL_pther2k.c

src/pthreads/blas/level3/ATL_ptherk.c

src/pthreads/blas/level3/ATL_ptl3settype.c

src/pthreads/blas/level3/ATL_ptsymm.c

src/pthreads/blas/level3/ATL_ptsyr2k.c

src/pthreads/blas/level3/ATL_ptsyrk.c

src/pthreads/blas/level3/ATL_pttrmm.c

src/pthreads/blas/level3/ATL_pttrsm.c

src/pthreads/misc

src/pthreads/misc/ATL_1dsplit.c

src/pthreads/misc/ATL_Sgeadd.c

src/pthreads/misc/ATL_Sgescal.c

src/pthreads/misc/ATL_Sgezero.c

src/pthreads/misc/ATL_Stzscal.c

src/pthreads/misc/ATL_apply_tree.c

src/pthreads/misc/ATL_create_tree.c

src/pthreads/misc/ATL_free_node.c

src/pthreads/misc/ATL_free_tree.c

src/pthreads/misc/ATL_init_node.c

src/pthreads/misc/ATL_join_tree.c

src/pthreads/misc/ATL_print_node_id.c

src/pthreads/misc/ATL_ptgeadd.c

src/pthreads/misc/ATL_ptgescal.c

src/pthreads/misc/ATL_ptgezero.c

src/pthreads/misc/ATL_pthescal.c

src/pthreads/misc/ATL_pttrscal.c

src/pthreads/misc/ATL_signal_tree.c

src/pthreads/misc/ATL_thread_exit.c

src/pthreads/misc/ATL_thread_init.c

src/pthreads/misc/ATL_thread_tree.c

src/pthreads/misc/ATL_traverse_tree.c

src/pthreads/misc/ATL_tzsplit.c

src/pthreads/misc/ATL_wait_tree.c

tune/blas/gemv/ATL_gemv.c

tune/blas/gemv/ATL_symv.c

tune/blas/gemv/CASES

tune/blas/gemv/CASES/ATL_cgemvN_1x1_1.c

tune/blas/gemv/CASES/ATL_cgemvN_1x1_1a.c

tune/blas/gemv/CASES/ATL_cgemvN_2x2_0.c

tune/blas/gemv/CASES/ATL_cgemvN_4x2_1.c

tune/blas/gemv/CASES/ATL_cgemvN_mm.c

tune/blas/gemv/CASES/ATL_cgemvT_1x1_1.c

tune/blas/gemv/CASES/ATL_cgemvT_2x2_0.c

tune/blas/gemv/CASES/ATL_cgemvT_2x4_1.c

tune/blas/gemv/CASES/ATL_cgemvT_mm.c

tune/blas/gemv/CASES/ATL_gemvN_16x2_1.c

tune/blas/gemv/CASES/ATL_gemvN_16x4_1.c

tune/blas/gemv/CASES/ATL_gemvN_1x1_1.c

tune/blas/gemv/CASES/ATL_gemvN_1x1_1a.c

tune/blas/gemv/CASES/ATL_gemvN_32x4_1.c

tune/blas/gemv/CASES/ATL_gemvN_4x2_0.c

tune/blas/gemv/CASES/ATL_gemvN_4x4_1.c

tune/blas/gemv/CASES/ATL_gemvN_8x32_2.c

tune/blas/gemv/CASES/ATL_gemvN_8x4_1.c

tune/blas/gemv/CASES/ATL_gemvN_SSE.c

tune/blas/gemv/CASES/ATL_gemvN_dummy.c

tune/blas/gemv/CASES/ATL_gemvN_dummy2.c

tune/blas/gemv/CASES/ATL_gemvN_mm.c

tune/blas/gemv/CASES/ATL_gemvT_1x1_1.c

tune/blas/gemv/CASES/ATL_gemvT_2x16_1.c

tune/blas/gemv/CASES/ATL_gemvT_2x8_0.c

tune/blas/gemv/CASES/ATL_gemvT_4x16_1.c

tune/blas/gemv/CASES/ATL_gemvT_4x8_1.c

tune/blas/gemv/CASES/ATL_gemvT_SSE.c

tune/blas/gemv/CASES/ATL_gemvT_dummy.c

tune/blas/gemv/CASES/ATL_gemvT_dummy2.c

tune/blas/gemv/CASES/ATL_gemvT_mm.c

tune/blas/gemv/CASES/ATL_gemv_SSE.c

tune/blas/gemv/CASES/ccases.dsc

tune/blas/gemv/CASES/dcases.dsc

tune/blas/gemv/CASES/scases.dsc

tune/blas/gemv/CASES/zcases.dsc

tune/blas/gemv/emit_head.c

tune/blas/gemv/emit_rmvT.c

tune/blas/gemv/gemvtune.c

tune/blas/gemv/mvsearch.c

tune/blas/gemv/mvtest.c

tune/blas/ger/ATL_ger.c

tune/blas/ger/CASES

tune/blas/ger/CASES/ATL_cger1_2x1p.c

tune/blas/ger/CASES/ATL_cger1_axpy.c

tune/blas/ger/CASES/ATL_cger1_dummy.c

tune/blas/ger/CASES/ATL_ger1_1x4_0.c

tune/blas/ger/CASES/ATL_ger1_4x4_1.c

tune/blas/ger/CASES/ATL_ger1_8x4_0.c

tune/blas/ger/CASES/ATL_ger1_SSE.c

tune/blas/ger/CASES/ATL_ger1_axpy.c

tune/blas/ger/CASES/ccases.dsc

tune/blas/ger/CASES/dcases.dsc

tune/blas/ger/CASES/scases.dsc

tune/blas/ger/CASES/zcases.dsc

tune/blas/ger/emit_r1h.c

tune/blas/ger/ger1tune.c

tune/blas/ger/r1search.c

tune/blas/ger/r1test.c

tune/sysinfo/findNT.c

tune/sysinfo/masearch.c

files modified:
CONFIG/ARCHS/CreateDef.sh

CONFIG/ARCHS/CreateDirs.sh

CONFIG/ARCHS/CreateTar.sh

CONFIG/ARCHS/Make.ext

CONFIG/ARCHS/Makefile

CONFIG/ARCHS/negflt.c

CONFIG/Make.ext

CONFIG/include/Make.ext

CONFIG/include/atlas_asm.h

CONFIG/include/atlconf.h

CONFIG/include/atlconf_misc.h

CONFIG/src/Make.ext

CONFIG/src/Makefile

CONFIG/src/SpewMakeInc.c

CONFIG/src/atlbench.c

CONFIG/src/atlcomp.txt

CONFIG/src/atlconf_misc.c

CONFIG/src/backend/Make.ext

CONFIG/src/backend/archinfo_aix.c

CONFIG/src/backend/archinfo_freebsd.c

CONFIG/src/backend/archinfo_irix.c

CONFIG/src/backend/archinfo_linux.c

CONFIG/src/backend/archinfo_sunos.c

CONFIG/src/backend/archinfo_x86.c

CONFIG/src/backend/c2cmaster.c

CONFIG/src/backend/comptestC.c

CONFIG/src/backend/flibchkC.c

CONFIG/src/backend/probe_AltiVec.S

CONFIG/src/backend/probe_dSSE3.c

CONFIG/src/backend/probe_dvec.c

CONFIG/src/backend/probe_svec.c

CONFIG/src/backend/probe_this_asm.c

CONFIG/src/config.c

CONFIG/src/print_enums.c

CONFIG/src/probe_OS.c

CONFIG/src/probe_arch.c

CONFIG/src/probe_asm.c

CONFIG/src/probe_comp.c

CONFIG/src/probe_f2c.c

CONFIG/src/probe_pmake.c

CONFIG/src/probe_vec.c

CONFIG/src/wincc.c

CONFIG/src/winf77.c

INSTALL.txt

Make.top

bin/atlas_install.c

bin/atlas_tee.c

bin/atlas_waitfile.c

bin/ccobj.c

bin/gemmtst.c

bin/gpmmtst.c

bin/invtst.c

bin/l1blastst.c

bin/l2blastst.c

bin/l3blastst.c

bin/llttst.c

bin/lutst.c

bin/print_buildinfo.c

bin/printblk.c

bin/slvtst.c

bin/substr.c

bin/trtritst.c

bin/uumtst.c

configure

debian/README.Debian

debian/README.source

debian/changelog

debian/compat

debian/control

debian/libatlas-base-dev.postinst

debian/libatlas-test.install

debian/libatlas3-base.postinst

debian/libatlas3-base.preinst

debian/libatlas3-base.prerm

debian/libatlas3gf-base.prerm

debian/orig-tar.sh

debian/patches/02_rename_lapack_atlas.diff

debian/patches/10_s390.diff

debian/patches/16_warning-removed.diff

debian/patches/17_hppa.diff

debian/patches/18_alpha.diff

debian/patches/20_armel.diff

debian/patches/21_mips2.diff

debian/patches/22_sh.diff

debian/patches/kfreebsd.diff

debian/rules

doc/AtlasCredits.txt

doc/BootSequence.txt

doc/ChangeLog

doc/LibReadme.txt

doc/TestTime.txt

doc/TroubleShoot.txt

doc/Windows.txt

include/atlas_altivec.h

include/atlas_asm.h

include/atlas_aux.h

include/atlas_cblascalias.h

include/atlas_cblasdalias.h

include/atlas_cblassalias.h

include/atlas_cblaszalias.h

include/atlas_enum.h

include/atlas_f77.h

include/atlas_f77wrap.h

include/atlas_kern3.h

include/atlas_kernel2.h

include/atlas_kernel3.h

include/atlas_lapack.h

include/atlas_level1.h

include/atlas_level2.h

include/atlas_level3.h

include/atlas_lvl2.h

include/atlas_lvl3.h

include/atlas_misc.h

include/atlas_mv.h

include/atlas_pkblas.h

include/atlas_prefetch.h

include/atlas_ptalias1.h

include/atlas_ptalias2.h

include/atlas_ptalias3.h

include/atlas_ptlevel3.h

include/atlas_ptlvl3.h

include/atlas_ptmisc.h

include/atlas_r1.h

include/atlas_rblas3.h

include/atlas_refalias1.h

include/atlas_refalias2.h

include/atlas_refalias3.h

include/atlas_reflevel1.h

include/atlas_reflevel2.h

include/atlas_reflevel3.h

include/atlas_reflvl2.h

include/atlas_reflvl3.h

include/atlas_refmisc.h

include/atlas_tst.h

include/cblas.h

include/clapack.h

include/contrib/ATL_gemv_ger_SSE.h

include/contrib/Make.ext

include/contrib/SSE3Dnow.h

include/contrib/camm_util.h

include/f77wrap_lapack.h

interfaces/blas/C/src/catlas_caxpby.c

interfaces/blas/C/src/catlas_cset.c

interfaces/blas/C/src/catlas_daxpby.c

interfaces/blas/C/src/catlas_dset.c

interfaces/blas/C/src/catlas_saxpby.c

interfaces/blas/C/src/catlas_sset.c

interfaces/blas/C/src/catlas_zaxpby.c

interfaces/blas/C/src/catlas_zset.c

interfaces/blas/C/src/cblas_caxpy.c

interfaces/blas/C/src/cblas_ccopy.c

interfaces/blas/C/src/cblas_cdotc.c

interfaces/blas/C/src/cblas_cdotu.c

interfaces/blas/C/src/cblas_cgbmv.c

interfaces/blas/C/src/cblas_cgemm.c

interfaces/blas/C/src/cblas_cgemv.c

interfaces/blas/C/src/cblas_cgerc.c

interfaces/blas/C/src/cblas_cgeru.c

interfaces/blas/C/src/cblas_chbmv.c

interfaces/blas/C/src/cblas_chemm.c

interfaces/blas/C/src/cblas_chemv.c

interfaces/blas/C/src/cblas_cher.c

interfaces/blas/C/src/cblas_cher2.c

interfaces/blas/C/src/cblas_cher2k.c

interfaces/blas/C/src/cblas_cherk.c

interfaces/blas/C/src/cblas_chpmv.c

interfaces/blas/C/src/cblas_chpr.c

interfaces/blas/C/src/cblas_chpr2.c

interfaces/blas/C/src/cblas_crotg.c

interfaces/blas/C/src/cblas_cscal.c

interfaces/blas/C/src/cblas_csrot.c

interfaces/blas/C/src/cblas_csscal.c

interfaces/blas/C/src/cblas_cswap.c

interfaces/blas/C/src/cblas_csymm.c

interfaces/blas/C/src/cblas_csyr2k.c

interfaces/blas/C/src/cblas_csyrk.c

interfaces/blas/C/src/cblas_ctbmv.c

interfaces/blas/C/src/cblas_ctbsv.c

interfaces/blas/C/src/cblas_ctpmv.c

interfaces/blas/C/src/cblas_ctpsv.c

interfaces/blas/C/src/cblas_ctrmm.c

interfaces/blas/C/src/cblas_ctrmv.c

interfaces/blas/C/src/cblas_ctrsm.c

interfaces/blas/C/src/cblas_ctrsv.c

interfaces/blas/C/src/cblas_dasum.c

interfaces/blas/C/src/cblas_daxpy.c

interfaces/blas/C/src/cblas_dcopy.c

interfaces/blas/C/src/cblas_ddot.c

interfaces/blas/C/src/cblas_dgbmv.c

interfaces/blas/C/src/cblas_dgemm.c

interfaces/blas/C/src/cblas_dgemv.c

interfaces/blas/C/src/cblas_dger.c

interfaces/blas/C/src/cblas_dnrm2.c

interfaces/blas/C/src/cblas_drot.c

interfaces/blas/C/src/cblas_drotg.c

interfaces/blas/C/src/cblas_drotm.c

interfaces/blas/C/src/cblas_drotmg.c

interfaces/blas/C/src/cblas_dsbmv.c

interfaces/blas/C/src/cblas_dscal.c

interfaces/blas/C/src/cblas_dsdot.c

interfaces/blas/C/src/cblas_dspmv.c

interfaces/blas/C/src/cblas_dspr.c

interfaces/blas/C/src/cblas_dspr2.c

interfaces/blas/C/src/cblas_dswap.c

interfaces/blas/C/src/cblas_dsymm.c

interfaces/blas/C/src/cblas_dsymv.c

interfaces/blas/C/src/cblas_dsyr.c

interfaces/blas/C/src/cblas_dsyr2.c

interfaces/blas/C/src/cblas_dsyr2k.c

interfaces/blas/C/src/cblas_dsyrk.c

interfaces/blas/C/src/cblas_dtbmv.c

interfaces/blas/C/src/cblas_dtbsv.c

interfaces/blas/C/src/cblas_dtpmv.c

interfaces/blas/C/src/cblas_dtpsv.c

interfaces/blas/C/src/cblas_dtrmm.c

interfaces/blas/C/src/cblas_dtrmv.c

interfaces/blas/C/src/cblas_dtrsm.c

interfaces/blas/C/src/cblas_dtrsv.c

interfaces/blas/C/src/cblas_dzasum.c

interfaces/blas/C/src/cblas_dznrm2.c

interfaces/blas/C/src/cblas_errprn.c

interfaces/blas/C/src/cblas_icamax.c

interfaces/blas/C/src/cblas_idamax.c

interfaces/blas/C/src/cblas_isamax.c

interfaces/blas/C/src/cblas_izamax.c

interfaces/blas/C/src/cblas_sasum.c

interfaces/blas/C/src/cblas_saxpy.c

interfaces/blas/C/src/cblas_scasum.c

interfaces/blas/C/src/cblas_scnrm2.c

interfaces/blas/C/src/cblas_scopy.c

interfaces/blas/C/src/cblas_sdot.c

interfaces/blas/C/src/cblas_sdsdot.c

interfaces/blas/C/src/cblas_sgbmv.c

interfaces/blas/C/src/cblas_sgemm.c

interfaces/blas/C/src/cblas_sgemv.c

interfaces/blas/C/src/cblas_sger.c

interfaces/blas/C/src/cblas_snrm2.c

interfaces/blas/C/src/cblas_srot.c

interfaces/blas/C/src/cblas_srotg.c

interfaces/blas/C/src/cblas_srotm.c

interfaces/blas/C/src/cblas_srotmg.c

interfaces/blas/C/src/cblas_ssbmv.c

interfaces/blas/C/src/cblas_sscal.c

interfaces/blas/C/src/cblas_sspmv.c

interfaces/blas/C/src/cblas_sspr.c

interfaces/blas/C/src/cblas_sspr2.c

interfaces/blas/C/src/cblas_sswap.c

interfaces/blas/C/src/cblas_ssymm.c

interfaces/blas/C/src/cblas_ssymv.c

interfaces/blas/C/src/cblas_ssyr.c

interfaces/blas/C/src/cblas_ssyr2.c

interfaces/blas/C/src/cblas_ssyr2k.c

interfaces/blas/C/src/cblas_ssyrk.c

interfaces/blas/C/src/cblas_stbmv.c

interfaces/blas/C/src/cblas_stbsv.c

interfaces/blas/C/src/cblas_stpmv.c

interfaces/blas/C/src/cblas_stpsv.c

interfaces/blas/C/src/cblas_strmm.c

interfaces/blas/C/src/cblas_strmv.c

interfaces/blas/C/src/cblas_strsm.c

interfaces/blas/C/src/cblas_strsv.c

interfaces/blas/C/src/cblas_xerbla.c

interfaces/blas/C/src/cblas_zaxpy.c

interfaces/blas/C/src/cblas_zcopy.c

interfaces/blas/C/src/cblas_zdotc.c

interfaces/blas/C/src/cblas_zdotu.c

interfaces/blas/C/src/cblas_zdrot.c

interfaces/blas/C/src/cblas_zdscal.c

interfaces/blas/C/src/cblas_zgbmv.c

interfaces/blas/C/src/cblas_zgemm.c

interfaces/blas/C/src/cblas_zgemv.c

interfaces/blas/C/src/cblas_zgerc.c

interfaces/blas/C/src/cblas_zgeru.c

interfaces/blas/C/src/cblas_zhbmv.c

interfaces/blas/C/src/cblas_zhemm.c

interfaces/blas/C/src/cblas_zhemv.c

interfaces/blas/C/src/cblas_zher.c

interfaces/blas/C/src/cblas_zher2.c

interfaces/blas/C/src/cblas_zher2k.c

interfaces/blas/C/src/cblas_zherk.c

interfaces/blas/C/src/cblas_zhpmv.c

interfaces/blas/C/src/cblas_zhpr.c

interfaces/blas/C/src/cblas_zhpr2.c

interfaces/blas/C/src/cblas_zrotg.c

interfaces/blas/C/src/cblas_zscal.c

interfaces/blas/C/src/cblas_zswap.c

interfaces/blas/C/src/cblas_zsymm.c

interfaces/blas/C/src/cblas_zsyr2k.c

interfaces/blas/C/src/cblas_zsyrk.c

interfaces/blas/C/src/cblas_ztbmv.c

interfaces/blas/C/src/cblas_ztbsv.c

interfaces/blas/C/src/cblas_ztpmv.c

interfaces/blas/C/src/cblas_ztpsv.c

interfaces/blas/C/src/cblas_ztrmm.c

interfaces/blas/C/src/cblas_ztrmv.c

interfaces/blas/C/src/cblas_ztrsm.c

interfaces/blas/C/src/cblas_ztrsv.c

interfaces/blas/C/testing/axpbytst.c

interfaces/blas/C/testing/c_cblat2.f

interfaces/blas/C/testing/c_cblat3.f

interfaces/blas/C/testing/c_dblat2.f

interfaces/blas/C/testing/c_dblat3.f

interfaces/blas/C/testing/c_sblat2.f

interfaces/blas/C/testing/c_sblat3.f

interfaces/blas/C/testing/c_zblat2.f

interfaces/blas/C/testing/c_zblat3.f

interfaces/blas/C/testing/settst.c

interfaces/blas/F77/src/caxpy.f

interfaces/blas/F77/src/ccopy.f

interfaces/blas/F77/src/cdotc.f

interfaces/blas/F77/src/cdotu.f

interfaces/blas/F77/src/cgbmv.f

interfaces/blas/F77/src/cgemm.f

interfaces/blas/F77/src/cgemv.f

interfaces/blas/F77/src/cgerc.f

interfaces/blas/F77/src/cgeru.f

interfaces/blas/F77/src/chbmv.f

interfaces/blas/F77/src/chemm.f

interfaces/blas/F77/src/chemv.f

interfaces/blas/F77/src/cher.f

interfaces/blas/F77/src/cher2.f

interfaces/blas/F77/src/cher2k.f

interfaces/blas/F77/src/cherk.f

interfaces/blas/F77/src/chpmv.f

interfaces/blas/F77/src/chpr.f

interfaces/blas/F77/src/chpr2.f

interfaces/blas/F77/src/crotg.f

interfaces/blas/F77/src/cscal.f

interfaces/blas/F77/src/csrot.f

interfaces/blas/F77/src/csscal.f

interfaces/blas/F77/src/cswap.f

interfaces/blas/F77/src/csymm.f

interfaces/blas/F77/src/csyr2k.f

interfaces/blas/F77/src/csyrk.f

interfaces/blas/F77/src/ctbmv.f

interfaces/blas/F77/src/ctbsv.f

interfaces/blas/F77/src/ctpmv.f

interfaces/blas/F77/src/ctpsv.f

interfaces/blas/F77/src/ctrmm.f

interfaces/blas/F77/src/ctrmv.f

interfaces/blas/F77/src/ctrsm.f

interfaces/blas/F77/src/ctrsv.f

interfaces/blas/F77/src/dasum.f

interfaces/blas/F77/src/daxpy.f

interfaces/blas/F77/src/dcabs1.f

interfaces/blas/F77/src/dcopy.f

interfaces/blas/F77/src/ddot.f

interfaces/blas/F77/src/dgbmv.f

interfaces/blas/F77/src/dgemm.f

interfaces/blas/F77/src/dgemv.f

interfaces/blas/F77/src/dger.f

interfaces/blas/F77/src/dnrm2.f

interfaces/blas/F77/src/drot.f

interfaces/blas/F77/src/drotg.f

interfaces/blas/F77/src/drotm.f

interfaces/blas/F77/src/drotmg.f

interfaces/blas/F77/src/dsbmv.f

interfaces/blas/F77/src/dscal.f

interfaces/blas/F77/src/dsdot.f

interfaces/blas/F77/src/dspmv.f

interfaces/blas/F77/src/dspr.f

interfaces/blas/F77/src/dspr2.f

interfaces/blas/F77/src/dswap.f

interfaces/blas/F77/src/dsymm.f

interfaces/blas/F77/src/dsymv.f

interfaces/blas/F77/src/dsyr.f

interfaces/blas/F77/src/dsyr2.f

interfaces/blas/F77/src/dsyr2k.f

interfaces/blas/F77/src/dsyrk.f

interfaces/blas/F77/src/dtbmv.f

interfaces/blas/F77/src/dtbsv.f

interfaces/blas/F77/src/dtpmv.f

interfaces/blas/F77/src/dtpsv.f

interfaces/blas/F77/src/dtrmm.f

interfaces/blas/F77/src/dtrmv.f

interfaces/blas/F77/src/dtrsm.f

interfaces/blas/F77/src/dtrsv.f

interfaces/blas/F77/src/dzasum.f

interfaces/blas/F77/src/dznrm2.f

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_amax.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_asum.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_axpy.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_copy.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_dot.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_dotc.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_dotu.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_dsdot.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_gbmv.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_gemm.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_gemv.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_ger.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_gerc.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_geru.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_hbmv.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_hemm.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_hemv.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_her.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_her2.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_her2k.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_herk.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_hpmv.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_hpr.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_hpr2.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_nrm2.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_rot.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_rotg.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_rotm.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_rotmg.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_rscal.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_sbmv.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_scal.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_sdsdot.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_spmv.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_spr.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_spr2.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_swap.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_symm.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_symv.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_syr.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_syr2.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_syr2k.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_syrk.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_tbmv.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_tbsv.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_tpmv.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_tpsv.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_trmm.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_trmv.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_trsm.c

interfaces/blas/F77/src/f77wrap/ATL_F77wrap_trsv.c

interfaces/blas/F77/src/f77wrap/fatlas_axpby.c

interfaces/blas/F77/src/f77wrap/fatlas_set.c

interfaces/blas/F77/src/icamax.f

interfaces/blas/F77/src/idamax.f

interfaces/blas/F77/src/isamax.f

interfaces/blas/F77/src/izamax.f

interfaces/blas/F77/src/lsame.f

interfaces/blas/F77/src/sasum.f

interfaces/blas/F77/src/saxpy.f

interfaces/blas/F77/src/scasum.f

interfaces/blas/F77/src/scnrm2.f

interfaces/blas/F77/src/scopy.f

interfaces/blas/F77/src/sdot.f

interfaces/blas/F77/src/sdsdot.f

interfaces/blas/F77/src/sgbmv.f

interfaces/blas/F77/src/sgemm.f

interfaces/blas/F77/src/sgemv.f

interfaces/blas/F77/src/sger.f

interfaces/blas/F77/src/snrm2.f

interfaces/blas/F77/src/srot.f

interfaces/blas/F77/src/srotg.f

interfaces/blas/F77/src/srotm.f

interfaces/blas/F77/src/srotmg.f

interfaces/blas/F77/src/ssbmv.f

interfaces/blas/F77/src/sscal.f

interfaces/blas/F77/src/sspmv.f

interfaces/blas/F77/src/sspr.f

interfaces/blas/F77/src/sspr2.f

interfaces/blas/F77/src/sswap.f

interfaces/blas/F77/src/ssymm.f

interfaces/blas/F77/src/ssymv.f

interfaces/blas/F77/src/ssyr.f

interfaces/blas/F77/src/ssyr2.f

interfaces/blas/F77/src/ssyr2k.f

interfaces/blas/F77/src/ssyrk.f

interfaces/blas/F77/src/stbmv.f

interfaces/blas/F77/src/stbsv.f

interfaces/blas/F77/src/stpmv.f

interfaces/blas/F77/src/stpsv.f

interfaces/blas/F77/src/strmm.f

interfaces/blas/F77/src/strmv.f

interfaces/blas/F77/src/strsm.f

interfaces/blas/F77/src/strsv.f

interfaces/blas/F77/src/xerbla.f

interfaces/blas/F77/src/zaxpy.f

interfaces/blas/F77/src/zcopy.f

interfaces/blas/F77/src/zdotc.f

interfaces/blas/F77/src/zdotu.f

interfaces/blas/F77/src/zdrot.f

interfaces/blas/F77/src/zdscal.f

interfaces/blas/F77/src/zgbmv.f

interfaces/blas/F77/src/zgemm.f

interfaces/blas/F77/src/zgemv.f

interfaces/blas/F77/src/zgerc.f

interfaces/blas/F77/src/zgeru.f

interfaces/blas/F77/src/zhbmv.f

interfaces/blas/F77/src/zhemm.f

interfaces/blas/F77/src/zhemv.f

interfaces/blas/F77/src/zher.f

interfaces/blas/F77/src/zher2.f

interfaces/blas/F77/src/zher2k.f

interfaces/blas/F77/src/zherk.f

interfaces/blas/F77/src/zhpmv.f

interfaces/blas/F77/src/zhpr.f

interfaces/blas/F77/src/zhpr2.f

interfaces/blas/F77/src/zrotg.f

interfaces/blas/F77/src/zscal.f

interfaces/blas/F77/src/zswap.f

interfaces/blas/F77/src/zsymm.f

interfaces/blas/F77/src/zsyr2k.f

interfaces/blas/F77/src/zsyrk.f

interfaces/blas/F77/src/ztbmv.f

interfaces/blas/F77/src/ztbsv.f

interfaces/blas/F77/src/ztpmv.f

interfaces/blas/F77/src/ztpsv.f

interfaces/blas/F77/src/ztrmm.f

interfaces/blas/F77/src/ztrmv.f

interfaces/blas/F77/src/ztrsm.f

interfaces/blas/F77/src/ztrsv.f

interfaces/blas/F77/testing/axpbytst.c

interfaces/blas/F77/testing/cblat2.f

interfaces/blas/F77/testing/cblat3.f

interfaces/blas/F77/testing/dblat2.f

interfaces/blas/F77/testing/dblat3.f

interfaces/blas/F77/testing/sblat2.f

interfaces/blas/F77/testing/sblat3.f

interfaces/blas/F77/testing/settst.c

interfaces/blas/F77/testing/zblat2.f

interfaces/blas/F77/testing/zblat3.f

interfaces/lapack/C/src/clapack_cgesv.c

interfaces/lapack/C/src/clapack_cgetrf.c

interfaces/lapack/C/src/clapack_cgetri.c

interfaces/lapack/C/src/clapack_cgetrs.c

interfaces/lapack/C/src/clapack_clauum.c

interfaces/lapack/C/src/clapack_cposv.c

interfaces/lapack/C/src/clapack_cpotrf.c

interfaces/lapack/C/src/clapack_cpotri.c

interfaces/lapack/C/src/clapack_cpotrs.c

interfaces/lapack/C/src/clapack_ctrtri.c

interfaces/lapack/C/src/clapack_dgesv.c

interfaces/lapack/C/src/clapack_dgetrf.c

interfaces/lapack/C/src/clapack_dgetri.c

interfaces/lapack/C/src/clapack_dgetrs.c

interfaces/lapack/C/src/clapack_dlauum.c

interfaces/lapack/C/src/clapack_dposv.c

interfaces/lapack/C/src/clapack_dpotrf.c

interfaces/lapack/C/src/clapack_dpotri.c

interfaces/lapack/C/src/clapack_dpotrs.c

interfaces/lapack/C/src/clapack_dtrtri.c

interfaces/lapack/C/src/clapack_sgesv.c

interfaces/lapack/C/src/clapack_sgetrf.c

interfaces/lapack/C/src/clapack_sgetri.c

interfaces/lapack/C/src/clapack_sgetrs.c

interfaces/lapack/C/src/clapack_slauum.c

interfaces/lapack/C/src/clapack_sposv.c

interfaces/lapack/C/src/clapack_spotrf.c

interfaces/lapack/C/src/clapack_spotri.c

interfaces/lapack/C/src/clapack_spotrs.c

interfaces/lapack/C/src/clapack_strtri.c

interfaces/lapack/C/src/clapack_zgesv.c

interfaces/lapack/C/src/clapack_zgetrf.c

interfaces/lapack/C/src/clapack_zgetri.c

interfaces/lapack/C/src/clapack_zgetrs.c

interfaces/lapack/C/src/clapack_zlauum.c

interfaces/lapack/C/src/clapack_zposv.c

interfaces/lapack/C/src/clapack_zpotrf.c

interfaces/lapack/C/src/clapack_zpotri.c

interfaces/lapack/C/src/clapack_zpotrs.c

interfaces/lapack/C/src/clapack_ztrtri.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_gesv.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_getnb.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_getrf.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_getri.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_getrs.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_lauum.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_posv.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_potrf.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_potri.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_potrs.c

interfaces/lapack/F77/src/f77wrap/ATL_f77wrap_trtri.c

interfaces/lapack/F77/src/ilaenv.f

lib/Make.ext

makes/Make.Clp

makes/Make.Flp

makes/Make.aux

makes/Make.bin

makes/Make.cblas

makes/Make.cblastst

makes/Make.ext

makes/Make.f77blas

makes/Make.f77blastst

makes/Make.l1tune

makes/Make.l2

makes/Make.l2aux

makes/Make.l3kern

makes/Make.l3tune

makes/Make.lib

makes/Make.lpsrc

makes/Make.mmsrc

makes/Make.mmtune

makes/Make.mvsrc

makes/Make.mvtune

makes/Make.r1src

makes/Make.r1tune

makes/Make.sysinfo

makes/Make.tstsrc

src/auxil/ATL_axpby.c

src/auxil/ATL_axpy.c

src/auxil/ATL_buildinfo.c

src/auxil/ATL_copy.c

src/auxil/ATL_cplxinvert.c

src/auxil/ATL_flushcache.c

src/auxil/ATL_geadd.c

src/auxil/ATL_gecopy.c

src/auxil/ATL_gemove.c

src/auxil/ATL_gemoveT.c

src/auxil/ATL_gescal.c

src/auxil/ATL_gezero.c

src/auxil/ATL_hereflect.c

src/auxil/ATL_hescal.c

src/auxil/ATL_lcm.c

src/auxil/ATL_move.c

src/auxil/ATL_ptflushcache.c

src/auxil/ATL_scal.c

src/auxil/ATL_set.c

src/auxil/ATL_syreflect.c

src/auxil/ATL_trscal.c

src/auxil/ATL_xerbla.c

src/auxil/ATL_zero.c

src/auxil/kernel/ATL_axpby.c

src/auxil/kernel/ATL_axpy_x1_y1.c

src/auxil/kernel/ATL_caxpy_x1_y1.c

src/auxil/kernel/ATL_geadd.c

src/auxil/kernel/ATL_gemove.c

src/auxil/kernel/ATL_gescal.c

src/blas/gemm/ATL_AgemmXX.c

src/blas/gemm/ATL_CNBmm_b0.c

src/blas/gemm/ATL_CNBmm_b1.c

src/blas/gemm/ATL_CNBmm_bX.c

src/blas/gemm/ATL_GetNB.c

src/blas/gemm/ATL_GetNCNB.c

src/blas/gemm/ATL_IBJBmm.c

src/blas/gemm/ATL_IBNBmm.c

src/blas/gemm/ATL_MBJBmm.c

src/blas/gemm/ATL_NCmmIJK.c

src/blas/gemm/ATL_NCmmIJK_c.c

src/blas/gemm/ATL_NCmmJIK.c

src/blas/gemm/ATL_NCmmJIK_c.c

src/blas/gemm/ATL_cNCmmIJK.c

src/blas/gemm/ATL_cNCmmIJK_c.c

src/blas/gemm/ATL_cNCmmJIK.c

src/blas/gemm/ATL_cNCmmJIK_c.c

src/blas/gemm/ATL_ccol2blk.c

src/blas/gemm/ATL_cmmIJK.c

src/blas/gemm/ATL_cmmJIK.c

src/blas/gemm/ATL_cmmJITcp.c

src/blas/gemm/ATL_cmmJKI.c

src/blas/gemm/ATL_col2blk.c

src/blas/gemm/ATL_crow2blkT.c

src/blas/gemm/ATL_gemm.c

src/blas/gemm/ATL_gemmXX.c

src/blas/gemm/ATL_gereal2cplx.c

src/blas/gemm/ATL_mmBPP.c

src/blas/gemm/ATL_mmIJK.c

src/blas/gemm/ATL_mmJIK.c

src/blas/gemm/ATL_mmJITcp.c

src/blas/gemm/ATL_mmJKI.c

src/blas/gemm/ATL_mmK.c

src/blas/gemm/ATL_putblk.c

src/blas/gemm/ATL_row2blkT.c

src/blas/gemm/UMMEXAMPLE/ATLU_usergemm.c

src/blas/gemm/UMMEXAMPLE/Makefile

src/blas/gemv/ATL_gemv.c

src/blas/ger/ATL_ger.c

src/blas/level1/ATL_dsdot.c

src/blas/level1/ATL_rot.c

src/blas/level1/ATL_rotg.c

src/blas/level1/ATL_rotm.c

src/blas/level1/ATL_rotmg.c

src/blas/level1/ATL_sdsdot.c

src/blas/level2/ATL_gbmv.c

src/blas/level2/ATL_gpmv.c

src/blas/level2/ATL_gpr.c

src/blas/level2/ATL_gprc.c

src/blas/level2/ATL_gpru.c

src/blas/level2/ATL_hbmv.c

src/blas/level2/ATL_hemv.c

src/blas/level2/ATL_her.c

src/blas/level2/ATL_her2.c

src/blas/level2/ATL_hpmv.c

src/blas/level2/ATL_hpr.c

src/blas/level2/ATL_hpr2.c

src/blas/level2/ATL_sbmv.c

src/blas/level2/ATL_spmv.c

src/blas/level2/ATL_spr.c

src/blas/level2/ATL_spr2.c

src/blas/level2/ATL_symv.c

src/blas/level2/ATL_syr.c

src/blas/level2/ATL_syr2.c

src/blas/level2/ATL_tbmv.c

src/blas/level2/ATL_tbsv.c

src/blas/level2/ATL_tpmv.c

src/blas/level2/ATL_tpsv.c

src/blas/level2/ATL_trmv.c

src/blas/level2/ATL_trsv.c

src/blas/level2/kernel/ATL_trmvUN.c

src/blas/level3/ATL_hemm.c

src/blas/level3/ATL_her2k.c

src/blas/level3/ATL_herk.c

src/blas/level3/ATL_symm.c

src/blas/level3/ATL_syr2k.c

src/blas/level3/ATL_syrk.c

src/blas/level3/ATL_trmm.c

src/blas/level3/ATL_trsm.c

src/blas/level3/kernel/ATL_CtrsmK.c

src/blas/level3/kernel/ATL_hemmL.c

src/blas/level3/kernel/ATL_hemmR.c

src/blas/level3/kernel/ATL_her2k.c

src/blas/level3/kernel/ATL_herk_N.c

src/blas/level3/kernel/ATL_herk_T.c

src/blas/level3/kernel/ATL_sycopyL.c

src/blas/level3/kernel/ATL_sycopyU.c

src/blas/level3/kernel/ATL_symmL.c

src/blas/level3/kernel/ATL_symmR.c

src/blas/level3/kernel/ATL_syr2k_N.c

src/blas/level3/kernel/ATL_syr2k_T.c

src/blas/level3/kernel/ATL_syr2k_putL.c

src/blas/level3/kernel/ATL_syr2k_putU.c

src/blas/level3/kernel/ATL_syrk_N.c

src/blas/level3/kernel/ATL_syrk_T.c

src/blas/level3/kernel/ATL_trcopyL2L.c

src/blas/level3/kernel/ATL_trcopyL2U.c

src/blas/level3/kernel/ATL_trcopyU2L.c

src/blas/level3/kernel/ATL_trcopyU2U.c

src/blas/level3/kernel/ATL_trinvert.c

src/blas/level3/kernel/ATL_trmmL.c

src/blas/level3/kernel/ATL_trmmR.c

src/blas/level3/kernel/ATL_trmv_scal.c

src/blas/level3/kernel/ATL_trputL.c

src/blas/level3/kernel/ATL_trputU.c

src/blas/level3/kernel/ATL_trsmKL.c

src/blas/level3/kernel/ATL_trsmKR.c

src/blas/level3/kernel/ATL_trsmL.c

src/blas/level3/kernel/ATL_trsmR.c

src/blas/level3/rblas/ATL_gemmRB.c

src/blas/level3/rblas/ATL_rhemmLL.c

src/blas/level3/rblas/ATL_rhemmLU.c

src/blas/level3/rblas/ATL_rhemmRL.c

src/blas/level3/rblas/ATL_rhemmRU.c

src/blas/level3/rblas/ATL_rher2kLC.c

src/blas/level3/rblas/ATL_rher2kLN.c

src/blas/level3/rblas/ATL_rher2kUC.c

src/blas/level3/rblas/ATL_rher2kUN.c

src/blas/level3/rblas/ATL_rherkLC.c

src/blas/level3/rblas/ATL_rherkLN.c

src/blas/level3/rblas/ATL_rherkUC.c

src/blas/level3/rblas/ATL_rherkUN.c

src/blas/level3/rblas/ATL_rsymmLL.c

src/blas/level3/rblas/ATL_rsymmLU.c

src/blas/level3/rblas/ATL_rsymmRL.c

src/blas/level3/rblas/ATL_rsymmRU.c

src/blas/level3/rblas/ATL_rsyr2kLN.c

src/blas/level3/rblas/ATL_rsyr2kLT.c

src/blas/level3/rblas/ATL_rsyr2kUN.c

src/blas/level3/rblas/ATL_rsyr2kUT.c

src/blas/level3/rblas/ATL_rsyrkLN.c

src/blas/level3/rblas/ATL_rsyrkLT.c

src/blas/level3/rblas/ATL_rsyrkUN.c

src/blas/level3/rblas/ATL_rsyrkUT.c

src/blas/level3/rblas/ATL_rtrmmLLC.c

src/blas/level3/rblas/ATL_rtrmmLLN.c

src/blas/level3/rblas/ATL_rtrmmLLT.c

src/blas/level3/rblas/ATL_rtrmmLUC.c

src/blas/level3/rblas/ATL_rtrmmLUN.c

src/blas/level3/rblas/ATL_rtrmmLUT.c

src/blas/level3/rblas/ATL_rtrmmRLC.c

src/blas/level3/rblas/ATL_rtrmmRLN.c

src/blas/level3/rblas/ATL_rtrmmRLT.c

src/blas/level3/rblas/ATL_rtrmmRUC.c

src/blas/level3/rblas/ATL_rtrmmRUN.c

src/blas/level3/rblas/ATL_rtrmmRUT.c

src/blas/level3/rblas/ATL_rtrsmLLC.c

src/blas/level3/rblas/ATL_rtrsmLLN.c

src/blas/level3/rblas/ATL_rtrsmLLT.c

src/blas/level3/rblas/ATL_rtrsmLUC.c

src/blas/level3/rblas/ATL_rtrsmLUN.c

src/blas/level3/rblas/ATL_rtrsmLUT.c

src/blas/level3/rblas/ATL_rtrsmRLC.c

src/blas/level3/rblas/ATL_rtrsmRLN.c

src/blas/level3/rblas/ATL_rtrsmRLT.c

src/blas/level3/rblas/ATL_rtrsmRUC.c

src/blas/level3/rblas/ATL_rtrsmRUN.c

src/blas/level3/rblas/ATL_rtrsmRUT.c

src/blas/pklevel3/gpmm/ATL_cpcol2blk.c

src/blas/pklevel3/gpmm/ATL_cpmmJIK.c

src/blas/pklevel3/gpmm/ATL_cpputblk.c

src/blas/pklevel3/gpmm/ATL_cprow2blkT.c

src/blas/pklevel3/gpmm/ATL_gpmm.c

src/blas/pklevel3/gpmm/ATL_pcol2blk.c

src/blas/pklevel3/gpmm/ATL_pmmJIK.c

src/blas/pklevel3/gpmm/ATL_pputblk.c

src/blas/pklevel3/gpmm/ATL_prankK.c

src/blas/pklevel3/gpmm/ATL_prow2blkT.c

src/blas/pklevel3/sprk/ATL_cpputblk_aX.c

src/blas/pklevel3/sprk/ATL_cprk_kmm.c

src/blas/pklevel3/sprk/ATL_hprk.c

src/blas/pklevel3/sprk/ATL_hprk_rK.c

src/blas/pklevel3/sprk/ATL_phk_kmm.c

src/blas/pklevel3/sprk/ATL_pputblk_aX.c

src/blas/pklevel3/sprk/ATL_prk_kmm.c

src/blas/pklevel3/sprk/ATL_sprk.c

src/blas/pklevel3/sprk/ATL_sprk_rK.c

src/blas/reference/level1/ATL_crefaxpy.c

src/blas/reference/level1/ATL_crefcopy.c

src/blas/reference/level1/ATL_crefdotc_sub.c

src/blas/reference/level1/ATL_crefdotu_sub.c

src/blas/reference/level1/ATL_crefrotg.c

src/blas/reference/level1/ATL_crefscal.c

src/blas/reference/level1/ATL_crefswap.c

src/blas/reference/level1/ATL_csrefrot.c

src/blas/reference/level1/ATL_csrefscal.c

src/blas/reference/level1/ATL_drefasum.c

src/blas/reference/level1/ATL_drefaxpy.c

src/blas/reference/level1/ATL_drefcopy.c

src/blas/reference/level1/ATL_drefdot.c

src/blas/reference/level1/ATL_drefnrm2.c

src/blas/reference/level1/ATL_drefrot.c

src/blas/reference/level1/ATL_drefrotg.c

src/blas/reference/level1/ATL_drefrotm.c

src/blas/reference/level1/ATL_drefrotmg.c

src/blas/reference/level1/ATL_drefscal.c

src/blas/reference/level1/ATL_drefswap.c

src/blas/reference/level1/ATL_dsrefdot.c

src/blas/reference/level1/ATL_dzrefasum.c

src/blas/reference/level1/ATL_dzrefnrm2.c

src/blas/reference/level1/ATL_icrefamax.c

src/blas/reference/level1/ATL_idrefamax.c

src/blas/reference/level1/ATL_isrefamax.c

src/blas/reference/level1/ATL_izrefamax.c

src/blas/reference/level1/ATL_screfasum.c

src/blas/reference/level1/ATL_screfnrm2.c

src/blas/reference/level1/ATL_sdsrefdot.c

src/blas/reference/level1/ATL_srefasum.c

src/blas/reference/level1/ATL_srefaxpy.c

src/blas/reference/level1/ATL_srefcopy.c

src/blas/reference/level1/ATL_srefdot.c

src/blas/reference/level1/ATL_srefnrm2.c

src/blas/reference/level1/ATL_srefrot.c

src/blas/reference/level1/ATL_srefrotg.c

src/blas/reference/level1/ATL_srefrotm.c

src/blas/reference/level1/ATL_srefrotmg.c

src/blas/reference/level1/ATL_srefscal.c

src/blas/reference/level1/ATL_srefswap.c

src/blas/reference/level1/ATL_zdrefrot.c

src/blas/reference/level1/ATL_zdrefscal.c

src/blas/reference/level1/ATL_zrefaxpy.c

src/blas/reference/level1/ATL_zrefcopy.c

src/blas/reference/level1/ATL_zrefdotc_sub.c

src/blas/reference/level1/ATL_zrefdotu_sub.c

src/blas/reference/level1/ATL_zrefrotg.c

src/blas/reference/level1/ATL_zrefscal.c

src/blas/reference/level1/ATL_zrefswap.c

src/blas/reference/level2/ATL_crefgbmv.c

src/blas/reference/level2/ATL_crefgbmvC.c

src/blas/reference/level2/ATL_crefgbmvH.c

src/blas/reference/level2/ATL_crefgbmvN.c

src/blas/reference/level2/ATL_crefgbmvT.c

src/blas/reference/level2/ATL_crefgemv.c

src/blas/reference/level2/ATL_crefgemvC.c

src/blas/reference/level2/ATL_crefgemvH.c

src/blas/reference/level2/ATL_crefgemvN.c

src/blas/reference/level2/ATL_crefgemvT.c

src/blas/reference/level2/ATL_crefgerc.c

src/blas/reference/level2/ATL_crefgeru.c

src/blas/reference/level2/ATL_crefgpmv.c

src/blas/reference/level2/ATL_crefgpmvLC.c

src/blas/reference/level2/ATL_crefgpmvLH.c

src/blas/reference/level2/ATL_crefgpmvLN.c

src/blas/reference/level2/ATL_crefgpmvLT.c

src/blas/reference/level2/ATL_crefgpmvUC.c

src/blas/reference/level2/ATL_crefgpmvUH.c

src/blas/reference/level2/ATL_crefgpmvUN.c

src/blas/reference/level2/ATL_crefgpmvUT.c

src/blas/reference/level2/ATL_crefgprc.c

src/blas/reference/level2/ATL_crefgpru.c

src/blas/reference/level2/ATL_crefhbmv.c

src/blas/reference/level2/ATL_crefhbmvL.c

src/blas/reference/level2/ATL_crefhbmvU.c

src/blas/reference/level2/ATL_crefhemv.c

src/blas/reference/level2/ATL_crefhemvL.c

src/blas/reference/level2/ATL_crefhemvU.c

src/blas/reference/level2/ATL_crefher.c

src/blas/reference/level2/ATL_crefher2.c

src/blas/reference/level2/ATL_crefher2L.c

src/blas/reference/level2/ATL_crefher2U.c

src/blas/reference/level2/ATL_crefherL.c

src/blas/reference/level2/ATL_crefherU.c

src/blas/reference/level2/ATL_crefhpmv.c

src/blas/reference/level2/ATL_crefhpmvL.c

src/blas/reference/level2/ATL_crefhpmvU.c

src/blas/reference/level2/ATL_crefhpr.c

src/blas/reference/level2/ATL_crefhpr2.c

src/blas/reference/level2/ATL_crefhpr2L.c

src/blas/reference/level2/ATL_crefhpr2U.c

src/blas/reference/level2/ATL_crefhprL.c

src/blas/reference/level2/ATL_crefhprU.c

src/blas/reference/level2/ATL_creftbmv.c

src/blas/reference/level2/ATL_creftbmvLCN.c

src/blas/reference/level2/ATL_creftbmvLCU.c

src/blas/reference/level2/ATL_creftbmvLHN.c

src/blas/reference/level2/ATL_creftbmvLHU.c

src/blas/reference/level2/ATL_creftbmvLNN.c

src/blas/reference/level2/ATL_creftbmvLNU.c

src/blas/reference/level2/ATL_creftbmvLTN.c

src/blas/reference/level2/ATL_creftbmvLTU.c

src/blas/reference/level2/ATL_creftbmvUCN.c

src/blas/reference/level2/ATL_creftbmvUCU.c

src/blas/reference/level2/ATL_creftbmvUHN.c

src/blas/reference/level2/ATL_creftbmvUHU.c

src/blas/reference/level2/ATL_creftbmvUNN.c

src/blas/reference/level2/ATL_creftbmvUNU.c

src/blas/reference/level2/ATL_creftbmvUTN.c

src/blas/reference/level2/ATL_creftbmvUTU.c

src/blas/reference/level2/ATL_creftbsv.c

src/blas/reference/level2/ATL_creftbsvLCN.c

src/blas/reference/level2/ATL_creftbsvLCU.c

src/blas/reference/level2/ATL_creftbsvLHN.c

src/blas/reference/level2/ATL_creftbsvLHU.c

src/blas/reference/level2/ATL_creftbsvLNN.c

src/blas/reference/level2/ATL_creftbsvLNU.c

src/blas/reference/level2/ATL_creftbsvLTN.c

src/blas/reference/level2/ATL_creftbsvLTU.c

src/blas/reference/level2/ATL_creftbsvUCN.c

src/blas/reference/level2/ATL_creftbsvUCU.c

src/blas/reference/level2/ATL_creftbsvUHN.c

src/blas/reference/level2/ATL_creftbsvUHU.c

src/blas/reference/level2/ATL_creftbsvUNN.c

src/blas/reference/level2/ATL_creftbsvUNU.c

src/blas/reference/level2/ATL_creftbsvUTN.c

src/blas/reference/level2/ATL_creftbsvUTU.c

src/blas/reference/level2/ATL_creftpmv.c

src/blas/reference/level2/ATL_creftpmvLCN.c

src/blas/reference/level2/ATL_creftpmvLCU.c

src/blas/reference/level2/ATL_creftpmvLHN.c

src/blas/reference/level2/ATL_creftpmvLHU.c

src/blas/reference/level2/ATL_creftpmvLNN.c

src/blas/reference/level2/ATL_creftpmvLNU.c

src/blas/reference/level2/ATL_creftpmvLTN.c

src/blas/reference/level2/ATL_creftpmvLTU.c

src/blas/reference/level2/ATL_creftpmvUCN.c

src/blas/reference/level2/ATL_creftpmvUCU.c

src/blas/reference/level2/ATL_creftpmvUHN.c

src/blas/reference/level2/ATL_creftpmvUHU.c

src/blas/reference/level2/ATL_creftpmvUNN.c

src/blas/reference/level2/ATL_creftpmvUNU.c

src/blas/reference/level2/ATL_creftpmvUTN.c

src/blas/reference/level2/ATL_creftpmvUTU.c

src/blas/reference/level2/ATL_creftpsv.c

src/blas/reference/level2/ATL_creftpsvLCN.c

src/blas/reference/level2/ATL_creftpsvLCU.c

src/blas/reference/level2/ATL_creftpsvLHN.c

src/blas/reference/level2/ATL_creftpsvLHU.c

src/blas/reference/level2/ATL_creftpsvLNN.c

src/blas/reference/level2/ATL_creftpsvLNU.c

src/blas/reference/level2/ATL_creftpsvLTN.c

src/blas/reference/level2/ATL_creftpsvLTU.c

src/blas/reference/level2/ATL_creftpsvUCN.c

src/blas/reference/level2/ATL_creftpsvUCU.c

src/blas/reference/level2/ATL_creftpsvUHN.c

src/blas/reference/level2/ATL_creftpsvUHU.c

src/blas/reference/level2/ATL_creftpsvUNN.c

src/blas/reference/level2/ATL_creftpsvUNU.c

src/blas/reference/level2/ATL_creftpsvUTN.c

src/blas/reference/level2/ATL_creftpsvUTU.c

src/blas/reference/level2/ATL_creftrmv.c

src/blas/reference/level2/ATL_creftrmvLCN.c

src/blas/reference/level2/ATL_creftrmvLCU.c

src/blas/reference/level2/ATL_creftrmvLHN.c

src/blas/reference/level2/ATL_creftrmvLHU.c

src/blas/reference/level2/ATL_creftrmvLNN.c

src/blas/reference/level2/ATL_creftrmvLNU.c

src/blas/reference/level2/ATL_creftrmvLTN.c

src/blas/reference/level2/ATL_creftrmvLTU.c

src/blas/reference/level2/ATL_creftrmvUCN.c

src/blas/reference/level2/ATL_creftrmvUCU.c

src/blas/reference/level2/ATL_creftrmvUHN.c

src/blas/reference/level2/ATL_creftrmvUHU.c

src/blas/reference/level2/ATL_creftrmvUNN.c

src/blas/reference/level2/ATL_creftrmvUNU.c

src/blas/reference/level2/ATL_creftrmvUTN.c

src/blas/reference/level2/ATL_creftrmvUTU.c

src/blas/reference/level2/ATL_creftrsv.c

src/blas/reference/level2/ATL_creftrsvLCN.c

src/blas/reference/level2/ATL_creftrsvLCU.c

src/blas/reference/level2/ATL_creftrsvLHN.c

src/blas/reference/level2/ATL_creftrsvLHU.c

src/blas/reference/level2/ATL_creftrsvLNN.c

src/blas/reference/level2/ATL_creftrsvLNU.c

src/blas/reference/level2/ATL_creftrsvLTN.c

src/blas/reference/level2/ATL_creftrsvLTU.c

src/blas/reference/level2/ATL_creftrsvUCN.c

src/blas/reference/level2/ATL_creftrsvUCU.c

src/blas/reference/level2/ATL_creftrsvUHN.c

src/blas/reference/level2/ATL_creftrsvUHU.c

src/blas/reference/level2/ATL_creftrsvUNN.c

src/blas/reference/level2/ATL_creftrsvUNU.c

src/blas/reference/level2/ATL_creftrsvUTN.c

src/blas/reference/level2/ATL_creftrsvUTU.c

src/blas/reference/level2/ATL_drefgbmv.c

src/blas/reference/level2/ATL_drefgbmvN.c

src/blas/reference/level2/ATL_drefgbmvT.c

src/blas/reference/level2/ATL_drefgemv.c

src/blas/reference/level2/ATL_drefgemvN.c

src/blas/reference/level2/ATL_drefgemvT.c

src/blas/reference/level2/ATL_drefger.c

src/blas/reference/level2/ATL_drefgpmv.c

src/blas/reference/level2/ATL_drefgpmvLN.c

src/blas/reference/level2/ATL_drefgpmvLT.c

src/blas/reference/level2/ATL_drefgpmvUN.c

src/blas/reference/level2/ATL_drefgpmvUT.c

src/blas/reference/level2/ATL_drefgpr.c

src/blas/reference/level2/ATL_drefsbmv.c

src/blas/reference/level2/ATL_drefsbmvL.c

src/blas/reference/level2/ATL_drefsbmvU.c

src/blas/reference/level2/ATL_drefspmv.c

src/blas/reference/level2/ATL_drefspmvL.c

src/blas/reference/level2/ATL_drefspmvU.c

src/blas/reference/level2/ATL_drefspr.c

src/blas/reference/level2/ATL_drefspr2.c

src/blas/reference/level2/ATL_drefspr2L.c

src/blas/reference/level2/ATL_drefspr2U.c

src/blas/reference/level2/ATL_drefsprL.c

src/blas/reference/level2/ATL_drefsprU.c

src/blas/reference/level2/ATL_drefsymv.c

src/blas/reference/level2/ATL_drefsymvL.c

src/blas/reference/level2/ATL_drefsymvU.c

src/blas/reference/level2/ATL_drefsyr.c

src/blas/reference/level2/ATL_drefsyr2.c

src/blas/reference/level2/ATL_drefsyr2L.c

src/blas/reference/level2/ATL_drefsyr2U.c

src/blas/reference/level2/ATL_drefsyrL.c

src/blas/reference/level2/ATL_drefsyrU.c

src/blas/reference/level2/ATL_dreftbmv.c

src/blas/reference/level2/ATL_dreftbmvLNN.c

src/blas/reference/level2/ATL_dreftbmvLNU.c

src/blas/reference/level2/ATL_dreftbmvLTN.c

src/blas/reference/level2/ATL_dreftbmvLTU.c

src/blas/reference/level2/ATL_dreftbmvUNN.c

src/blas/reference/level2/ATL_dreftbmvUNU.c

src/blas/reference/level2/ATL_dreftbmvUTN.c

src/blas/reference/level2/ATL_dreftbmvUTU.c

src/blas/reference/level2/ATL_dreftbsv.c

src/blas/reference/level2/ATL_dreftbsvLNN.c

src/blas/reference/level2/ATL_dreftbsvLNU.c

src/blas/reference/level2/ATL_dreftbsvLTN.c

src/blas/reference/level2/ATL_dreftbsvLTU.c

src/blas/reference/level2/ATL_dreftbsvUNN.c

src/blas/reference/level2/ATL_dreftbsvUNU.c

src/blas/reference/level2/ATL_dreftbsvUTN.c

src/blas/reference/level2/ATL_dreftbsvUTU.c

src/blas/reference/level2/ATL_dreftpmv.c

src/blas/reference/level2/ATL_dreftpmvLNN.c

src/blas/reference/level2/ATL_dreftpmvLNU.c

src/blas/reference/level2/ATL_dreftpmvLTN.c

src/blas/reference/level2/ATL_dreftpmvLTU.c

src/blas/reference/level2/ATL_dreftpmvUNN.c

src/blas/reference/level2/ATL_dreftpmvUNU.c

src/blas/reference/level2/ATL_dreftpmvUTN.c

src/blas/reference/level2/ATL_dreftpmvUTU.c

src/blas/reference/level2/ATL_dreftpsv.c

src/blas/reference/level2/ATL_dreftpsvLNN.c

src/blas/reference/level2/ATL_dreftpsvLNU.c

src/blas/reference/level2/ATL_dreftpsvLTN.c

src/blas/reference/level2/ATL_dreftpsvLTU.c

src/blas/reference/level2/ATL_dreftpsvUNN.c

src/blas/reference/level2/ATL_dreftpsvUNU.c

src/blas/reference/level2/ATL_dreftpsvUTN.c

src/blas/reference/level2/ATL_dreftpsvUTU.c

src/blas/reference/level2/ATL_dreftrmv.c

src/blas/reference/level2/ATL_dreftrmvLNN.c

src/blas/reference/level2/ATL_dreftrmvLNU.c

src/blas/reference/level2/ATL_dreftrmvLTN.c

src/blas/reference/level2/ATL_dreftrmvLTU.c

src/blas/reference/level2/ATL_dreftrmvUNN.c

src/blas/reference/level2/ATL_dreftrmvUNU.c

src/blas/reference/level2/ATL_dreftrmvUTN.c

src/blas/reference/level2/ATL_dreftrmvUTU.c

src/blas/reference/level2/ATL_dreftrsv.c

src/blas/reference/level2/ATL_dreftrsvLNN.c

src/blas/reference/level2/ATL_dreftrsvLNU.c

src/blas/reference/level2/ATL_dreftrsvLTN.c

src/blas/reference/level2/ATL_dreftrsvLTU.c

src/blas/reference/level2/ATL_dreftrsvUNN.c

src/blas/reference/level2/ATL_dreftrsvUNU.c

src/blas/reference/level2/ATL_dreftrsvUTN.c

src/blas/reference/level2/ATL_dreftrsvUTU.c

src/blas/reference/level2/ATL_srefgbmv.c

src/blas/reference/level2/ATL_srefgbmvN.c

src/blas/reference/level2/ATL_srefgbmvT.c

src/blas/reference/level2/ATL_srefgemv.c

src/blas/reference/level2/ATL_srefgemvN.c

src/blas/reference/level2/ATL_srefgemvT.c

src/blas/reference/level2/ATL_srefger.c

src/blas/reference/level2/ATL_srefgpmv.c

src/blas/reference/level2/ATL_srefgpmvLN.c

src/blas/reference/level2/ATL_srefgpmvLT.c

src/blas/reference/level2/ATL_srefgpmvUN.c

src/blas/reference/level2/ATL_srefgpmvUT.c

src/blas/reference/level2/ATL_srefgpr.c

src/blas/reference/level2/ATL_srefsbmv.c

src/blas/reference/level2/ATL_srefsbmvL.c

src/blas/reference/level2/ATL_srefsbmvU.c

src/blas/reference/level2/ATL_srefspmv.c

src/blas/reference/level2/ATL_srefspmvL.c

src/blas/reference/level2/ATL_srefspmvU.c

src/blas/reference/level2/ATL_srefspr.c

src/blas/reference/level2/ATL_srefspr2.c

src/blas/reference/level2/ATL_srefspr2L.c

src/blas/reference/level2/ATL_srefspr2U.c

src/blas/reference/level2/ATL_srefsprL.c

src/blas/reference/level2/ATL_srefsprU.c

src/blas/reference/level2/ATL_srefsymv.c

src/blas/reference/level2/ATL_srefsymvL.c

src/blas/reference/level2/ATL_srefsymvU.c

src/blas/reference/level2/ATL_srefsyr.c

src/blas/reference/level2/ATL_srefsyr2.c

src/blas/reference/level2/ATL_srefsyr2L.c

src/blas/reference/level2/ATL_srefsyr2U.c

src/blas/reference/level2/ATL_srefsyrL.c

src/blas/reference/level2/ATL_srefsyrU.c

src/blas/reference/level2/ATL_sreftbmv.c

src/blas/reference/level2/ATL_sreftbmvLNN.c

src/blas/reference/level2/ATL_sreftbmvLNU.c

src/blas/reference/level2/ATL_sreftbmvLTN.c

src/blas/reference/level2/ATL_sreftbmvLTU.c

src/blas/reference/level2/ATL_sreftbmvUNN.c

src/blas/reference/level2/ATL_sreftbmvUNU.c

src/blas/reference/level2/ATL_sreftbmvUTN.c

src/blas/reference/level2/ATL_sreftbmvUTU.c

src/blas/reference/level2/ATL_sreftbsv.c

src/blas/reference/level2/ATL_sreftbsvLNN.c

src/blas/reference/level2/ATL_sreftbsvLNU.c

src/blas/reference/level2/ATL_sreftbsvLTN.c

src/blas/reference/level2/ATL_sreftbsvLTU.c

src/blas/reference/level2/ATL_sreftbsvUNN.c

src/blas/reference/level2/ATL_sreftbsvUNU.c

src/blas/reference/level2/ATL_sreftbsvUTN.c

src/blas/reference/level2/ATL_sreftbsvUTU.c

src/blas/reference/level2/ATL_sreftpmv.c

src/blas/reference/level2/ATL_sreftpmvLNN.c

src/blas/reference/level2/ATL_sreftpmvLNU.c

src/blas/reference/level2/ATL_sreftpmvLTN.c

src/blas/reference/level2/ATL_sreftpmvLTU.c

src/blas/reference/level2/ATL_sreftpmvUNN.c

src/blas/reference/level2/ATL_sreftpmvUNU.c

src/blas/reference/level2/ATL_sreftpmvUTN.c

src/blas/reference/level2/ATL_sreftpmvUTU.c

src/blas/reference/level2/ATL_sreftpsv.c

src/blas/reference/level2/ATL_sreftpsvLNN.c

src/blas/reference/level2/ATL_sreftpsvLNU.c

src/blas/reference/level2/ATL_sreftpsvLTN.c

src/blas/reference/level2/ATL_sreftpsvLTU.c

src/blas/reference/level2/ATL_sreftpsvUNN.c

src/blas/reference/level2/ATL_sreftpsvUNU.c

src/blas/reference/level2/ATL_sreftpsvUTN.c

src/blas/reference/level2/ATL_sreftpsvUTU.c

src/blas/reference/level2/ATL_sreftrmv.c

src/blas/reference/level2/ATL_sreftrmvLNN.c

src/blas/reference/level2/ATL_sreftrmvLNU.c

src/blas/reference/level2/ATL_sreftrmvLTN.c

src/blas/reference/level2/ATL_sreftrmvLTU.c

src/blas/reference/level2/ATL_sreftrmvUNN.c

src/blas/reference/level2/ATL_sreftrmvUNU.c

src/blas/reference/level2/ATL_sreftrmvUTN.c

src/blas/reference/level2/ATL_sreftrmvUTU.c

src/blas/reference/level2/ATL_sreftrsv.c

src/blas/reference/level2/ATL_sreftrsvLNN.c

src/blas/reference/level2/ATL_sreftrsvLNU.c

src/blas/reference/level2/ATL_sreftrsvLTN.c

src/blas/reference/level2/ATL_sreftrsvLTU.c

src/blas/reference/level2/ATL_sreftrsvUNN.c

src/blas/reference/level2/ATL_sreftrsvUNU.c

src/blas/reference/level2/ATL_sreftrsvUTN.c

src/blas/reference/level2/ATL_sreftrsvUTU.c

src/blas/reference/level2/ATL_zrefgbmv.c

src/blas/reference/level2/ATL_zrefgbmvC.c

src/blas/reference/level2/ATL_zrefgbmvH.c

src/blas/reference/level2/ATL_zrefgbmvN.c

src/blas/reference/level2/ATL_zrefgbmvT.c

src/blas/reference/level2/ATL_zrefgemv.c

src/blas/reference/level2/ATL_zrefgemvC.c

src/blas/reference/level2/ATL_zrefgemvH.c

src/blas/reference/level2/ATL_zrefgemvN.c

src/blas/reference/level2/ATL_zrefgemvT.c

src/blas/reference/level2/ATL_zrefgerc.c

src/blas/reference/level2/ATL_zrefgeru.c

src/blas/reference/level2/ATL_zrefgpmv.c

src/blas/reference/level2/ATL_zrefgpmvLC.c

src/blas/reference/level2/ATL_zrefgpmvLH.c

src/blas/reference/level2/ATL_zrefgpmvLN.c

src/blas/reference/level2/ATL_zrefgpmvLT.c

src/blas/reference/level2/ATL_zrefgpmvUC.c

src/blas/reference/level2/ATL_zrefgpmvUH.c

src/blas/reference/level2/ATL_zrefgpmvUN.c

src/blas/reference/level2/ATL_zrefgpmvUT.c

src/blas/reference/level2/ATL_zrefgprc.c

src/blas/reference/level2/ATL_zrefgpru.c

src/blas/reference/level2/ATL_zrefhbmv.c

src/blas/reference/level2/ATL_zrefhbmvL.c

src/blas/reference/level2/ATL_zrefhbmvU.c

src/blas/reference/level2/ATL_zrefhemv.c

src/blas/reference/level2/ATL_zrefhemvL.c

src/blas/reference/level2/ATL_zrefhemvU.c

src/blas/reference/level2/ATL_zrefher.c

src/blas/reference/level2/ATL_zrefher2.c

src/blas/reference/level2/ATL_zrefher2L.c

src/blas/reference/level2/ATL_zrefher2U.c

src/blas/reference/level2/ATL_zrefherL.c

src/blas/reference/level2/ATL_zrefherU.c

src/blas/reference/level2/ATL_zrefhpmv.c

src/blas/reference/level2/ATL_zrefhpmvL.c

src/blas/reference/level2/ATL_zrefhpmvU.c

src/blas/reference/level2/ATL_zrefhpr.c

src/blas/reference/level2/ATL_zrefhpr2.c

src/blas/reference/level2/ATL_zrefhpr2L.c

src/blas/reference/level2/ATL_zrefhpr2U.c

src/blas/reference/level2/ATL_zrefhprL.c

src/blas/reference/level2/ATL_zrefhprU.c

src/blas/reference/level2/ATL_zreftbmv.c

src/blas/reference/level2/ATL_zreftbmvLCN.c

src/blas/reference/level2/ATL_zreftbmvLCU.c

src/blas/reference/level2/ATL_zreftbmvLHN.c

src/blas/reference/level2/ATL_zreftbmvLHU.c

src/blas/reference/level2/ATL_zreftbmvLNN.c

src/blas/reference/level2/ATL_zreftbmvLNU.c

src/blas/reference/level2/ATL_zreftbmvLTN.c

src/blas/reference/level2/ATL_zreftbmvLTU.c

src/blas/reference/level2/ATL_zreftbmvUCN.c

src/blas/reference/level2/ATL_zreftbmvUCU.c

src/blas/reference/level2/ATL_zreftbmvUHN.c

src/blas/reference/level2/ATL_zreftbmvUHU.c

src/blas/reference/level2/ATL_zreftbmvUNN.c

src/blas/reference/level2/ATL_zreftbmvUNU.c

src/blas/reference/level2/ATL_zreftbmvUTN.c

src/blas/reference/level2/ATL_zreftbmvUTU.c

src/blas/reference/level2/ATL_zreftbsv.c

src/blas/reference/level2/ATL_zreftbsvLCN.c

src/blas/reference/level2/ATL_zreftbsvLCU.c

src/blas/reference/level2/ATL_zreftbsvLHN.c

src/blas/reference/level2/ATL_zreftbsvLHU.c

src/blas/reference/level2/ATL_zreftbsvLNN.c

src/blas/reference/level2/ATL_zreftbsvLNU.c

src/blas/reference/level2/ATL_zreftbsvLTN.c

src/blas/reference/level2/ATL_zreftbsvLTU.c

src/blas/reference/level2/ATL_zreftbsvUCN.c

src/blas/reference/level2/ATL_zreftbsvUCU.c

src/blas/reference/level2/ATL_zreftbsvUHN.c

src/blas/reference/level2/ATL_zreftbsvUHU.c

src/blas/reference/level2/ATL_zreftbsvUNN.c

src/blas/reference/level2/ATL_zreftbsvUNU.c

src/blas/reference/level2/ATL_zreftbsvUTN.c

src/blas/reference/level2/ATL_zreftbsvUTU.c

src/blas/reference/level2/ATL_zreftpmv.c

src/blas/reference/level2/ATL_zreftpmvLCN.c

src/blas/reference/level2/ATL_zreftpmvLCU.c

src/blas/reference/level2/ATL_zreftpmvLHN.c

src/blas/reference/level2/ATL_zreftpmvLHU.c

src/blas/reference/level2/ATL_zreftpmvLNN.c

src/blas/reference/level2/ATL_zreftpmvLNU.c

src/blas/reference/level2/ATL_zreftpmvLTN.c

src/blas/reference/level2/ATL_zreftpmvLTU.c

src/blas/reference/level2/ATL_zreftpmvUCN.c

src/blas/reference/level2/ATL_zreftpmvUCU.c

src/blas/reference/level2/ATL_zreftpmvUHN.c

src/blas/reference/level2/ATL_zreftpmvUHU.c

src/blas/reference/level2/ATL_zreftpmvUNN.c

src/blas/reference/level2/ATL_zreftpmvUNU.c

src/blas/reference/level2/ATL_zreftpmvUTN.c

src/blas/reference/level2/ATL_zreftpmvUTU.c

src/blas/reference/level2/ATL_zreftpsv.c

src/blas/reference/level2/ATL_zreftpsvLCN.c

src/blas/reference/level2/ATL_zreftpsvLCU.c

src/blas/reference/level2/ATL_zreftpsvLHN.c

src/blas/reference/level2/ATL_zreftpsvLHU.c

src/blas/reference/level2/ATL_zreftpsvLNN.c

src/blas/reference/level2/ATL_zreftpsvLNU.c

src/blas/reference/level2/ATL_zreftpsvLTN.c

src/blas/reference/level2/ATL_zreftpsvLTU.c

src/blas/reference/level2/ATL_zreftpsvUCN.c

src/blas/reference/level2/ATL_zreftpsvUCU.c

src/blas/reference/level2/ATL_zreftpsvUHN.c

src/blas/reference/level2/ATL_zreftpsvUHU.c

src/blas/reference/level2/ATL_zreftpsvUNN.c

src/blas/reference/level2/ATL_zreftpsvUNU.c

src/blas/reference/level2/ATL_zreftpsvUTN.c

src/blas/reference/level2/ATL_zreftpsvUTU.c

src/blas/reference/level2/ATL_zreftrmv.c

src/blas/reference/level2/ATL_zreftrmvLCN.c

src/blas/reference/level2/ATL_zreftrmvLCU.c

src/blas/reference/level2/ATL_zreftrmvLHN.c

src/blas/reference/level2/ATL_zreftrmvLHU.c

src/blas/reference/level2/ATL_zreftrmvLNN.c

src/blas/reference/level2/ATL_zreftrmvLNU.c

src/blas/reference/level2/ATL_zreftrmvLTN.c

src/blas/reference/level2/ATL_zreftrmvLTU.c

src/blas/reference/level2/ATL_zreftrmvUCN.c

src/blas/reference/level2/ATL_zreftrmvUCU.c

src/blas/reference/level2/ATL_zreftrmvUHN.c

src/blas/reference/level2/ATL_zreftrmvUHU.c

src/blas/reference/level2/ATL_zreftrmvUNN.c

src/blas/reference/level2/ATL_zreftrmvUNU.c

src/blas/reference/level2/ATL_zreftrmvUTN.c

src/blas/reference/level2/ATL_zreftrmvUTU.c

src/blas/reference/level2/ATL_zreftrsv.c

src/blas/reference/level2/ATL_zreftrsvLCN.c

src/blas/reference/level2/ATL_zreftrsvLCU.c

src/blas/reference/level2/ATL_zreftrsvLHN.c

src/blas/reference/level2/ATL_zreftrsvLHU.c

src/blas/reference/level2/ATL_zreftrsvLNN.c

src/blas/reference/level2/ATL_zreftrsvLNU.c

src/blas/reference/level2/ATL_zreftrsvLTN.c

src/blas/reference/level2/ATL_zreftrsvLTU.c

src/blas/reference/level2/ATL_zreftrsvUCN.c

src/blas/reference/level2/ATL_zreftrsvUCU.c

src/blas/reference/level2/ATL_zreftrsvUHN.c

src/blas/reference/level2/ATL_zreftrsvUHU.c

src/blas/reference/level2/ATL_zreftrsvUNN.c

src/blas/reference/level2/ATL_zreftrsvUNU.c

src/blas/reference/level2/ATL_zreftrsvUTN.c

src/blas/reference/level2/ATL_zreftrsvUTU.c

src/blas/reference/level3/ATL_crefgemm.c

src/blas/reference/level3/ATL_crefgemmCC.c

src/blas/reference/level3/ATL_crefgemmCN.c

src/blas/reference/level3/ATL_crefgemmCT.c

src/blas/reference/level3/ATL_crefgemmNC.c

src/blas/reference/level3/ATL_crefgemmNN.c

src/blas/reference/level3/ATL_crefgemmNT.c

src/blas/reference/level3/ATL_crefgemmTC.c

src/blas/reference/level3/ATL_crefgemmTN.c

src/blas/reference/level3/ATL_crefgemmTT.c

src/blas/reference/level3/ATL_crefhemm.c

src/blas/reference/level3/ATL_crefhemmLL.c

src/blas/reference/level3/ATL_crefhemmLU.c

src/blas/reference/level3/ATL_crefhemmRL.c

src/blas/reference/level3/ATL_crefhemmRU.c

src/blas/reference/level3/ATL_crefher2k.c

src/blas/reference/level3/ATL_crefher2kLC.c

src/blas/reference/level3/ATL_crefher2kLN.c

src/blas/reference/level3/ATL_crefher2kUC.c

src/blas/reference/level3/ATL_crefher2kUN.c

src/blas/reference/level3/ATL_crefherk.c

src/blas/reference/level3/ATL_crefherkLC.c

src/blas/reference/level3/ATL_crefherkLN.c

src/blas/reference/level3/ATL_crefherkUC.c

src/blas/reference/level3/ATL_crefherkUN.c

src/blas/reference/level3/ATL_crefsymm.c

src/blas/reference/level3/ATL_crefsymmLL.c

src/blas/reference/level3/ATL_crefsymmLU.c

src/blas/reference/level3/ATL_crefsymmRL.c

src/blas/reference/level3/ATL_crefsymmRU.c

src/blas/reference/level3/ATL_crefsyr2k.c

src/blas/reference/level3/ATL_crefsyr2kLN.c

src/blas/reference/level3/ATL_crefsyr2kLT.c

src/blas/reference/level3/ATL_crefsyr2kUN.c

src/blas/reference/level3/ATL_crefsyr2kUT.c

src/blas/reference/level3/ATL_crefsyrk.c

src/blas/reference/level3/ATL_crefsyrkLN.c

src/blas/reference/level3/ATL_crefsyrkLT.c

src/blas/reference/level3/ATL_crefsyrkUN.c

src/blas/reference/level3/ATL_crefsyrkUT.c

src/blas/reference/level3/ATL_creftrmm.c

src/blas/reference/level3/ATL_creftrmmLLCN.c

src/blas/reference/level3/ATL_creftrmmLLCU.c

src/blas/reference/level3/ATL_creftrmmLLNN.c

src/blas/reference/level3/ATL_creftrmmLLNU.c

src/blas/reference/level3/ATL_creftrmmLLTN.c

src/blas/reference/level3/ATL_creftrmmLLTU.c

src/blas/reference/level3/ATL_creftrmmLUCN.c

src/blas/reference/level3/ATL_creftrmmLUCU.c

src/blas/reference/level3/ATL_creftrmmLUNN.c

src/blas/reference/level3/ATL_creftrmmLUNU.c

src/blas/reference/level3/ATL_creftrmmLUTN.c

src/blas/reference/level3/ATL_creftrmmLUTU.c

src/blas/reference/level3/ATL_creftrmmRLCN.c

src/blas/reference/level3/ATL_creftrmmRLCU.c

src/blas/reference/level3/ATL_creftrmmRLNN.c

src/blas/reference/level3/ATL_creftrmmRLNU.c

src/blas/reference/level3/ATL_creftrmmRLTN.c

src/blas/reference/level3/ATL_creftrmmRLTU.c

src/blas/reference/level3/ATL_creftrmmRUCN.c

src/blas/reference/level3/ATL_creftrmmRUCU.c

src/blas/reference/level3/ATL_creftrmmRUNN.c

src/blas/reference/level3/ATL_creftrmmRUNU.c

src/blas/reference/level3/ATL_creftrmmRUTN.c

src/blas/reference/level3/ATL_creftrmmRUTU.c

src/blas/reference/level3/ATL_creftrsm.c

src/blas/reference/level3/ATL_creftrsmLLCN.c

src/blas/reference/level3/ATL_creftrsmLLCU.c

src/blas/reference/level3/ATL_creftrsmLLNN.c

src/blas/reference/level3/ATL_creftrsmLLNU.c

src/blas/reference/level3/ATL_creftrsmLLTN.c

src/blas/reference/level3/ATL_creftrsmLLTU.c

src/blas/reference/level3/ATL_creftrsmLUCN.c

src/blas/reference/level3/ATL_creftrsmLUCU.c

src/blas/reference/level3/ATL_creftrsmLUNN.c

src/blas/reference/level3/ATL_creftrsmLUNU.c

src/blas/reference/level3/ATL_creftrsmLUTN.c

src/blas/reference/level3/ATL_creftrsmLUTU.c

src/blas/reference/level3/ATL_creftrsmRLCN.c

src/blas/reference/level3/ATL_creftrsmRLCU.c

src/blas/reference/level3/ATL_creftrsmRLNN.c

src/blas/reference/level3/ATL_creftrsmRLNU.c

src/blas/reference/level3/ATL_creftrsmRLTN.c

src/blas/reference/level3/ATL_creftrsmRLTU.c

src/blas/reference/level3/ATL_creftrsmRUCN.c

src/blas/reference/level3/ATL_creftrsmRUCU.c

src/blas/reference/level3/ATL_creftrsmRUNN.c

src/blas/reference/level3/ATL_creftrsmRUNU.c

src/blas/reference/level3/ATL_creftrsmRUTN.c

src/blas/reference/level3/ATL_creftrsmRUTU.c

src/blas/reference/level3/ATL_drefgemm.c

src/blas/reference/level3/ATL_drefgemmNN.c

src/blas/reference/level3/ATL_drefgemmNT.c

src/blas/reference/level3/ATL_drefgemmTN.c

src/blas/reference/level3/ATL_drefgemmTT.c

src/blas/reference/level3/ATL_drefsymm.c

src/blas/reference/level3/ATL_drefsymmLL.c

src/blas/reference/level3/ATL_drefsymmLU.c

src/blas/reference/level3/ATL_drefsymmRL.c

src/blas/reference/level3/ATL_drefsymmRU.c

src/blas/reference/level3/ATL_drefsyr2k.c

src/blas/reference/level3/ATL_drefsyr2kLN.c

src/blas/reference/level3/ATL_drefsyr2kLT.c

src/blas/reference/level3/ATL_drefsyr2kUN.c

src/blas/reference/level3/ATL_drefsyr2kUT.c

src/blas/reference/level3/ATL_drefsyrk.c

src/blas/reference/level3/ATL_drefsyrkLN.c

src/blas/reference/level3/ATL_drefsyrkLT.c

src/blas/reference/level3/ATL_drefsyrkUN.c

src/blas/reference/level3/ATL_drefsyrkUT.c

src/blas/reference/level3/ATL_dreftrmm.c

src/blas/reference/level3/ATL_dreftrmmLLNN.c

src/blas/reference/level3/ATL_dreftrmmLLNU.c

src/blas/reference/level3/ATL_dreftrmmLLTN.c

src/blas/reference/level3/ATL_dreftrmmLLTU.c

src/blas/reference/level3/ATL_dreftrmmLUNN.c

src/blas/reference/level3/ATL_dreftrmmLUNU.c

src/blas/reference/level3/ATL_dreftrmmLUTN.c

src/blas/reference/level3/ATL_dreftrmmLUTU.c

src/blas/reference/level3/ATL_dreftrmmRLNN.c

src/blas/reference/level3/ATL_dreftrmmRLNU.c

src/blas/reference/level3/ATL_dreftrmmRLTN.c

src/blas/reference/level3/ATL_dreftrmmRLTU.c

src/blas/reference/level3/ATL_dreftrmmRUNN.c

src/blas/reference/level3/ATL_dreftrmmRUNU.c

src/blas/reference/level3/ATL_dreftrmmRUTN.c

src/blas/reference/level3/ATL_dreftrmmRUTU.c

src/blas/reference/level3/ATL_dreftrsm.c

src/blas/reference/level3/ATL_dreftrsmLLNN.c

src/blas/reference/level3/ATL_dreftrsmLLNU.c

src/blas/reference/level3/ATL_dreftrsmLLTN.c

src/blas/reference/level3/ATL_dreftrsmLLTU.c

src/blas/reference/level3/ATL_dreftrsmLUNN.c

src/blas/reference/level3/ATL_dreftrsmLUNU.c

src/blas/reference/level3/ATL_dreftrsmLUTN.c

src/blas/reference/level3/ATL_dreftrsmLUTU.c

src/blas/reference/level3/ATL_dreftrsmRLNN.c

src/blas/reference/level3/ATL_dreftrsmRLNU.c

src/blas/reference/level3/ATL_dreftrsmRLTN.c

src/blas/reference/level3/ATL_dreftrsmRLTU.c

src/blas/reference/level3/ATL_dreftrsmRUNN.c

src/blas/reference/level3/ATL_dreftrsmRUNU.c

src/blas/reference/level3/ATL_dreftrsmRUTN.c

src/blas/reference/level3/ATL_dreftrsmRUTU.c

src/blas/reference/level3/ATL_srefgemm.c

src/blas/reference/level3/ATL_srefgemmNN.c

src/blas/reference/level3/ATL_srefgemmNT.c

src/blas/reference/level3/ATL_srefgemmTN.c

src/blas/reference/level3/ATL_srefgemmTT.c

src/blas/reference/level3/ATL_srefsymm.c

src/blas/reference/level3/ATL_srefsymmLL.c

src/blas/reference/level3/ATL_srefsymmLU.c

src/blas/reference/level3/ATL_srefsymmRL.c

src/blas/reference/level3/ATL_srefsymmRU.c

src/blas/reference/level3/ATL_srefsyr2k.c

src/blas/reference/level3/ATL_srefsyr2kLN.c

src/blas/reference/level3/ATL_srefsyr2kLT.c

src/blas/reference/level3/ATL_srefsyr2kUN.c

src/blas/reference/level3/ATL_srefsyr2kUT.c

src/blas/reference/level3/ATL_srefsyrk.c

src/blas/reference/level3/ATL_srefsyrkLN.c

src/blas/reference/level3/ATL_srefsyrkLT.c

src/blas/reference/level3/ATL_srefsyrkUN.c

src/blas/reference/level3/ATL_srefsyrkUT.c

src/blas/reference/level3/ATL_sreftrmm.c

src/blas/reference/level3/ATL_sreftrmmLLNN.c

src/blas/reference/level3/ATL_sreftrmmLLNU.c

src/blas/reference/level3/ATL_sreftrmmLLTN.c

src/blas/reference/level3/ATL_sreftrmmLLTU.c

src/blas/reference/level3/ATL_sreftrmmLUNN.c

src/blas/reference/level3/ATL_sreftrmmLUNU.c

src/blas/reference/level3/ATL_sreftrmmLUTN.c

src/blas/reference/level3/ATL_sreftrmmLUTU.c

src/blas/reference/level3/ATL_sreftrmmRLNN.c

src/blas/reference/level3/ATL_sreftrmmRLNU.c

src/blas/reference/level3/ATL_sreftrmmRLTN.c

src/blas/reference/level3/ATL_sreftrmmRLTU.c

src/blas/reference/level3/ATL_sreftrmmRUNN.c

src/blas/reference/level3/ATL_sreftrmmRUNU.c

src/blas/reference/level3/ATL_sreftrmmRUTN.c

src/blas/reference/level3/ATL_sreftrmmRUTU.c

src/blas/reference/level3/ATL_sreftrsm.c

src/blas/reference/level3/ATL_sreftrsmLLNN.c

src/blas/reference/level3/ATL_sreftrsmLLNU.c

src/blas/reference/level3/ATL_sreftrsmLLTN.c

src/blas/reference/level3/ATL_sreftrsmLLTU.c

src/blas/reference/level3/ATL_sreftrsmLUNN.c

src/blas/reference/level3/ATL_sreftrsmLUNU.c

src/blas/reference/level3/ATL_sreftrsmLUTN.c

src/blas/reference/level3/ATL_sreftrsmLUTU.c

src/blas/reference/level3/ATL_sreftrsmRLNN.c

src/blas/reference/level3/ATL_sreftrsmRLNU.c

src/blas/reference/level3/ATL_sreftrsmRLTN.c

src/blas/reference/level3/ATL_sreftrsmRLTU.c

src/blas/reference/level3/ATL_sreftrsmRUNN.c

src/blas/reference/level3/ATL_sreftrsmRUNU.c

src/blas/reference/level3/ATL_sreftrsmRUTN.c

src/blas/reference/level3/ATL_sreftrsmRUTU.c

src/blas/reference/level3/ATL_zrefgemm.c

src/blas/reference/level3/ATL_zrefgemmCC.c

src/blas/reference/level3/ATL_zrefgemmCN.c

src/blas/reference/level3/ATL_zrefgemmCT.c

src/blas/reference/level3/ATL_zrefgemmNC.c

src/blas/reference/level3/ATL_zrefgemmNN.c

src/blas/reference/level3/ATL_zrefgemmNT.c

src/blas/reference/level3/ATL_zrefgemmTC.c

src/blas/reference/level3/ATL_zrefgemmTN.c

src/blas/reference/level3/ATL_zrefgemmTT.c

src/blas/reference/level3/ATL_zrefhemm.c

src/blas/reference/level3/ATL_zrefhemmLL.c

src/blas/reference/level3/ATL_zrefhemmLU.c

src/blas/reference/level3/ATL_zrefhemmRL.c

src/blas/reference/level3/ATL_zrefhemmRU.c

src/blas/reference/level3/ATL_zrefher2k.c

src/blas/reference/level3/ATL_zrefher2kLC.c

src/blas/reference/level3/ATL_zrefher2kLN.c

src/blas/reference/level3/ATL_zrefher2kUC.c

src/blas/reference/level3/ATL_zrefher2kUN.c

src/blas/reference/level3/ATL_zrefherk.c

src/blas/reference/level3/ATL_zrefherkLC.c

src/blas/reference/level3/ATL_zrefherkLN.c

src/blas/reference/level3/ATL_zrefherkUC.c

src/blas/reference/level3/ATL_zrefherkUN.c

src/blas/reference/level3/ATL_zrefsymm.c

src/blas/reference/level3/ATL_zrefsymmLL.c

src/blas/reference/level3/ATL_zrefsymmLU.c

src/blas/reference/level3/ATL_zrefsymmRL.c

src/blas/reference/level3/ATL_zrefsymmRU.c

src/blas/reference/level3/ATL_zrefsyr2k.c

src/blas/reference/level3/ATL_zrefsyr2kLN.c

src/blas/reference/level3/ATL_zrefsyr2kLT.c

src/blas/reference/level3/ATL_zrefsyr2kUN.c

src/blas/reference/level3/ATL_zrefsyr2kUT.c

src/blas/reference/level3/ATL_zrefsyrk.c

src/blas/reference/level3/ATL_zrefsyrkLN.c

src/blas/reference/level3/ATL_zrefsyrkLT.c

src/blas/reference/level3/ATL_zrefsyrkUN.c

src/blas/reference/level3/ATL_zrefsyrkUT.c

src/blas/reference/level3/ATL_zreftrmm.c

src/blas/reference/level3/ATL_zreftrmmLLCN.c

src/blas/reference/level3/ATL_zreftrmmLLCU.c

src/blas/reference/level3/ATL_zreftrmmLLNN.c

src/blas/reference/level3/ATL_zreftrmmLLNU.c

src/blas/reference/level3/ATL_zreftrmmLLTN.c

src/blas/reference/level3/ATL_zreftrmmLLTU.c

src/blas/reference/level3/ATL_zreftrmmLUCN.c

src/blas/reference/level3/ATL_zreftrmmLUCU.c

src/blas/reference/level3/ATL_zreftrmmLUNN.c

src/blas/reference/level3/ATL_zreftrmmLUNU.c

src/blas/reference/level3/ATL_zreftrmmLUTN.c

src/blas/reference/level3/ATL_zreftrmmLUTU.c

src/blas/reference/level3/ATL_zreftrmmRLCN.c

src/blas/reference/level3/ATL_zreftrmmRLCU.c

src/blas/reference/level3/ATL_zreftrmmRLNN.c

src/blas/reference/level3/ATL_zreftrmmRLNU.c

src/blas/reference/level3/ATL_zreftrmmRLTN.c

src/blas/reference/level3/ATL_zreftrmmRLTU.c

src/blas/reference/level3/ATL_zreftrmmRUCN.c

src/blas/reference/level3/ATL_zreftrmmRUCU.c

src/blas/reference/level3/ATL_zreftrmmRUNN.c

src/blas/reference/level3/ATL_zreftrmmRUNU.c

src/blas/reference/level3/ATL_zreftrmmRUTN.c

src/blas/reference/level3/ATL_zreftrmmRUTU.c

src/blas/reference/level3/ATL_zreftrsm.c

src/blas/reference/level3/ATL_zreftrsmLLCN.c

src/blas/reference/level3/ATL_zreftrsmLLCU.c

src/blas/reference/level3/ATL_zreftrsmLLNN.c

src/blas/reference/level3/ATL_zreftrsmLLNU.c

src/blas/reference/level3/ATL_zreftrsmLLTN.c

src/blas/reference/level3/ATL_zreftrsmLLTU.c

src/blas/reference/level3/ATL_zreftrsmLUCN.c

src/blas/reference/level3/ATL_zreftrsmLUCU.c

src/blas/reference/level3/ATL_zreftrsmLUNN.c

src/blas/reference/level3/ATL_zreftrsmLUNU.c

src/blas/reference/level3/ATL_zreftrsmLUTN.c

src/blas/reference/level3/ATL_zreftrsmLUTU.c

src/blas/reference/level3/ATL_zreftrsmRLCN.c

src/blas/reference/level3/ATL_zreftrsmRLCU.c

src/blas/reference/level3/ATL_zreftrsmRLNN.c

src/blas/reference/level3/ATL_zreftrsmRLNU.c

src/blas/reference/level3/ATL_zreftrsmRLTN.c

src/blas/reference/level3/ATL_zreftrsmRLTU.c

src/blas/reference/level3/ATL_zreftrsmRUCN.c

src/blas/reference/level3/ATL_zreftrsmRUCU.c

src/blas/reference/level3/ATL_zreftrsmRUNN.c

src/blas/reference/level3/ATL_zreftrsmRUNU.c

src/blas/reference/level3/ATL_zreftrsmRUTN.c

src/blas/reference/level3/ATL_zreftrsmRUTU.c

src/lapack/ATL_getrf.c

src/lapack/ATL_getrfC.c

src/lapack/ATL_getrfR.c

src/lapack/ATL_getri.c

src/lapack/ATL_getriC.c

src/lapack/ATL_getriR.c

src/lapack/ATL_getrs.c

src/lapack/ATL_laswp.c

src/lapack/ATL_lauum.c

src/lapack/ATL_lauumL.c

src/lapack/ATL_lauumU.c

src/lapack/ATL_potrf.c

src/lapack/ATL_potrfL.c

src/lapack/ATL_potrfRL.c

src/lapack/ATL_potrfRU.c

src/lapack/ATL_potrfU.c

src/lapack/ATL_potrs.c

src/lapack/ATL_trtri.c

src/lapack/ATL_trtriCL.c

src/lapack/ATL_trtriCU.c

src/lapack/ATL_trtriRL.c

src/lapack/ATL_trtriRU.c

src/testing/ATL_dsf77dot.c

src/testing/ATL_epsilon.c

src/testing/ATL_f77amax.c

src/testing/ATL_f77asum.c

src/testing/ATL_f77axpy.c

src/testing/ATL_f77copy.c

src/testing/ATL_f77dot.c

src/testing/ATL_f77dotc_sub.c

src/testing/ATL_f77dotu_sub.c

src/testing/ATL_f77gbmv.c

src/testing/ATL_f77gels.c

src/testing/ATL_f77gemm.c

src/testing/ATL_f77gemv.c

src/testing/ATL_f77ger.c

src/testing/ATL_f77gerc.c

src/testing/ATL_f77geru.c

src/testing/ATL_f77gesv.c

src/testing/ATL_f77getrf.c

src/testing/ATL_f77getri.c

src/testing/ATL_f77hbmv.c

src/testing/ATL_f77hemm.c

src/testing/ATL_f77hemv.c

src/testing/ATL_f77her.c

src/testing/ATL_f77her2.c

src/testing/ATL_f77her2k.c

src/testing/ATL_f77herk.c

src/testing/ATL_f77hpmv.c

src/testing/ATL_f77hpr.c

src/testing/ATL_f77hpr2.c

src/testing/ATL_f77lauum.c

src/testing/ATL_f77nrm2.c

src/testing/ATL_f77posv.c

src/testing/ATL_f77potrf.c

src/testing/ATL_f77rot.c

src/testing/ATL_f77rotg.c

src/testing/ATL_f77rotm.c

src/testing/ATL_f77rotmg.c

src/testing/ATL_f77rscal.c

src/testing/ATL_f77sbmv.c

src/testing/ATL_f77scal.c

src/testing/ATL_f77spmv.c

src/testing/ATL_f77spr.c

src/testing/ATL_f77spr2.c

src/testing/ATL_f77swap.c

src/testing/ATL_f77symm.c

src/testing/ATL_f77symv.c

src/testing/ATL_f77syr.c

src/testing/ATL_f77syr2.c

src/testing/ATL_f77syr2k.c

src/testing/ATL_f77syrk.c

src/testing/ATL_f77tbmv.c

src/testing/ATL_f77tbsv.c

src/testing/ATL_f77tpmv.c

src/testing/ATL_f77tpsv.c

src/testing/ATL_f77trmm.c

src/testing/ATL_f77trmv.c

src/testing/ATL_f77trsm.c

src/testing/ATL_f77trsv.c

src/testing/ATL_gbnrm1.c

src/testing/ATL_gediff.c

src/testing/ATL_gediffnrm1.c

src/testing/ATL_gegen.c

src/testing/ATL_genrm1.c

src/testing/ATL_geprint.c

src/testing/ATL_hbnrm.c

src/testing/ATL_hediffnrm.c

src/testing/ATL_henrm.c

src/testing/ATL_hpnrm.c

src/testing/ATL_infnrm.c

src/testing/ATL_rand.c

src/testing/ATL_sbnrm.c

src/testing/ATL_sdsf77dot.c

src/testing/ATL_spnrm.c

src/testing/ATL_synrm.c

src/testing/ATL_tbnrm1.c

src/testing/ATL_tpnrm1.c

src/testing/ATL_trgen.c

src/testing/ATL_trnrm1.c

src/testing/ATL_tstsqtran.c

src/testing/ATL_vdiff.c

tune/blas/gemm/CASES/ATL_dmm14x1x56_sse2pABC.c

tune/blas/gemm/CASES/ATL_dmm14x1x56_sse2pABC_K.c

tune/blas/gemm/CASES/ATL_dmm14x1x56_sse2pABC_MN.c

tune/blas/gemm/CASES/ATL_dmm1x14x56_sse2pABC.c

tune/blas/gemm/CASES/ATL_dmm1x6x72_sse2.c

tune/blas/gemm/CASES/ATL_dmm2x1x24_5pABC.c

tune/blas/gemm/CASES/ATL_dmm2x1x40_5pABC.c

tune/blas/gemm/CASES/ATL_dmm2x2x128_sse2.c

tune/blas/gemm/CASES/ATL_dmm2x2x2_sse2.c

tune/blas/gemm/CASES/ATL_dmm4x1x44_4_sse2.c

tune/blas/gemm/CASES/ATL_dmm4x1x90_x87.c

tune/blas/gemm/CASES/ATL_dmm4x2x128_sse2.c

tune/blas/gemm/CASES/ATL_dmm4x2x4_avx.c

tune/blas/gemm/CASES/ATL_dmm4x4x16r8_US.c

tune/blas/gemm/CASES/ATL_dmm4x4x2_US.c

tune/blas/gemm/CASES/ATL_dmm4x4x2_mips.c

tune/blas/gemm/CASES/ATL_dmm4x4x2pf_av.c

tune/blas/gemm/CASES/ATL_dmm4x4x32_ppc.c

tune/blas/gemm/CASES/ATL_dmm4x4x80_ppc.c

tune/blas/gemm/CASES/ATL_dmm4x4x8_US.c

tune/blas/gemm/CASES/ATL_dmm4x4xUR2_mips.c

tune/blas/gemm/CASES/ATL_dmm4x4xUR3_mips.c

tune/blas/gemm/CASES/ATL_dmm4x4xURx_mips.c

tune/blas/gemm/CASES/ATL_dmm6x1x30_x87.c

tune/blas/gemm/CASES/ATL_dmm6x1x60_sse2.c

tune/blas/gemm/CASES/ATL_dmm6x1x60_sse2_32.c

tune/blas/gemm/CASES/ATL_dmm6x1x60pABC.c

tune/blas/gemm/CASES/ATL_dmm6x1x72_sse2.c

tune/blas/gemm/CASES/ATL_dmm6x1x72_sse2_K.c

tune/blas/gemm/CASES/ATL_dmm8x1x120_L1pf.c

tune/blas/gemm/CASES/ATL_dmm8x1x120_sse2.c

tune/blas/gemm/CASES/ATL_dmm_julian_gas_30.c

tune/blas/gemm/CASES/ATL_dmm_sse2_80.c

tune/blas/gemm/CASES/ATL_dmm_sse2_80M.c

tune/blas/gemm/CASES/ATL_dmm_sse2_80N.c

tune/blas/gemm/CASES/ATL_dmm_sse2_K.c

tune/blas/gemm/CASES/ATL_mm4x3x2p.c

tune/blas/gemm/CASES/ATL_mm4x3x8p.c

tune/blas/gemm/CASES/ATL_mm4x4x2US.c

tune/blas/gemm/CASES/ATL_mm4x4x2US_MN.c

tune/blas/gemm/CASES/ATL_mm4x4x2US_NB.c

tune/blas/gemm/CASES/ATL_mm4x4x2_1_pref.c

tune/blas/gemm/CASES/ATL_mm4x4x2_1_prefCU.c

tune/blas/gemm/CASES/ATL_mm4x4x2rp.c

tune/blas/gemm/CASES/ATL_mm4x4x4_av.c

tune/blas/gemm/CASES/ATL_mm4x4x56_av.c

tune/blas/gemm/CASES/ATL_mm4x4x8_av.c

tune/blas/gemm/CASES/ATL_mm4x4x8_bpfab.c

tune/blas/gemm/CASES/ATL_mm4x4x8_bpfabc.c

tune/blas/gemm/CASES/ATL_mm4x4x8p.c

tune/blas/gemm/CASES/ATL_mm6x8x8_1p.c

tune/blas/gemm/CASES/ATL_mm8x8x2.c

tune/blas/gemm/CASES/ATL_objdummy.c

tune/blas/gemm/CASES/ATL_smm10x1x120_sse.c

tune/blas/gemm/CASES/ATL_smm14x1x84_sse.c

tune/blas/gemm/CASES/ATL_smm14x1x84_sseCU.c

tune/blas/gemm/CASES/ATL_smm2x2x256_sse.c

tune/blas/gemm/CASES/ATL_smm4x1x256_sse.c

tune/blas/gemm/CASES/ATL_smm4x1x60_4_sse2.c

tune/blas/gemm/CASES/ATL_smm4x2x8_avx.c

tune/blas/gemm/CASES/ATL_smm4x4x128_av.c

tune/blas/gemm/CASES/ATL_smm4x4x16_US.c

tune/blas/gemm/CASES/ATL_smm4x4x16_av.c

tune/blas/gemm/CASES/ATL_smm4x4x2_US.c

tune/blas/gemm/CASES/ATL_smm4x4x4_av.c

tune/blas/gemm/CASES/ATL_smm4x4x72_US.c

tune/blas/gemm/CASES/ATL_smm4x4xURx_mips.c

tune/blas/gemm/CASES/ATL_smm6x1x120_sse.c

tune/blas/gemm/CASES/ATL_smm6x1x60_sse.c

tune/blas/gemm/CASES/ATL_smm6x1x60_x87.c

tune/blas/gemm/CASES/ATL_smm6x1x80_sse.c

tune/blas/gemm/CASES/ATL_smmMNCU_av.c

tune/blas/gemm/CASES/ATL_smm_3dnow_100.c

tune/blas/gemm/CASES/ATL_smm_3dnow_100M.c

tune/blas/gemm/CASES/ATL_smm_3dnow_100N.c

tune/blas/gemm/CASES/ATL_smm_3dnow_K.c

tune/blas/gemm/CASES/ATL_smm_sse1_56.c

tune/blas/gemm/CASES/ATL_smm_sse1_56M.c

tune/blas/gemm/CASES/ATL_smm_sse1_56N.c

tune/blas/gemm/CASES/ATL_smm_sse1_60.c

tune/blas/gemm/CASES/ATL_smm_sse1_60M.c

tune/blas/gemm/CASES/ATL_smm_sse1_60N.c

tune/blas/gemm/CASES/ATL_smm_sse1_64.c

tune/blas/gemm/CASES/ATL_smm_sse1_64M.c

tune/blas/gemm/CASES/ATL_smm_sse1_64N.c

tune/blas/gemm/CASES/ATL_smm_sse1_K.c

tune/blas/gemm/CASES/ATL_smm_sse2_112.c

tune/blas/gemm/CASES/ATL_smm_sse2_112M.c

tune/blas/gemm/CASES/ATL_smm_sse2_112N.c

tune/blas/gemm/CASES/ccases.SSE

tune/blas/gemm/CASES/ccases.flg

tune/blas/gemm/CASES/dcases.SSE

tune/blas/gemm/CASES/dcases.flg

tune/blas/gemm/CASES/objs/ATL_dJIK30x30x30TN30x30x0_a1.cfg

tune/blas/gemm/CASES/objs/ATL_dJIK30x30x30TN30x30x0_a1.mcr

tune/blas/gemm/CASES/objs/ATL_dJIK30x30x30TN30x30x0_a1_b0.asm

tune/blas/gemm/CASES/objs/ATL_dJIK30x30x30TN30x30x0_a1_b1.asm

tune/blas/gemm/CASES/objs/ATL_dJIK30x30x30TN30x30x0_a1_bX.asm

tune/blas/gemm/CASES/objs/ATL_sJIK48x48x48TN48x48x0_a1.cfg

tune/blas/gemm/CASES/objs/ATL_sJIK48x48x48TN48x48x0_a1.mcr

tune/blas/gemm/CASES/objs/ATL_sJIK48x48x48TN48x48x0_a1_b0.asm

tune/blas/gemm/CASES/objs/ATL_sJIK48x48x48TN48x48x0_a1_b1.asm

tune/blas/gemm/CASES/objs/ATL_sJIK48x48x48TN48x48x0_a1_bX.asm

tune/blas/gemm/CASES/objs/Make.ext

tune/blas/gemm/CASES/scases.SSE

tune/blas/gemm/CASES/scases.flg

tune/blas/gemm/CASES/zcases.SSE

tune/blas/gemm/CASES/zcases.flg

tune/blas/gemm/emit_mm.c

tune/blas/gemm/fc.c

tune/blas/gemm/findCE.c

tune/blas/gemm/hcsearch.c

tune/blas/gemm/mmsearch.c

tune/blas/gemm/mmtst.c

tune/blas/gemm/tfc.c

tune/blas/gemm/ummsearch.c

tune/blas/gemm/usercomb.c

tune/blas/gemm/userflag.c

tune/blas/gemm/userindex.c

tune/blas/level1/AXPY/zcases.dsc

tune/blas/level1/COPY/copy_std.c

tune/blas/level1/IAMAX/ccases.dsc

tune/blas/level1/IAMAX/iamax_sse.c

tune/blas/level1/NRM2/nrm21_x0.c

tune/blas/level1/NRM2/nrm21_x1.c

tune/blas/level1/NRM2/nrm24p120_x1.c

tune/blas/level1/SET/set_x86.c

tune/blas/level1/asumsrch.c

tune/blas/level1/asumtest.c

tune/blas/level1/asumtime.c

tune/blas/level1/axpbysrch.c

tune/blas/level1/axpbytest.c

tune/blas/level1/axpbytime.c

tune/blas/level1/axpysrch.c

tune/blas/level1/axpytest.c

tune/blas/level1/axpytime.c

tune/blas/level1/copysrch.c

tune/blas/level1/copytest.c

tune/blas/level1/copytime.c

tune/blas/level1/cpscsrch.c

tune/blas/level1/cpsctest.c

tune/blas/level1/cpsctime.c

tune/blas/level1/dotsrch.c

tune/blas/level1/dottest.c

tune/blas/level1/dottime.c

tune/blas/level1/iamaxsrch.c

tune/blas/level1/iamaxtest.c

tune/blas/level1/iamaxtime.c

tune/blas/level1/nrm2srch.c

tune/blas/level1/nrm2test.c

tune/blas/level1/nrm2time.c

tune/blas/level1/rotsrch.c

tune/blas/level1/rottest.c

tune/blas/level1/rottime.c

tune/blas/level1/scalsrch.c

tune/blas/level1/scaltest.c

tune/blas/level1/scaltime.c

tune/blas/level1/setsrch.c

tune/blas/level1/settest.c

tune/blas/level1/settime.c

tune/blas/level1/swapsrch.c

tune/blas/level1/swaptest.c

tune/blas/level1/swaptime.c

tune/blas/level3/ATL_trsm.c

tune/blas/level3/gen_trsmnb.c

tune/blas/level3/invtrsm.c

tune/blas/level3/tsmfc.c

tune/sysinfo/ATL_cputime.c

tune/sysinfo/ATL_walltime.c

tune/sysinfo/GetSysSum.c

tune/sysinfo/L1CacheSize.c

tune/sysinfo/emit_buildinfo.c

tune/sysinfo/emit_typ.c

Show diffs side-by-side

added added

removed removed

src/blas/level3/kernel/ATL_trsmKL_rk4.c

#include "atlas_misc.h"

#include "atlas_prefetch.h"

#define RTYPE register TYPE

#if defined(__GNUC__) || \

(defined(__STDC_VERSION__) && (__STDC_VERSION__/100 >= 1999))

#define ATL_SINLINE static inline

#else

#define ATL_SINLINE static

#endif

#if defined(ATL_AVX) && defined(DREAL)

#define NRHS 3

#define ATL_BINWRK 1

#include <immintrin.h>

* Subtract off x0...x3 contribution to all remaining equations using a

* rank-4 update with mu=4, nu=3, ku=4. This version is for 16 AVX regs.

* nu is the # of RHS, ku is the number of equations solved, and mu is

* unrolled only to enable software pipelinine of load/use.

* Loop order is MKN, so that B is kept completely in registers, and

* C and A are streamed in (and out, for C) from cache during the operation.

ATL_SINLINE void ATL_rk4(ATL_CINT M, const TYPE *A, ATL_CINT lda,

TYPE *pB0, ATL_CINT ldb, TYPE *C, ATL_CINT ldc)

{

const TYPE *pA0 = A, *pA1 = A+lda,

*pA2 = A+((lda)<<1), *pA3=pA1+((lda)<<1);

TYPE *pC0 = C, *pC1 = C+ldc, *pC2 = C+((ldc)<<1);

ATL_CINT MM = (M & 4) ? M-4 : M-8;

int i;

if (M < 4)

return;

rB00 = _mm256_broadcast_pd((void*)pB0); /* B10 B00 B10 B00 */

rB20 = _mm256_broadcast_pd((void*)(pB0+2));

rB01 = _mm256_broadcast_pd((void*)(pB0+ldb));

rB21 = _mm256_broadcast_pd((void*)(pB0+ldb+2));

rB02 = _mm256_broadcast_pd((void*)(pB0+ldb+ldb));

rB22 = _mm256_broadcast_pd((void*)(pB0+ldb+ldb+2));

rC00 = _mm256_load_pd(pC0); /* C30 C20 C10 C00 */

rC01 = _mm256_load_pd(pC1);

rC02 = _mm256_load_pd(pC2);

rA0 = _mm256_load_pd(pA0); /* A30 A20 A10, A00 */

for (i=0; i < MM; i += 8, pA0 += 8, pA1 += 8, pA2 += 8, pA3 += 8,

pC0 += 8, pC1 += 8, pC2 += 8)

{

rB = _mm256_unpacklo_pd(rB00, rB00);

rB = _mm256_mul_pd(rB, rA0);

rC00 = _mm256_sub_pd(rC00, rB); rA1 = _mm256_load_pd(pA1);

rB = _mm256_unpacklo_pd(rB01, rB01);

rB = _mm256_mul_pd(rB, rA0);

rC01 = _mm256_sub_pd(rC01, rB); rC40 =_mm256_load_pd(pC0+4);

rB = _mm256_unpacklo_pd(rB02, rB02);

rB = _mm256_mul_pd(rB, rA0);

rC02 = _mm256_sub_pd(rC02, rB); rA0 = _mm256_load_pd(pA2);

rB = _mm256_unpackhi_pd(rB00, rB00);

rB = _mm256_mul_pd(rB, rA1);

rC00 = _mm256_sub_pd(rC00, rB); rC41 =_mm256_load_pd(pC1+4);

rB = _mm256_unpackhi_pd(rB01, rB01);

rB = _mm256_mul_pd(rB, rA1);

rC01 = _mm256_sub_pd(rC01, rB); rC42 =_mm256_load_pd(pC2+4);

rB = _mm256_unpackhi_pd(rB02, rB02);

rB = _mm256_mul_pd(rB, rA1);

rC02 = _mm256_sub_pd(rC02, rB); rA1 = _mm256_load_pd(pA3);

rB = _mm256_unpacklo_pd(rB20, rB20);

rB = _mm256_mul_pd(rB, rA0);

rC00 = _mm256_sub_pd(rC00, rB);

rB = _mm256_unpacklo_pd(rB21, rB21);

rB = _mm256_mul_pd(rB, rA0);

rC01 = _mm256_sub_pd(rC01, rB);

rB = _mm256_unpacklo_pd(rB22, rB22);

rB = _mm256_mul_pd(rB, rA0);

rC02 = _mm256_sub_pd(rC02, rB); rA0 = _mm256_load_pd(pA0+4);

rB = _mm256_unpackhi_pd(rB20, rB20);

rB = _mm256_mul_pd(rB, rA1);

rC00 = _mm256_sub_pd(rC00, rB); _mm256_store_pd(pC0, rC00);

rB = _mm256_unpackhi_pd(rB21, rB21);

rB = _mm256_mul_pd(rB, rA1);

rC01 = _mm256_sub_pd(rC01, rB); _mm256_store_pd(pC1, rC01);

rB = _mm256_unpackhi_pd(rB22, rB22);

rB = _mm256_mul_pd(rB, rA1);

rC02 = _mm256_sub_pd(rC02, rB); rA1 = _mm256_load_pd(pA1+4);

* 2nd row of C regs

rB = _mm256_unpacklo_pd(rB00, rB00);

rB = _mm256_mul_pd(rB, rA0);

rC40 = _mm256_sub_pd(rC40, rB); _mm256_store_pd(pC2, rC02);

100

rB = _mm256_unpacklo_pd(rB01, rB01);

101

rB = _mm256_mul_pd(rB, rA0);

102

rC41 = _mm256_sub_pd(rC41, rB); rC00 = _mm256_load_pd(pC0+8);

103

rB = _mm256_unpacklo_pd(rB02, rB02);

104

rB = _mm256_mul_pd(rB, rA0);

105

rC42 = _mm256_sub_pd(rC42, rB); rA0 = _mm256_load_pd(pA2+4);

106

107

rB = _mm256_unpackhi_pd(rB00, rB00);

108

rB = _mm256_mul_pd(rB, rA1);

109

rC40 = _mm256_sub_pd(rC40, rB); rC01 = _mm256_load_pd(pC1+8);

110

rB = _mm256_unpackhi_pd(rB01, rB01);

111

rB = _mm256_mul_pd(rB, rA1);

112

rC41 = _mm256_sub_pd(rC41, rB); rC02 = _mm256_load_pd(pC2+8);

113

rB = _mm256_unpackhi_pd(rB02, rB02);

114

rB = _mm256_mul_pd(rB, rA1);

115

rC42 = _mm256_sub_pd(rC42, rB); rA1 = _mm256_load_pd(pA3+4);

116

117

rB = _mm256_unpacklo_pd(rB20, rB20);

118

rB = _mm256_mul_pd(rB, rA0);

119

rC40 = _mm256_sub_pd(rC40, rB);

120

rB = _mm256_unpacklo_pd(rB21, rB21);

121

rB = _mm256_mul_pd(rB, rA0);

122

rC41 = _mm256_sub_pd(rC41, rB);

123

rB = _mm256_unpacklo_pd(rB22, rB22);

124

rB = _mm256_mul_pd(rB, rA0);

125

rC42 = _mm256_sub_pd(rC42, rB); rA0 = _mm256_load_pd(pA0+8);

126

127

rB = _mm256_unpackhi_pd(rB20, rB20);

128

rB = _mm256_mul_pd(rB, rA1);

129

rC40 = _mm256_sub_pd(rC40, rB); _mm256_store_pd(pC0+4, rC40);

130

rB = _mm256_unpackhi_pd(rB21, rB21);

131

rB = _mm256_mul_pd(rB, rA1);

132

rC41 = _mm256_sub_pd(rC41, rB); _mm256_store_pd(pC1+4, rC41);

133

rB = _mm256_unpackhi_pd(rB22, rB22);

134

rB = _mm256_mul_pd(rB, rA1);

135

rC42 = _mm256_sub_pd(rC42, rB); _mm256_store_pd(pC2+4, rC42);

136

}

137

138

* Drain C load/use pipeline

139

140

if (M-MM == 4) /* drain pipe over 1 iteration */

141

{

142

143

144

rB = _mm256_unpacklo_pd(rB00, rB00);

145

rB = _mm256_mul_pd(rB, rA0);

146

rC00 = _mm256_sub_pd(rC00, rB); rA1 = _mm256_load_pd(pA1);

147

rB = _mm256_unpacklo_pd(rB01, rB01);

148

rB = _mm256_mul_pd(rB, rA0);

149

rC01 = _mm256_sub_pd(rC01, rB);

150

rB = _mm256_unpacklo_pd(rB02, rB02);

151

rB = _mm256_mul_pd(rB, rA0);

152

rC02 = _mm256_sub_pd(rC02, rB); rA0 = _mm256_load_pd(pA2);

153

154

rB = _mm256_unpackhi_pd(rB00, rB00);

155

rB = _mm256_mul_pd(rB, rA1);

156

rC00 = _mm256_sub_pd(rC00, rB);

157

rB = _mm256_unpackhi_pd(rB01, rB01);

158

rB = _mm256_mul_pd(rB, rA1);

159

rC01 = _mm256_sub_pd(rC01, rB);

160

rB = _mm256_unpackhi_pd(rB02, rB02);

161

rB = _mm256_mul_pd(rB, rA1);

162

rC02 = _mm256_sub_pd(rC02, rB); rA1 = _mm256_load_pd(pA3);

163

164

rB = _mm256_unpacklo_pd(rB20, rB20);

165

rB = _mm256_mul_pd(rB, rA0);

166

rC00 = _mm256_sub_pd(rC00, rB);

167

rB = _mm256_unpacklo_pd(rB21, rB21);

168

rB = _mm256_mul_pd(rB, rA0);

169

rC01 = _mm256_sub_pd(rC01, rB);

170

rB = _mm256_unpacklo_pd(rB22, rB22);

171

rB = _mm256_mul_pd(rB, rA0);

172

rC02 = _mm256_sub_pd(rC02, rB);

173

174

rB = _mm256_unpackhi_pd(rB20, rB20);

175

rB = _mm256_mul_pd(rB, rA1);

176

rC00 = _mm256_sub_pd(rC00, rB); _mm256_store_pd(pC0, rC00);

177

rB = _mm256_unpackhi_pd(rB21, rB21);

178

rB = _mm256_mul_pd(rB, rA1);

179

rC01 = _mm256_sub_pd(rC01, rB); _mm256_store_pd(pC1, rC01);

180

rB = _mm256_unpackhi_pd(rB22, rB22);

181

rB = _mm256_mul_pd(rB, rA1);

182

rC02 = _mm256_sub_pd(rC02, rB); _mm256_store_pd(pC2, rC02);

183

}

184

else /* M-MM = 8, drain pipe over 2 iterations */

185

{

186

187

188

rB = _mm256_unpacklo_pd(rB00, rB00);

189

rB = _mm256_mul_pd(rB, rA0);

190

rC00 = _mm256_sub_pd(rC00, rB); rA1 = _mm256_load_pd(pA1);

191

rB = _mm256_unpacklo_pd(rB01, rB01);

192

rB = _mm256_mul_pd(rB, rA0);

193

rC01 = _mm256_sub_pd(rC01, rB); rC40 =_mm256_load_pd(pC0+4);

194

rB = _mm256_unpacklo_pd(rB02, rB02);

195

rB = _mm256_mul_pd(rB, rA0);

196

rC02 = _mm256_sub_pd(rC02, rB); rA0 = _mm256_load_pd(pA2);

197

198

rB = _mm256_unpackhi_pd(rB00, rB00);

199

rB = _mm256_mul_pd(rB, rA1);

200

rC00 = _mm256_sub_pd(rC00, rB); rC41 =_mm256_load_pd(pC1+4);

201

rB = _mm256_unpackhi_pd(rB01, rB01);

202

rB = _mm256_mul_pd(rB, rA1);

203

rC01 = _mm256_sub_pd(rC01, rB); rC42 =_mm256_load_pd(pC2+4);

204

rB = _mm256_unpackhi_pd(rB02, rB02);

205

rB = _mm256_mul_pd(rB, rA1);

206

rC02 = _mm256_sub_pd(rC02, rB); rA1 = _mm256_load_pd(pA3);

207

208

rB = _mm256_unpacklo_pd(rB20, rB20);

209

rB = _mm256_mul_pd(rB, rA0);

210

rC00 = _mm256_sub_pd(rC00, rB);

211

rB = _mm256_unpacklo_pd(rB21, rB21);

212

rB = _mm256_mul_pd(rB, rA0);

213

rC01 = _mm256_sub_pd(rC01, rB);

214

rB = _mm256_unpacklo_pd(rB22, rB22);

215

rB = _mm256_mul_pd(rB, rA0);

216

rC02 = _mm256_sub_pd(rC02, rB); rA0 = _mm256_load_pd(pA0+4);

217

218

rB = _mm256_unpackhi_pd(rB20, rB20);

219

rB = _mm256_mul_pd(rB, rA1);

220

rC00 = _mm256_sub_pd(rC00, rB); _mm256_store_pd(pC0, rC00);

221

rB = _mm256_unpackhi_pd(rB21, rB21);

222

rB = _mm256_mul_pd(rB, rA1);

223

rC01 = _mm256_sub_pd(rC01, rB); _mm256_store_pd(pC1, rC01);

224

rB = _mm256_unpackhi_pd(rB22, rB22);

225

rB = _mm256_mul_pd(rB, rA1);

226

rC02 = _mm256_sub_pd(rC02, rB); rA1 = _mm256_load_pd(pA1+4);

227

228

* 2nd row of C regs

229

230

rB = _mm256_unpacklo_pd(rB00, rB00);

231

rB = _mm256_mul_pd(rB, rA0);

232

rC40 = _mm256_sub_pd(rC40, rB); _mm256_store_pd(pC2, rC02);

233

rB = _mm256_unpacklo_pd(rB01, rB01);

234

rB = _mm256_mul_pd(rB, rA0);

235

rC41 = _mm256_sub_pd(rC41, rB);

236

rB = _mm256_unpacklo_pd(rB02, rB02);

237

rB = _mm256_mul_pd(rB, rA0);

238

rC42 = _mm256_sub_pd(rC42, rB); rA0 = _mm256_load_pd(pA2+4);

239

240

rB = _mm256_unpackhi_pd(rB00, rB00);

241

rB = _mm256_mul_pd(rB, rA1);

242

rC40 = _mm256_sub_pd(rC40, rB);

243

rB = _mm256_unpackhi_pd(rB01, rB01);

244

rB = _mm256_mul_pd(rB, rA1);

245

rC41 = _mm256_sub_pd(rC41, rB);

246

rB = _mm256_unpackhi_pd(rB02, rB02);

247

rB = _mm256_mul_pd(rB, rA1);

248

rC42 = _mm256_sub_pd(rC42, rB); rA1 = _mm256_load_pd(pA3+4);

249

250

rB = _mm256_unpacklo_pd(rB20, rB20);

251

rB = _mm256_mul_pd(rB, rA0);

252

rC40 = _mm256_sub_pd(rC40, rB);

253

rB = _mm256_unpacklo_pd(rB21, rB21);

254

rB = _mm256_mul_pd(rB, rA0);

255

rC41 = _mm256_sub_pd(rC41, rB);

256

rB = _mm256_unpacklo_pd(rB22, rB22);

257

rB = _mm256_mul_pd(rB, rA0);

258

rC42 = _mm256_sub_pd(rC42, rB);

259

260

rB = _mm256_unpackhi_pd(rB20, rB20);

261

rB = _mm256_mul_pd(rB, rA1);

262

rC40 = _mm256_sub_pd(rC40, rB); _mm256_store_pd(pC0+4, rC40);

263

rB = _mm256_unpackhi_pd(rB21, rB21);

264

rB = _mm256_mul_pd(rB, rA1);

265

rC41 = _mm256_sub_pd(rC41, rB); _mm256_store_pd(pC1+4, rC41);

266

rB = _mm256_unpackhi_pd(rB22, rB22);

267

rB = _mm256_mul_pd(rB, rA1);

268

rC42 = _mm256_sub_pd(rC42, rB); _mm256_store_pd(pC2+4, rC42);

269

}

270

}

271

#elif defined(ATL_SSE2) && defined(DREAL)

272

#define NRHS 3

273

#define ATL_BINWRK 1

274

#include <xmmintrin.h>

275

276

* Subtract off x0...x3 contribution to all remaining equations using a

277

* rank-4 update with mu=4, nu=3, ku=4. This version is for 16 SSE2 regs.

278

* nu is the # of RHS, ku is the number of equations solved, and mu is

279

* unrolled only to enable software pipelinine of load/use.

280

* Loop order is MKN, so that B is kept completely in registers, and

281

* C and A are streamed in (and out, for C) from cache during the operation.

282

283

ATL_SINLINE void ATL_rk4(ATL_CINT M, const TYPE *A, ATL_CINT lda,

284

TYPE *pB0, ATL_CINT ldb, TYPE *C, ATL_CINT ldc)

285

{

286

const TYPE *pA0 = A, *pA1 = A+lda,

287

*pA2 = A+((lda)<<1), *pA3=pA1+((lda)<<1);

288

TYPE *pC0 = C, *pC1 = C+ldc, *pC2 = C+((ldc)<<1);

289

const int MM = M-4;

290

int i;

291

292

293

294

295

296

297

if (M < 4)

298

return;

299

rB00 = _mm_load_pd(pB0);

300

rB20 = _mm_load_pd(pB0+2);

301

rB01 = _mm_load_pd(pB0+ldb);

302

rB21 = _mm_load_pd(pB0+ldb+2);

303

rB02 = _mm_load_pd(pB0+2*ldb);

304

rB22 = _mm_load_pd(pB0+2*ldb+2);

305

306

rC00 = _mm_load_pd(pC0);

307

rC01 = _mm_load_pd(pC1);

308

rC02 = _mm_load_pd(pC2);

309

rA0 = _mm_load_pd(pA0); /* A1, A0 */

310

for (i=0; i < MM; i += 4, pA0 += 4, pA1 += 4, pA2 += 4, pA3 += 4,

311

pC0 += 4, pC1 += 4, pC2 += 4)

312

{

313

314

315

rB = _mm_unpacklo_pd(rB00, rB00);

316

rB = _mm_mul_pd(rB, rA0);

317

rC00 = _mm_sub_pd(rC00, rB); rA1 = _mm_load_pd(pA1);

318

rB = _mm_unpacklo_pd(rB01, rB01);

319

rB = _mm_mul_pd(rB, rA0);

320

rC01 = _mm_sub_pd(rC01, rB); rC20 =_mm_load_pd(pC0+2);

321

rB = _mm_unpacklo_pd(rB02, rB02);

322

rB = _mm_mul_pd(rB, rA0);

323

rC02 = _mm_sub_pd(rC02, rB); rA0 = _mm_load_pd(pA2);

324

325

rB = _mm_unpackhi_pd(rB00, rB00);

326

rB = _mm_mul_pd(rB, rA1);

327

rC00 = _mm_sub_pd(rC00, rB); rC21 =_mm_load_pd(pC1+2);

328

rB = _mm_unpackhi_pd(rB01, rB01);

329

rB = _mm_mul_pd(rB, rA1);

330

rC01 = _mm_sub_pd(rC01, rB); rC22 =_mm_load_pd(pC2+2);

331

rB = _mm_unpackhi_pd(rB02, rB02);

332

rB = _mm_mul_pd(rB, rA1);

333

rC02 = _mm_sub_pd(rC02, rB); rA1 = _mm_load_pd(pA3);

334

335

rB = _mm_unpacklo_pd(rB20, rB20);

336

rB = _mm_mul_pd(rB, rA0);

337

rC00 = _mm_sub_pd(rC00, rB);

338

rB = _mm_unpacklo_pd(rB21, rB21);

339

rB = _mm_mul_pd(rB, rA0);

340

rC01 = _mm_sub_pd(rC01, rB);

341

rB = _mm_unpacklo_pd(rB22, rB22);

342

rB = _mm_mul_pd(rB, rA0);

343

rC02 = _mm_sub_pd(rC02, rB); rA0 = _mm_load_pd(pA0+2);

344

345

rB = _mm_unpackhi_pd(rB20, rB20);

346

rB = _mm_mul_pd(rB, rA1);

347

rC00 = _mm_sub_pd(rC00, rB); _mm_store_pd(pC0, rC00);

348

rB = _mm_unpackhi_pd(rB21, rB21);

349

rB = _mm_mul_pd(rB, rA1);

350

rC01 = _mm_sub_pd(rC01, rB); _mm_store_pd(pC1, rC01);

351

rB = _mm_unpackhi_pd(rB22, rB22);

352

rB = _mm_mul_pd(rB, rA1);

353

rC02 = _mm_sub_pd(rC02, rB); rA1 = _mm_load_pd(pA1+2);

354

355

* 2nd row of C regs

356

357

rB = _mm_unpacklo_pd(rB00, rB00);

358

rB = _mm_mul_pd(rB, rA0);

359

rC20 = _mm_sub_pd(rC20, rB); _mm_store_pd(pC2, rC02);

360

rB = _mm_unpacklo_pd(rB01, rB01);

361

rB = _mm_mul_pd(rB, rA0);

362

rC21 = _mm_sub_pd(rC21, rB); rC00 = _mm_load_pd(pC0+4);

363

rB = _mm_unpacklo_pd(rB02, rB02);

364

rB = _mm_mul_pd(rB, rA0);

365

rC22 = _mm_sub_pd(rC22, rB); rA0 = _mm_load_pd(pA2+2);

366

367

rB = _mm_unpackhi_pd(rB00, rB00);

368

rB = _mm_mul_pd(rB, rA1);

369

rC20 = _mm_sub_pd(rC20, rB); rC01 = _mm_load_pd(pC1+4);

370

rB = _mm_unpackhi_pd(rB01, rB01);

371

rB = _mm_mul_pd(rB, rA1);

372

rC21 = _mm_sub_pd(rC21, rB); rC02 = _mm_load_pd(pC2+4);

373

rB = _mm_unpackhi_pd(rB02, rB02);

374

rB = _mm_mul_pd(rB, rA1);

375

rC22 = _mm_sub_pd(rC22, rB); rA1 = _mm_load_pd(pA3+2);

376

377

rB = _mm_unpacklo_pd(rB20, rB20);

378

rB = _mm_mul_pd(rB, rA0);

379

rC20 = _mm_sub_pd(rC20, rB);

380

rB = _mm_unpacklo_pd(rB21, rB21);

381

rB = _mm_mul_pd(rB, rA0);

382

rC21 = _mm_sub_pd(rC21, rB);

383

rB = _mm_unpacklo_pd(rB22, rB22);

384

rB = _mm_mul_pd(rB, rA0);

385

rC22 = _mm_sub_pd(rC22, rB); rA0 = _mm_load_pd(pA0+4);

386

387

rB = _mm_unpackhi_pd(rB20, rB20);

388

rB = _mm_mul_pd(rB, rA1);

389

rC20 = _mm_sub_pd(rC20, rB); _mm_store_pd(pC0+2, rC20);

390

rB = _mm_unpackhi_pd(rB21, rB21);

391

rB = _mm_mul_pd(rB, rA1);

392

rC21 = _mm_sub_pd(rC21, rB); _mm_store_pd(pC1+2, rC21);

393

rB = _mm_unpackhi_pd(rB22, rB22);

394

rB = _mm_mul_pd(rB, rA1);

395

rC22 = _mm_sub_pd(rC22, rB); _mm_store_pd(pC2+2, rC22);

396

}

397

398

* Drain C load/use pipeline

399

400

{

401

402

403

rB = _mm_unpacklo_pd(rB00, rB00);

404

rB = _mm_mul_pd(rB, rA0);

405

rC00 = _mm_sub_pd(rC00, rB); rA1 = _mm_load_pd(pA1);

406

rB = _mm_unpacklo_pd(rB01, rB01);

407

rB = _mm_mul_pd(rB, rA0);

408

rC01 = _mm_sub_pd(rC01, rB); rC20 =_mm_load_pd(pC0+2);

409

rB = _mm_unpacklo_pd(rB02, rB02);

410

rB = _mm_mul_pd(rB, rA0);

411

rC02 = _mm_sub_pd(rC02, rB); rA0 = _mm_load_pd(pA2);

412

413

rB = _mm_unpackhi_pd(rB00, rB00);

414

rB = _mm_mul_pd(rB, rA1);

415

rC00 = _mm_sub_pd(rC00, rB); rC21 =_mm_load_pd(pC1+2);

416

rB = _mm_unpackhi_pd(rB01, rB01);

417

rB = _mm_mul_pd(rB, rA1);

418

rC01 = _mm_sub_pd(rC01, rB); rC22 =_mm_load_pd(pC2+2);

419

rB = _mm_unpackhi_pd(rB02, rB02);

420

rB = _mm_mul_pd(rB, rA1);

421

rC02 = _mm_sub_pd(rC02, rB); rA1 = _mm_load_pd(pA3);

422

423

rB = _mm_unpacklo_pd(rB20, rB20);

424

rB = _mm_mul_pd(rB, rA0);

425

rC00 = _mm_sub_pd(rC00, rB);

426

rB = _mm_unpacklo_pd(rB21, rB21);

427

rB = _mm_mul_pd(rB, rA0);

428

rC01 = _mm_sub_pd(rC01, rB);

429

rB = _mm_unpacklo_pd(rB22, rB22);

430

rB = _mm_mul_pd(rB, rA0);

431

rC02 = _mm_sub_pd(rC02, rB); rA0 = _mm_load_pd(pA0+2);

432

433

rB = _mm_unpackhi_pd(rB20, rB20);

434

rB = _mm_mul_pd(rB, rA1);

435

rC00 = _mm_sub_pd(rC00, rB); _mm_store_pd(pC0, rC00);

436

rB = _mm_unpackhi_pd(rB21, rB21);

437

rB = _mm_mul_pd(rB, rA1);

438

rC01 = _mm_sub_pd(rC01, rB); _mm_store_pd(pC1, rC01);

439

rB = _mm_unpackhi_pd(rB22, rB22);

440

rB = _mm_mul_pd(rB, rA1);

441

rC02 = _mm_sub_pd(rC02, rB); rA1 = _mm_load_pd(pA1+2);

442

443

* 2nd row of C regs

444

445

rB = _mm_unpacklo_pd(rB00, rB00);

446

rB = _mm_mul_pd(rB, rA0);

447

rC20 = _mm_sub_pd(rC20, rB); _mm_store_pd(pC2, rC02);

448

rB = _mm_unpacklo_pd(rB01, rB01);

449

rB = _mm_mul_pd(rB, rA0);

450

rC21 = _mm_sub_pd(rC21, rB);

451

rB = _mm_unpacklo_pd(rB02, rB02);

452

rB = _mm_mul_pd(rB, rA0);

453

rC22 = _mm_sub_pd(rC22, rB); rA0 = _mm_load_pd(pA2+2);

454

455

rB = _mm_unpackhi_pd(rB00, rB00);

456

rB = _mm_mul_pd(rB, rA1);

457

rC20 = _mm_sub_pd(rC20, rB);

458

rB = _mm_unpackhi_pd(rB01, rB01);

459

rB = _mm_mul_pd(rB, rA1);

460

rC21 = _mm_sub_pd(rC21, rB);

461

rB = _mm_unpackhi_pd(rB02, rB02);

462

rB = _mm_mul_pd(rB, rA1);

463

rC22 = _mm_sub_pd(rC22, rB); rA1 = _mm_load_pd(pA3+2);

464

465

rB = _mm_unpacklo_pd(rB20, rB20);

466

rB = _mm_mul_pd(rB, rA0);

467

rC20 = _mm_sub_pd(rC20, rB);

468

rB = _mm_unpacklo_pd(rB21, rB21);

469

rB = _mm_mul_pd(rB, rA0);

470

rC21 = _mm_sub_pd(rC21, rB);

471

rB = _mm_unpacklo_pd(rB22, rB22);

472

rB = _mm_mul_pd(rB, rA0);

473

rC22 = _mm_sub_pd(rC22, rB);

474

475

rB = _mm_unpackhi_pd(rB20, rB20);

476

rB = _mm_mul_pd(rB, rA1);

477

rC20 = _mm_sub_pd(rC20, rB); _mm_store_pd(pC0+2, rC20);

478

rB = _mm_unpackhi_pd(rB21, rB21);

479

rB = _mm_mul_pd(rB, rA1);

480

rC21 = _mm_sub_pd(rC21, rB); _mm_store_pd(pC1+2, rC21);

481

rB = _mm_unpackhi_pd(rB22, rB22);

482

rB = _mm_mul_pd(rB, rA1);

483

rC22 = _mm_sub_pd(rC22, rB); _mm_store_pd(pC2+2, rC22);

484

}

485

}

486

#elif defined(ATL_SSE2) && defined(SREAL)

487

#define NRHS 4

488

#define ATL_BINWRK 1

489

#include <xmmintrin.h>

490

491

* Subtract off x0...x3 contribution to all remaining equations using a

492

* rank-4 update with mu=8, nu=4, ku=4. This version is for 16 SSE regs.

493

* nu is the # of RHS, ku is the number of equations solved, and mu is

494

* unrolled only to enable vectorizations & software pipelinine of load/use.

495

* Code operates on any multiple of 4 despite using MU=8.

496

* Loop order is MKN, so that B is kept completely in registers, and

497

* C and A are streamed in (and out, for C) from cache during the operation.

498

499

ATL_SINLINE void ATL_rk4(ATL_CINT M, const TYPE *A, ATL_CINT lda,

500

TYPE *pB0, ATL_CINT ldb, TYPE *C, ATL_CINT ldc)

501

{

502

const TYPE *pA0 = A, *pA1 = A+lda,

503

*pA2 = A+((lda)<<1), *pA3=pA1+((lda)<<1);

504

TYPE *pC0 = C, *pC1 = C+ldc, *pC2 = C+((ldc)<<1), *pC3 = pC2+ldc;

505

ATL_CINT MM = (M & 4) ? M-4 : M-8;

506

int i;

507

508

509

510

511

512

if (M < 4)

513

return;

514

rB00 = _mm_load_ps(pB0);

515

rB01 = _mm_load_ps(pB0+ldb);

516

rB02 = _mm_load_ps(pB0+(ldb<<1));

517

rB03 = _mm_load_ps(pB0+(ldb<<1)+ldb);

518

519

rC00 = _mm_load_ps(pC0);

520

rC01 = _mm_load_ps(pC1);

521

rC02 = _mm_load_ps(pC2);

522

rC03 = _mm_load_ps(pC3);

523

524

rA0 = _mm_load_ps(pA0);

525

526

for (i=0; i < MM; i += 8, pA0 += 8, pA1 += 8, pA2 += 8, pA3 += 8,

527

pC0 += 8, pC1 += 8, pC2 += 8, pC3 += 8)

528

{

529

530

531

* K=0 block

532

533

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0x00);

534

rB = _mm_mul_ps(rB, rA0);

535

rC00 = _mm_sub_ps(rC00, rB); rA1 = _mm_load_ps(pA1);

536

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0x00);

537

rB = _mm_mul_ps(rB, rA0);

538

rC01 = _mm_sub_ps(rC01, rB); rC40 = _mm_load_ps(pC0+4);

539

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0x00);

540

rB = _mm_mul_ps(rB, rA0);

541

rC02 = _mm_sub_ps(rC02, rB); rC41 = _mm_load_ps(pC1+4);

542

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0x00);

543

rB = _mm_mul_ps(rB, rA0);

544

rC03 = _mm_sub_ps(rC03, rB); rC42 = _mm_load_ps(pC2+4);

545

546

* K=1 block

547

548

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0x55);

549

rB = _mm_mul_ps(rB, rA1);

550

rC00 = _mm_sub_ps(rC00, rB); rA0 = _mm_load_ps(pA2);

551

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0x55);

552

rB = _mm_mul_ps(rB, rA1);

553

rC01 = _mm_sub_ps(rC01, rB); rC43 = _mm_load_ps(pC3+4);

554

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0x55);

555

rB = _mm_mul_ps(rB, rA1);

556

rC02 = _mm_sub_ps(rC02, rB);

557

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0x55);

558

rB = _mm_mul_ps(rB, rA1);

559

rC03 = _mm_sub_ps(rC03, rB); rA1 = _mm_load_ps(pA3);

560

561

* K=2 block

562

563

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0xAA);

564

rB = _mm_mul_ps(rB, rA0);

565

rC00 = _mm_sub_ps(rC00, rB);

566

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0xAA);

567

rB = _mm_mul_ps(rB, rA0);

568

rC01 = _mm_sub_ps(rC01, rB);

569

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0xAA);

570

rB = _mm_mul_ps(rB, rA0);

571

rC02 = _mm_sub_ps(rC02, rB);

572

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0xAA);

573

rB = _mm_mul_ps(rB, rA0);

574

rC03 = _mm_sub_ps(rC03, rB); rA0 = _mm_load_ps(pA0+4);

575

576

* K=3 block

577

578

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0xFF);

579

rB = _mm_mul_ps(rB, rA1);

580

rC00 = _mm_sub_ps(rC00, rB); _mm_store_ps(pC0, rC00);

581

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0xFF);

582

rB = _mm_mul_ps(rB, rA1);

583

rC01 = _mm_sub_ps(rC01, rB); _mm_store_ps(pC1, rC01);

584

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0xFF);

585

rB = _mm_mul_ps(rB, rA1);

586

rC02 = _mm_sub_ps(rC02, rB); _mm_store_ps(pC2, rC02);

587

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0xFF);

588

rB = _mm_mul_ps(rB, rA1);

589

rC03 = _mm_sub_ps(rC03, rB); _mm_store_ps(pC3, rC03);

590

591

592

* K=0 block

593

594

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0x00);

595

rB = _mm_mul_ps(rB, rA0);

596

rC40 = _mm_sub_ps(rC40, rB); rA1 = _mm_load_ps(pA1+4);

597

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0x00);

598

rB = _mm_mul_ps(rB, rA0);

599

rC41 = _mm_sub_ps(rC41, rB); rC00 = _mm_load_ps(pC0+8);

600

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0x00);

601

rB = _mm_mul_ps(rB, rA0);

602

rC42 = _mm_sub_ps(rC42, rB); rC01 = _mm_load_ps(pC1+8);

603

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0x00);

604

rB = _mm_mul_ps(rB, rA0);

605

rC43 = _mm_sub_ps(rC43, rB); rC02 = _mm_load_ps(pC2+8);

606

607

* K=1 block

608

609

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0x55);

610

rB = _mm_mul_ps(rB, rA1);

611

rC40 = _mm_sub_ps(rC40, rB); rA0 = _mm_load_ps(pA2+4);

612

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0x55);

613

rB = _mm_mul_ps(rB, rA1);

614

rC41 = _mm_sub_ps(rC41, rB); rC03 = _mm_load_ps(pC3+8);

615

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0x55);

616

rB = _mm_mul_ps(rB, rA1);

617

rC42 = _mm_sub_ps(rC42, rB);

618

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0x55);

619

rB = _mm_mul_ps(rB, rA1);

620

rC43 = _mm_sub_ps(rC43, rB); rA1 = _mm_load_ps(pA3+4);

621

622

* K=2 block

623

624

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0xAA);

625

rB = _mm_mul_ps(rB, rA0);

626

rC40 = _mm_sub_ps(rC40, rB);

627

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0xAA);

628

rB = _mm_mul_ps(rB, rA0);

629

rC41 = _mm_sub_ps(rC41, rB);

630

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0xAA);

631

rB = _mm_mul_ps(rB, rA0);

632

rC42 = _mm_sub_ps(rC42, rB);

633

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0xAA);

634

rB = _mm_mul_ps(rB, rA0);

635

rC43 = _mm_sub_ps(rC43, rB); rA0 = _mm_load_ps(pA0+8);

636

637

* K=3 block

638

639

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0xFF);

640

rB = _mm_mul_ps(rB, rA1);

641

rC40 = _mm_sub_ps(rC40, rB); _mm_store_ps(pC0+4, rC40);

642

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0xFF);

643

rB = _mm_mul_ps(rB, rA1);

644

rC41 = _mm_sub_ps(rC41, rB); _mm_store_ps(pC1+4, rC41);

645

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0xFF);

646

rB = _mm_mul_ps(rB, rA1);

647

rC42 = _mm_sub_ps(rC42, rB); _mm_store_ps(pC2+4, rC42);

648

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0xFF);

649

rB = _mm_mul_ps(rB, rA1);

650

rC43 = _mm_sub_ps(rC43, rB); _mm_store_ps(pC3+4, rC43);

651

}

652

653

* If orig M was multiple of 4 rather than 8, drain pipe over last 4 rows

654

655

if (M&4)

656

{

657

658

659

* K=0 block

660

661

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0x00);

662

rB = _mm_mul_ps(rB, rA0);

663

rC00 = _mm_sub_ps(rC00, rB); rA1 = _mm_load_ps(pA1);

664

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0x00);

665

rB = _mm_mul_ps(rB, rA0);

666

rC01 = _mm_sub_ps(rC01, rB);

667

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0x00);

668

rB = _mm_mul_ps(rB, rA0);

669

rC02 = _mm_sub_ps(rC02, rB);

670

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0x00);

671

rB = _mm_mul_ps(rB, rA0);

672

rC03 = _mm_sub_ps(rC03, rB); rA0 = _mm_load_ps(pA2);

673

674

* K=1 block

675

676

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0x55);

677

rB = _mm_mul_ps(rB, rA1);

678

rC00 = _mm_sub_ps(rC00, rB);

679

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0x55);

680

rB = _mm_mul_ps(rB, rA1);

681

rC01 = _mm_sub_ps(rC01, rB);

682

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0x55);

683

rB = _mm_mul_ps(rB, rA1);

684

rC02 = _mm_sub_ps(rC02, rB);

685

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0x55);

686

rB = _mm_mul_ps(rB, rA1);

687

rC03 = _mm_sub_ps(rC03, rB); rA1 = _mm_load_ps(pA3);

688

689

* K=2 block

690

691

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0xAA);

692

rB = _mm_mul_ps(rB, rA0);

693

rC00 = _mm_sub_ps(rC00, rB);

694

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0xAA);

695

rB = _mm_mul_ps(rB, rA0);

696

rC01 = _mm_sub_ps(rC01, rB);

697

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0xAA);

698

rB = _mm_mul_ps(rB, rA0);

699

rC02 = _mm_sub_ps(rC02, rB);

700

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0xAA);

701

rB = _mm_mul_ps(rB, rA0);

702

rC03 = _mm_sub_ps(rC03, rB);

703

704

* K=3 block

705

706

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0xFF);

707

rB = _mm_mul_ps(rB, rA1);

708

rC00 = _mm_sub_ps(rC00, rB); _mm_store_ps(pC0, rC00);

709

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0xFF);

710

rB = _mm_mul_ps(rB, rA1);

711

rC01 = _mm_sub_ps(rC01, rB); _mm_store_ps(pC1, rC01);

712

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0xFF);

713

rB = _mm_mul_ps(rB, rA1);

714

rC02 = _mm_sub_ps(rC02, rB); _mm_store_ps(pC2, rC02);

715

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0xFF);

716

rB = _mm_mul_ps(rB, rA1);

717

rC03 = _mm_sub_ps(rC03, rB); _mm_store_ps(pC3, rC03);

718

}

719

else /* drain pipe with MU=8 */

720

{

721

722

723

* K=0 block

724

725

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0x00);

726

rB = _mm_mul_ps(rB, rA0);

727

rC00 = _mm_sub_ps(rC00, rB); rA1 = _mm_load_ps(pA1);

728

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0x00);

729

rB = _mm_mul_ps(rB, rA0);

730

rC01 = _mm_sub_ps(rC01, rB); rC40 = _mm_load_ps(pC0+4);

731

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0x00);

732

rB = _mm_mul_ps(rB, rA0);

733

rC02 = _mm_sub_ps(rC02, rB); rC41 = _mm_load_ps(pC1+4);

734

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0x00);

735

rB = _mm_mul_ps(rB, rA0);

736

rC03 = _mm_sub_ps(rC03, rB); rC42 = _mm_load_ps(pC2+4);

737

738

* K=1 block

739

740

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0x55);

741

rB = _mm_mul_ps(rB, rA1);

742

rC00 = _mm_sub_ps(rC00, rB); rA0 = _mm_load_ps(pA2);

743

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0x55);

744

rB = _mm_mul_ps(rB, rA1);

745

rC01 = _mm_sub_ps(rC01, rB); rC43 = _mm_load_ps(pC3+4);

746

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0x55);

747

rB = _mm_mul_ps(rB, rA1);

748

rC02 = _mm_sub_ps(rC02, rB);

749

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0x55);

750

rB = _mm_mul_ps(rB, rA1);

751

rC03 = _mm_sub_ps(rC03, rB); rA1 = _mm_load_ps(pA3);

752

753

* K=2 block

754

755

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0xAA);

756

rB = _mm_mul_ps(rB, rA0);

757

rC00 = _mm_sub_ps(rC00, rB);

758

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0xAA);

759

rB = _mm_mul_ps(rB, rA0);

760

rC01 = _mm_sub_ps(rC01, rB);

761

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0xAA);

762

rB = _mm_mul_ps(rB, rA0);

763

rC02 = _mm_sub_ps(rC02, rB);

764

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0xAA);

765

rB = _mm_mul_ps(rB, rA0);

766

rC03 = _mm_sub_ps(rC03, rB); rA0 = _mm_load_ps(pA0+4);

767

768

* K=3 block

769

770

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0xFF);

771

rB = _mm_mul_ps(rB, rA1);

772

rC00 = _mm_sub_ps(rC00, rB); _mm_store_ps(pC0, rC00);

773

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0xFF);

774

rB = _mm_mul_ps(rB, rA1);

775

rC01 = _mm_sub_ps(rC01, rB); _mm_store_ps(pC1, rC01);

776

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0xFF);

777

rB = _mm_mul_ps(rB, rA1);

778

rC02 = _mm_sub_ps(rC02, rB); _mm_store_ps(pC2, rC02);

779

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0xFF);

780

rB = _mm_mul_ps(rB, rA1);

781

rC03 = _mm_sub_ps(rC03, rB); _mm_store_ps(pC3, rC03);

782

783

784

* K=0 block

785

786

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0x00);

787

rB = _mm_mul_ps(rB, rA0);

788

rC40 = _mm_sub_ps(rC40, rB); rA1 = _mm_load_ps(pA1+4);

789

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0x00);

790

rB = _mm_mul_ps(rB, rA0);

791

rC41 = _mm_sub_ps(rC41, rB);

792

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0x00);

793

rB = _mm_mul_ps(rB, rA0);

794

rC42 = _mm_sub_ps(rC42, rB);

795

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0x00);

796

rB = _mm_mul_ps(rB, rA0);

797

rC43 = _mm_sub_ps(rC43, rB);

798

799

* K=1 block

800

801

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0x55);

802

rB = _mm_mul_ps(rB, rA1);

803

rC40 = _mm_sub_ps(rC40, rB); rA0 = _mm_load_ps(pA2+4);

804

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0x55);

805

rB = _mm_mul_ps(rB, rA1);

806

rC41 = _mm_sub_ps(rC41, rB);

807

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0x55);

808

rB = _mm_mul_ps(rB, rA1);

809

rC42 = _mm_sub_ps(rC42, rB);

810

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0x55);

811

rB = _mm_mul_ps(rB, rA1);

812

rC43 = _mm_sub_ps(rC43, rB); rA1 = _mm_load_ps(pA3+4);

813

814

* K=2 block

815

816

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0xAA);

817

rB = _mm_mul_ps(rB, rA0);

818

rC40 = _mm_sub_ps(rC40, rB);

819

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0xAA);

820

rB = _mm_mul_ps(rB, rA0);

821

rC41 = _mm_sub_ps(rC41, rB);

822

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0xAA);

823

rB = _mm_mul_ps(rB, rA0);

824

rC42 = _mm_sub_ps(rC42, rB);

825

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0xAA);

826

rB = _mm_mul_ps(rB, rA0);

827

rC43 = _mm_sub_ps(rC43, rB);

828

829

* K=3 block

830

831

rB = (__m128) _mm_shuffle_epi32((__m128i) rB00, 0xFF);

832

rB = _mm_mul_ps(rB, rA1);

833

rC40 = _mm_sub_ps(rC40, rB); _mm_store_ps(pC0+4, rC40);

834

rB = (__m128) _mm_shuffle_epi32((__m128i) rB01, 0xFF);

835

rB = _mm_mul_ps(rB, rA1);

836

rC41 = _mm_sub_ps(rC41, rB); _mm_store_ps(pC1+4, rC41);

837

rB = (__m128) _mm_shuffle_epi32((__m128i) rB02, 0xFF);

838

rB = _mm_mul_ps(rB, rA1);

839

rC42 = _mm_sub_ps(rC42, rB); _mm_store_ps(pC2+4, rC42);

840

rB = (__m128) _mm_shuffle_epi32((__m128i) rB03, 0xFF);

841

rB = _mm_mul_ps(rB, rA1);

842

rC43 = _mm_sub_ps(rC43, rB); _mm_store_ps(pC3+4, rC43);

843

}

844

}

845

#else

846

#define NRHS 4

847

#define ATL_BINWRK 0

848

849

* Subtract off x0...x3 contribution to all remaining equations using a

850

* rank-4 update with mu=2, nu=4, ku=4. This version is for 32 scalar

851

* registers, and assumes the scalar registers rB00..rB33 are live on entry.

852

* nu is the # of RHS, ku is the number of equations solved, and mu is

853

* unrolled only to enable software pipelinine of load/use.

854

* Loop order is MKN, so that B is kept completely in registers, and

855

* C and A are streamed in (and out, for C) from cache during the operation.

856

857

#define ATL_rk4(M_, A_, lda_, C_, ldc_) if (M_ > 1) \

858

{ \

859

const TYPE *pA0 = A_, *pA1 = A_+lda_, \

860

*pA2 = A_+((lda_)<<1), *pA3=pA1+((lda_)<<1); \

861

TYPE *pC0 = C_, *pC1 = C_+ldc_, \

862

*pC2 = C_+((ldc_)<<1), *pC3=pC1+((ldc_)<<1); \

863

864

865

866

ATL_CINT MM = M_ - 2; \

867

ATL_INT i; \

868

869

for (i=0; i < MM; i += 2, pA0 += 2, pA1 += 2, pA2 += 2, pA3 += 2, \

870

pC0 += 2, pC1 += 2, pC2 += 2, pC3 += 2) \

871

{ \

872

rC00 -= rA0 * rB00; rA1 = *pA1; \

873

rC01 -= rA0 * rB01; rc00 = pC0[1]; \

874

rC02 -= rA0 * rB02; rc01 = pC1[1]; \

875

rC03 -= rA0 * rB03; rc02 = pC2[1]; \

876

877

rC00 -= rA1 * rB10; rA0 = *pA2; \

878

rC01 -= rA1 * rB11; rc03 = pC3[1]; \

879

rC02 -= rA1 * rB12; \

880

rC03 -= rA1 * rB13; \

881

882

rC00 -= rA0 * rB20; rA1 = *pA3; \

883

rC01 -= rA0 * rB21; \

884

rC02 -= rA0 * rB22; \

885

rC03 -= rA0 * rB23; rA0 = pA0[1]; \

886

887

rC00 -= rA1 * rB30; *pC0 = rC00; \

888

rC01 -= rA1 * rB31; *pC1 = rC01; \

889

rC02 -= rA1 * rB32; *pC2 = rC02; \

890

rC03 -= rA1 * rB33; *pC3 = rC03; \

891

892

rc00 -= rA0 * rB00; rA1 = pA1[1]; \

893

rc01 -= rA0 * rB01; rC00 = pC0[2]; \

894

rc02 -= rA0 * rB02; rC01 = pC1[2]; \

895

rc03 -= rA0 * rB03; rC02 = pC2[2]; \

896

897

rc00 -= rA1 * rB10; rA0 = pA2[1]; \

898

rc01 -= rA1 * rB11; rC03 = pC3[2]; \

899

rc02 -= rA1 * rB12; \

900

rc03 -= rA1 * rB13; \

901

902

rc00 -= rA0 * rB20; rA1 = pA3[1]; \

903

rc01 -= rA0 * rB21; \

904

rc02 -= rA0 * rB22; \

905

rc03 -= rA0 * rB23; rA0 = pA0[2]; \

906

907

rc00 -= rA1 * rB30; pC0[1] = rc00; \

908

rc01 -= rA1 * rB31; pC1[1] = rc01; \

909

rc02 -= rA1 * rB32; pC2[1] = rc02; \

910

rc03 -= rA1 * rB33; pC3[1] = rc03; \

911

} \

912

/* \

913

* Drain the C fetch/store pipe \

914

*/ \

915

rC00 -= rA0 * rB00; rA1 = *pA1; \

916

rC01 -= rA0 * rB01; rc00 = pC0[1]; \

917

rC02 -= rA0 * rB02; rc01 = pC1[1]; \

918

rC03 -= rA0 * rB03; rc02 = pC2[1]; \

919

920

rC00 -= rA1 * rB10; rA0 = *pA2; \

921

rC01 -= rA1 * rB11; rc03 = pC3[1]; \

922

rC02 -= rA1 * rB12; \

923

rC03 -= rA1 * rB13; \

924

925

rC00 -= rA0 * rB20; rA1 = *pA3; \

926

rC01 -= rA0 * rB21; \

927

rC02 -= rA0 * rB22; \

928

rC03 -= rA0 * rB23; rA0 = pA0[1]; \

929

930

rC00 -= rA1 * rB30; *pC0 = rC00; \

931

rC01 -= rA1 * rB31; *pC1 = rC01; \

932

rC02 -= rA1 * rB32; *pC2 = rC02; \

933

rC03 -= rA1 * rB33; *pC3 = rC03; \

934

935

rc00 -= rA0 * rB00; rA1 = pA1[1]; \

936

rc01 -= rA0 * rB01; \

937

rc02 -= rA0 * rB02; \

938

rc03 -= rA0 * rB03; \

939

940

rc00 -= rA1 * rB10; rA0 = pA2[1]; \

941

rc01 -= rA1 * rB11; \

942

rc02 -= rA1 * rB12; \

943

rc03 -= rA1 * rB13; \

944

945

rc00 -= rA0 * rB20; rA1 = pA3[1]; \

946

rc01 -= rA0 * rB21; \

947

rc02 -= rA0 * rB22; \

948

rc03 -= rA0 * rB23; \

949

950

rc00 -= rA1 * rB30; pC0[1] = rc00; \

951

rc01 -= rA1 * rB31; pC1[1] = rc01; \

952

rc02 -= rA1 * rB32; pC2[1] = rc02; \

953

rc03 -= rA1 * rB33; pC3[1] = rc03; \

954

}

955

#endif

956

957

#if NRHS == 3

958

959

* Solve 4x4 L with 3 RHS symbolically

960

* Answer is output into rBxx regs, which are live on input and output

961

962

#define ATL_trsmL4(L_, ldl_, r_, ldr_) \

963

{ \

964

const RTYPE L00=(*(L_)), L10=L_[1], L20=L_[2], L30=L_[3]; \

965

const RTYPE L11=L_[ldl_+1], L21=L_[ldl_+2], L31=a[ldl_+3]; \

966

const RTYPE L22=L_[2*(ldl_)+2], L32=L_[2*(ldl_)+3]; \

967

const RTYPE L33=L_[3*(ldl_)+3]; \

968

/* \

969

* x0 = b0 / L00 \

970

*/ \

971

rB00 *= L00; \

972

rB01 *= L00; \

973

rB02 *= L00; \

974

/* \

975

* x1 = (b1 - L10 * x0) / L11 \

976

*/ \

977

rB10 = (rB10 - L10*rB00) * L11; \

978

rB11 = (rB11 - L10*rB01) * L11; \

979

rB12 = (rB12 - L10*rB02) * L11; \

980

ATL_pfl1W(r_ + ((ldr_)<<2)); \

981

/* \

982

* x2 = (b2 - L20*x0 - L21*x1) / L22 \

983

*/ \

984

rB20 = (rB20 - L20*rB00 - L21*rB10) * L22; \

985

rB21 = (rB21 - L20*rB01 - L21*rB11) * L22; \

986

rB22 = (rB22 - L20*rB02 - L21*rB12) * L22; \

987

ATL_pfl1W(r_ + ldr_+((ldr_)<<2)); \

988

/* \

989

* x3 = (b3 - L30*x0 - L31*x1 - L32*x2) / L33 \

990

*/ \

991

rB30 = (rB30 - L30*rB00 - L31*rB10 - L32*rB20) * L33; \

992

rB31 = (rB31 - L30*rB01 - L31*rB11 - L32*rB21) * L33; \

993

rB32 = (rB32 - L30*rB02 - L31*rB12 - L32*rB22) * L33; \

994

ATL_pfl1W(r_ + ((ldr_)<<1)+((ldr_)<<2)); \

995

} /* complete 4x4 NRHS=3 solve block */

996

997

#define ATL_trsmU4(U_, ldu_, r_, ldr_) \

998

{ \

999

const RTYPE U00=(*(U_)); \

1000

const RTYPE U01=(U_)[ldu_], U11=(U_)[ldu_+1]; \

1001

const RTYPE U02=(U_)[2*(ldu_)], U12= *(U_+2*(ldu_)+1), \

1002

U22 = *(U_+2*(ldu_)+2); \

1003

const RTYPE U03 = *(U_+3*(ldu_)), U13 = *(U_+3*(ldu_)+1), \

1004

U23 = *(U_+3*(ldu_)+2), U33 = *(U_+3*(ldu_)+3); \

1005

1006

/* \

1007

* x3 = b3 / U33 \

1008

*/ \

1009

rB30 *= U33; \

1010

rB31 *= U33; \

1011

rB32 *= U33; \

1012

ATL_pfl1W(r_ + ((ldr_)<<2)); \

1013

/* \

1014

* x2 = (b2 - U23 * x3) / U22 \

1015

*/ \

1016

rB20 = (rB20 - U23*rB30) * U22; \

1017

rB21 = (rB21 - U23*rB31) * U22; \

1018

rB22 = (rB22 - U23*rB32) * U22; \

1019

ATL_pfl1W(r_ + ldr_+((ldr_)<<2)); \

1020

/* \

1021

* x1 = (b1 - U12*x2 - U13*x3) / U11 \

1022

*/ \

1023

rB10 = (rB10 - U12*rB20 - U13*rB30) * U11; \

1024

rB11 = (rB11 - U12*rB21 - U13*rB31) * U11; \

1025

rB12 = (rB12 - U12*rB22 - U13*rB32) * U11; \

1026

ATL_pfl1W(r_ + ((ldr_)<<1)+((ldr_)<<2)); \

1027

/* \

1028

* x0 = (b0 - U01*x1 - U02*x2 - U03*x3) / U00 \

1029

*/ \

1030

rB00 = (rB00 - U01*rB10 - U02*rB20 - U03*rB30) * U00; \

1031

rB01 = (rB01 - U01*rB11 - U02*rB21 - U03*rB31) * U00; \

1032

ATL_pfl1W(r_ + ldr_+((ldr_)<<1)+((ldr_)<<2)); \

1033

rB02 = (rB02 - U01*rB12 - U02*rB22 - U03*rB32) * U00; \

1034

} /* complete M=4, N=3 solve block */

1035

#elif NRHS == 4

1036

1037

* Solve 4x4 L with 4 RHS symbolically

1038

* Answer is output into rBxx regs, which are live on input and output

1039

1040

#define ATL_trsmL4(L_, ldl_, r_, ldr_) \

1041

{ \

1042

const RTYPE L00=(*(L_)), L10=L_[1], L20=L_[2], L30=L_[3]; \

1043

const RTYPE L11=L_[ldl_+1], L21=L_[ldl_+2], L31=a[ldl_+3]; \

1044

const RTYPE L22=L_[2*(ldl_)+2], L32=L_[2*(ldl_)+3]; \

1045

const RTYPE L33=L_[3*(ldl_)+3]; \

1046

/* \

1047

* x0 = b0 / L00 \

1048

*/ \

1049

rB00 *= L00; \

1050

rB01 *= L00; \

1051

rB02 *= L00; \

1052

rB03 *= L00; \

1053

ATL_pfl1W(r_ + ((ldr_)<<2)); \

1054

/* \

1055

* x1 = (b1 - L10 * x0) / L11 \

1056

*/ \

1057

rB10 = (rB10 - L10*rB00) * L11; \

1058

rB11 = (rB11 - L10*rB01) * L11; \

1059

rB12 = (rB12 - L10*rB02) * L11; \

1060

rB13 = (rB13 - L10*rB03) * L11; \

1061

ATL_pfl1W(r_ + ldr_ +((ldr_)<<2)); \

1062

/* \

1063

* x2 = (b2 - L20*x0 - L21*x1) / L22 \

1064

*/ \

1065

rB20 = (rB20 - L20*rB00 - L21*rB10) * L22; \

1066

rB21 = (rB21 - L20*rB01 - L21*rB11) * L22; \

1067

rB22 = (rB22 - L20*rB02 - L21*rB12) * L22; \

1068

rB23 = (rB23 - L20*rB03 - L21*rB13) * L22; \

1069

ATL_pfl1W(r_ + ((ldr_)<<1)+((ldr_)<<2)); \

1070

/* \

1071

* x3 = (b3 - L30*x0 - L31*x1 - L32*x2) / L33 \

1072

*/ \

1073

rB30 = (rB30 - L30*rB00 - L31*rB10 - L32*rB20) * L33; \

1074

rB31 = (rB31 - L30*rB01 - L31*rB11 - L32*rB21) * L33; \

1075

ATL_pfl1W(r_ + ldr_+((ldr_)<<1)+((ldr_)<<2)); \

1076

rB32 = (rB32 - L30*rB02 - L31*rB12 - L32*rB22) * L33; \

1077

rB33 = (rB33 - L30*rB03 - L31*rB13 - L32*rB23) * L33; \

1078

} /* complete 4x4 solve block */

1079

1080

#define ATL_trsmU4(U_, ldu_, r_, ldr_) \

1081

{ \

1082

const RTYPE U00=(*(U_)); \

1083

const RTYPE U01=(U_)[ldu_], U11=(U_)[ldu_+1]; \

1084

const RTYPE U02=(U_)[2*(ldu_)], U12= *(U_+2*(ldu_)+1), \

1085

U22 = *(U_+2*(ldu_)+2); \

1086

const RTYPE U03 = *(U_+3*(ldu_)), U13 = *(U_+3*(ldu_)+1), \

1087

U23 = *(U_+3*(ldu_)+2), U33 = *(U_+3*(ldu_)+3); \

1088

1089

/* \

1090

* x3 = b3 / U33 \

1091

*/ \

1092

rB30 *= U33; \

1093

rB31 *= U33; \

1094

rB32 *= U33; \

1095

rB33 *= U33; \

1096

ATL_pfl1W(r_ + ((ldr_)<<2)); \

1097

/* \

1098

* x2 = (b2 - U23 * x3) / U22 \

1099

*/ \

1100

rB20 = (rB20 - U23*rB30) * U22; \

1101

rB21 = (rB21 - U23*rB31) * U22; \

1102

rB22 = (rB22 - U23*rB32) * U22; \

1103

rB23 = (rB23 - U23*rB33) * U22; \

1104

ATL_pfl1W(r_ + ldr_+((ldr_)<<2)); \

1105

/* \

1106

* x1 = (b1 - U12*x2 - U13*x3) / U11 \

1107

*/ \

1108

rB10 = (rB10 - U12*rB20 - U13*rB30) * U11; \

1109

rB11 = (rB11 - U12*rB21 - U13*rB31) * U11; \

1110

rB12 = (rB12 - U12*rB22 - U13*rB32) * U11; \

1111

rB13 = (rB13 - U12*rB23 - U13*rB33) * U11; \

1112

ATL_pfl1W(r_ + ((ldr_)<<1)+((ldr_)<<2)); \

1113

/* \

1114

* x0 = (b0 - U01*x1 - U02*x2 - U03*x3) / U00 \

1115

*/ \

1116

rB00 = (rB00 - U01*rB10 - U02*rB20 - U03*rB30) * U00; \

1117

rB01 = (rB01 - U01*rB11 - U02*rB21 - U03*rB31) * U00; \

1118

ATL_pfl1W(r_ + ldr_+((ldr_)<<1)+((ldr_)<<2)); \

1119

rB02 = (rB02 - U01*rB12 - U02*rB22 - U03*rB32) * U00; \

1120

rB03 = (rB03 - U01*rB13 - U02*rB23 - U03*rB33) * U00; \

1121

} /* complete 4x4 solve block */

1122

#endif

1123

1124

static void ATL_trsmLLN

1125

(

1126

ATL_CINT M, /* size of orig triangular matrix A */

1127

ATL_CINT N, /* number of RHS in B */

1128

const SCALAR alpha, /* scale factor for B */

1129

const TYPE *A, /* MxM lower matrix A, diag has inverse of original diag */

1130

TYPE *B, /* on input, B, on output X, of A x = b */

1131

ATL_CINT ldb, /* leading dim of B */

1132

TYPE *W /* Mx4 workspace with good alignment */

1133

)

1134

{

1135

int j;

1136

ATL_CINT M4 = ((M+3)>>2)<<2;

1137

1138

#define lda M4

1139

1140

* Loop over RHS, NRHS RHS at a time

1141

1142

for (j=0; j < N; j += NRHS, B += NRHS*ldb)

1143

{

1144

const int nb = Mmin(NRHS, N-j);

1145

int k, i;

1146

TYPE *w = W, *b = B;

1147

const TYPE *a;

1148

1149

* Copy NRHS RHS to aligned workspace and scale if necessary, alpha cannot be

1150

* zero, because this is handled as a special case at top

1151

1152

for (k=0; k < nb; k++, w += M4, b += ldb)

1153

{

1154

if (alpha != 1.0)

1155

{

1156

for (i=0; i < M; i++)

1157

w[i] = alpha * b[i];

1158

}

1159

else

1160

{

1161

for (i=0; i < M; i++)

1162

w[i] = b[i];

1163

}

1164

for (; i < M4; i++)

1165

w[i] = ATL_rzero;

1166

}

1167

for (; k < NRHS; k++, w += M4)

1168

for (i=0; i < M4; i++)

1169

w[i] = ATL_rzero;

1170

1171

* Completely solve these RHSs by looping over entire triangular matrix

1172

1173

b = B;

1174

w = W;

1175

a = A;

1176

for (k=0; k < M; k += 4, b += 4, w += 4, a += (lda+1)<<2)

1177

{

1178

ATL_CINT mr = Mmin(4,M-k);

1179

RTYPE rB00 = *w, rB10=w[1], rB20=w[2], rB30=w[3];

1180

RTYPE rB01=w[M4], rB11=w[M4+1], rB21=w[M4+2], rB31=w[M4+3];

1181

#if NRHS > 2

1182

RTYPE rB02=w[2*M4],rB12=w[2*M4+1],rB22=w[2*M4+2],rB32=w[2*M4+3];

1183

#endif

1184

#if NRHS > 3

1185

RTYPE rB03=w[3*M4],rB13=w[3*M4+1],rB23=w[3*M4+2],rB33=w[3*M4+3];

1186

#endif

1187

1188

* Solve M=4 NRHS=4 TRSM symbolically

1189

1190

ATL_trsmL4(a, lda, b, ldb);

1191

1192

* Write solved 4x4 block out to original workspace (final answer)

1193

* Handle most common case with only one if

1194

1195

if (mr == 4 && nb == NRHS)

1196

{

1197

*b = rB00;

1198

b[1] = rB10;

1199

b[2] = rB20;

1200

b[3] = rB30;

1201

b[ldb] = rB01;

1202

b[ldb+1] = rB11;

1203

b[ldb+2] = rB21;

1204

b[ldb+3] = rB31;

1205

#if NRHS > 2

1206

b[ldb+ldb] = rB02;

1207

b[ldb+ldb+1] = rB12;

1208

b[ldb+ldb+2] = rB22;

1209

b[ldb+ldb+3] = rB32;

1210

#endif

1211

#if NRHS > 3

1212

b[(ldb<<1)+ldb] = rB03;

1213

b[(ldb<<1)+ldb+1] = rB13;

1214

b[(ldb<<1)+ldb+2] = rB23;

1215

b[(ldb<<1)+ldb+3] = rB33;

1216

#endif

1217

}

1218

else

1219

{

1220

switch(mr)

1221

{

1222

case 4:

1223

b[3] = rB30;

1224

case 3:

1225

b[2] = rB20;

1226

case 2:

1227

b[1] = rB10;

1228

case 1:

1229

*b = rB00;

1230

}

1231

if (nb > 1)

1232

{

1233

switch(mr)

1234

{

1235

case 4:

1236

b[ldb+3] = rB31;

1237

case 3:

1238

b[ldb+2] = rB21;

1239

case 2:

1240

b[ldb+1] = rB11;

1241

case 1:

1242

b[ldb] = rB01;

1243

}

1244

#if NRHS > 2

1245

if (nb > 2)

1246

{

1247

switch(mr)

1248

{

1249

case 4:

1250

b[ldb+ldb+3] = rB32;

1251

case 3:

1252

b[ldb+ldb+2] = rB22;

1253

case 2:

1254

b[ldb+ldb+1] = rB12;

1255

case 1:

1256

b[ldb+ldb] = rB02;

1257

}

1258

#if NRHS > 3

1259

if (nb > 3)

1260

{

1261

switch(mr)

1262

{

1263

case 4:

1264

b[(ldb<<1)+ldb+3] = rB33;

1265

case 3:

1266

b[(ldb<<1)+ldb+2] = rB23;

1267

case 2:

1268

b[(ldb<<1)+ldb+1] = rB13;

1269

case 1:

1270

b[(ldb<<1)+ldb] = rB03;

1271

}

1272

}

1273

#endif

1274

}

1275

#endif

1276

}

1277

}

1278

1279

* Subtract off x0-x4 contribution from rest of B using rank-4 update

1280

1281

#if ATL_BINWRK

1282

if (M-k-4 > 0)

1283

{

1284

*w = rB00;

1285

w[1] = rB10;

1286

w[2] = rB20;

1287

w[3] = rB30;

1288

w[M4] = rB01;

1289

w[M4+1] = rB11;

1290

w[M4+2] = rB21;

1291

w[M4+3] = rB31;

1292

#if NRHS > 2

1293

w[2*M4] = rB02;

1294

w[2*M4+1] = rB12;

1295

w[2*M4+2] = rB22;

1296

w[2*M4+3] = rB32;

1297

#endif

1298

#if NRHS > 3

1299

w[3*M4] = rB03;

1300

w[3*M4+1] = rB13;

1301

w[3*M4+2] = rB23;

1302

w[3*M4+3] = rB33;

1303

#endif

1304

ATL_rk4(M4-k-4, a+4, lda, w, M4, w+4, M4);

1305

}

1306

#else

1307

ATL_rk4(M4-k-4, a+4, lda, w+4, M4);

1308

#endif

1309

} /* end k-loop that loops through L */

1310

} /* end j-loop over RHS */

1311

#undef lda

1312

} /* end routine */

1313

1314

static void ATL_trsmLUN

1315

(

1316

ATL_CINT M, /* size of orig triangular matrix A */

1317

ATL_CINT N, /* number of RHS in B */

1318

const SCALAR alpha, /* scale factor for B */

1319

const TYPE *A, /* M4xM4 Upper matrix A, diag has inverse of original diag */

1320

TYPE *B, /* on input, B, on output X, of A x = b */

1321

ATL_CINT ldb, /* leading dim of B */

1322

TYPE *W /* M4x4 workspace with good alignment */

1323

)

1324

{

1325

int j;

1326

ATL_CINT M4 = ((M+3)>>2)<<2, mr = M4-M;

1327

1328

* Loop over RHS, NRHS RHS at a time

1329

1330

for (j=0; j < N; j += NRHS, B += NRHS*ldb)

1331

{

1332

const int nb = Mmin(NRHS, N-j);

1333

int k, i;

1334

TYPE *w = W, *b = B;

1335

const TYPE *Ac = A + (M4-4)*M4, *a = Ac + M4-4;

1336

1337

* Copy NRHS RHS to aligned workspace and scale if necessary, alpha cannot be

1338

* zero, because this is handled as a special case at top

1339

1340

for (k=0; k < nb; k++, w += M4, b += ldb)

1341

{

1342

for (i=0; i < mr; i++)

1343

w[i] = ATL_rzero;

1344

if (alpha != 1.0)

1345

{

1346

for (; i < M4; i++)

1347

w[i] = alpha * b[i-mr];

1348

}

1349

else

1350

{

1351

for (; i < M4; i++)

1352

w[i] = b[i-mr];

1353

}

1354

}

1355

for (; k < NRHS; k++, w += M4)

1356

for (i=0; i < M4; i++)

1357

w[i] = ATL_rzero;

1358

1359

* Completely solve these RHSs by looping over entire triangular matrix

1360

1361

b = B + M;

1362

w = W + M4-4;

1363

for (k=0; k < M; k += 4, w -= 4, a -= (M4+1)<<2, Ac -= M4<<2)

1364

{

1365

ATL_CINT mr = Mmin(4,M-k);

1366

RTYPE rB00 = *w, rB10=w[1], rB20=w[2], rB30=w[3];

1367

RTYPE rB01=w[M4], rB11=w[M4+1], rB21=w[M4+2], rB31=w[M4+3];

1368

#if NRHS > 2

1369

RTYPE rB02=w[2*M4],rB12=w[2*M4+1],rB22=w[2*M4+2],rB32=w[2*M4+3];

1370

#endif

1371

#if NRHS > 3

1372

RTYPE rB03=w[3*M4],rB13=w[3*M4+1],rB23=w[3*M4+2],rB33=w[3*M4+3];

1373

#endif

1374

1375

* Solve M=4 NRHS=4 TRSM symbolically

1376

1377

b -= mr;

1378

ATL_trsmU4(a, M4, b, ldb);

1379

1380

* Write solved 4x4 block out to original workspace (final answer)

1381

* Handle most common case with only one if

1382

1383

if (mr == 4 && nb == NRHS)

1384

{

1385

*b = rB00;

1386

b[1] = rB10;

1387

b[2] = rB20;

1388

b[3] = rB30;

1389

b[ldb] = rB01;

1390

b[ldb+1] = rB11;

1391

b[ldb+2] = rB21;

1392

b[ldb+3] = rB31;

1393

#if NRHS > 2

1394

b[ldb+ldb] = rB02;

1395

b[ldb+ldb+1] = rB12;

1396

b[ldb+ldb+2] = rB22;

1397

b[ldb+ldb+3] = rB32;

1398

#endif

1399

#if NRHS > 3

1400

b[(ldb<<1)+ldb] = rB03;

1401

b[(ldb<<1)+ldb+1] = rB13;

1402

b[(ldb<<1)+ldb+2] = rB23;

1403

b[(ldb<<1)+ldb+3] = rB33;

1404

#endif

1405

}

1406

else

1407

{

1408

switch(mr)

1409

{

1410

case 1:

1411

*b = rB30;

1412

break;

1413

case 2:

1414

*b = rB20;

1415

b[1] = rB30;

1416

break;

1417

case 3:

1418

*b = rB10;

1419

b[1] = rB20;

1420

b[2] = rB30;

1421

break;

1422

case 4:

1423

*b = rB00;

1424

b[1] = rB10;

1425

b[2] = rB20;

1426

b[3] = rB30;

1427

break;

1428

}

1429

if (nb > 1)

1430

{

1431

switch(mr)

1432

{

1433

case 1:

1434

b[ldb] = rB31;

1435

break;

1436

case 2:

1437

b[ldb] = rB21;

1438

b[ldb+1] = rB31;

1439

break;

1440

case 3:

1441

b[ldb] = rB11;

1442

b[ldb+1] = rB21;

1443

b[ldb+2] = rB31;

1444

break;

1445

case 4:

1446

b[ldb] = rB01;

1447

b[ldb+1] = rB11;

1448

b[ldb+2] = rB21;

1449

b[ldb+3] = rB31;

1450

break;

1451

}

1452

#if NRHS > 2

1453

if (nb > 2)

1454

{

1455

switch(mr)

1456

{

1457

case 1:

1458

b[ldb+ldb] = rB32;

1459

break;

1460

case 2:

1461

b[ldb+ldb] = rB22;

1462

b[ldb+ldb+1] = rB32;

1463

break;

1464

case 3:

1465

b[ldb+ldb] = rB12;

1466

b[ldb+ldb+1] = rB22;

1467

b[ldb+ldb+2] = rB32;

1468

break;

1469

case 4:

1470

b[ldb+ldb] = rB02;

1471

b[ldb+ldb+1] = rB12;

1472

b[ldb+ldb+2] = rB22;

1473

b[ldb+ldb+3] = rB32;

1474

break;

1475

}

1476

#if NRHS > 3

1477

if (nb > 3)

1478

{

1479

ATL_CINT ldb3 = ldb+(ldb<<1);

1480

switch(mr)

1481

{

1482

case 1:

1483

b[ldb3] = rB33;

1484

break;

1485

case 2:

1486

b[ldb3] = rB23;

1487

b[ldb3+1] = rB33;

1488

break;

1489

case 3:

1490

b[ldb3] = rB13;

1491

b[ldb3+1] = rB23;

1492

b[ldb3+2] = rB33;

1493

break;

1494

case 4:

1495

b[ldb3] = rB03;

1496

b[ldb3+1] = rB13;

1497

b[ldb3+2] = rB23;

1498

b[ldb3+3] = rB33;

1499

break;

1500

}

1501

}

1502

#endif

1503

}

1504

#endif

1505

}

1506

}

1507

1508

* Subtract off x0-x4 contribution from rest of B using rank-4 update

1509

1510

#if ATL_BINWRK

1511

if (M-k-4 > 0)

1512

{

1513

*w = rB00;

1514

w[1] = rB10;

1515

w[2] = rB20;

1516

w[3] = rB30;

1517

w[M4] = rB01;

1518

w[M4+1] = rB11;

1519

w[M4+2] = rB21;

1520

w[M4+3] = rB31;

1521

#if NRHS > 2

1522

w[2*M4] = rB02;

1523

w[2*M4+1] = rB12;

1524

w[2*M4+2] = rB22;

1525

w[2*M4+3] = rB32;

1526

#endif

1527

#if NRHS > 3

1528

w[3*M4] = rB03;

1529

w[3*M4+1] = rB13;

1530

w[3*M4+2] = rB23;

1531

w[3*M4+3] = rB33;

1532

#endif

1533

ATL_rk4(M4-k-4, Ac, M4, w, M4, W, M4);

1534

}

1535

#else

1536

ATL_rk4(M4-k-4, Ac, M4, W, M4);

1537

#endif

1538

} /* end k-loop that loops through L */

1539

} /* end j-loop over RHS */

1540

} /* end routine */

1541

1542

ATL_SINLINE void trL2U

1543

(ATL_CINT N, const TYPE *L, ATL_CINT ldl, TYPE *U, ATL_CINT ldu)

1544

1545

* reflects lower part of L into upper part of U

1546

1547

{

1548

const TYPE *Lc=L;

1549

ATL_INT i, j;

1550

1551

for (j=0; j < N; j++, Lc += ldl)

1552

{

1553

TYPE *Ur = U + j;

1554

for (i=j; i < N; i++)

1555

U[j+i*ldu] = Lc[i];

1556

}

1557

}

1558

1559

ATL_SINLINE void trU2L

1560

(ATL_CINT N, const TYPE *U, ATL_CINT ldu, TYPE *L, ATL_CINT ldl)

1561

1562

* reflects upper part of U into lower part of L

1563

1564

{

1565

ATL_INT i, j;

1566

const TYPE *Uc = U;

1567

1568

for (j=0; j < N; j++, Uc += ldu)

1569

{

1570

TYPE *Lr = L + j;

1571

for (i=0; i <= j; i++, Lr += ldl)

1572

*Lr = Uc[i];

1573

}

1574

}

1575

1576

1577

* Copy original U to aligned workspace, invert diagonal elts, pad wt I

1578

* Padding is at top of upper triangular matrix

1579

1580

static void cpypadU

1581

(

1582

enum ATLAS_DIAG Diag,

1583

ATL_CINT N, /* size of triangular matrix A */

1584

const TYPE *A, /* lower triangular matrix */

1585

ATL_CINT lda, /* leading dim of A */

1586

TYPE *a, /* cpy of A, padded to N4 with I */

1587

ATL_CINT N4 /* leading dim of A */

1588

)

1589

{

1590

int i, j;

1591

const int mr = N4-N;

1592

1593

for (j=0; j < mr; j++, a += N4)

1594

{

1595

for (i=0; i < N4; i++)

1596

a[i] = ATL_rzero;

1597

a[j] = ATL_rone;

1598

}

1599

for (; j < N4; j++, a += N4, A += lda)

1600

{

1601

for (i=0; i < mr; i++)

1602

a[i] = ATL_rzero;

1603

for (; i < j; i++)

1604

a[i] = A[i-mr];

1605

a[j] = (Diag == AtlasNonUnit) ? 1.0 / A[j-mr] : ATL_rone;

1606

}

1607

}

1608

1609

1610

* Copy original L to aligned workspace, invert diagonal elts, pad wt I

1611

1612

static void cpypadL

1613

(

1614

enum ATLAS_DIAG Diag,

1615

ATL_CINT N, /* size of triangular matrix A */

1616

const TYPE *A, /* lower triangular matrix */

1617

ATL_CINT lda, /* leading dim of A */

1618

TYPE *a, /* cpy of A, padded to N4 with I */

1619

ATL_CINT N4 /* leading dim of A */

1620

1621

)

1622

{

1623

int i, j;

1624

1625

for (j=0; j < N; j++, a += N4, A += lda)

1626

{

1627

a[j] = (Diag == AtlasNonUnit) ? 1.0 / A[j] : ATL_rone;

1628

for (i=j+1; i < N; i++)

1629

a[i] = A[i];

1630

for (; i < N4; i++)

1631

a[i] = ATL_rzero;

1632

}

1633

for (; j < N4; j++, a += N4)

1634

{

1635

for (i=0; i < N4; i++)

1636

a[i] = ATL_rzero;

1637

a[j] = ATL_rone;

1638

}

1639

}

1640

int Mjoin(PATL,trsmKL_rk4) /* returns 0 on success */

1641

(

1642

enum ATLAS_SIDE Side,

1643

enum ATLAS_UPLO Uplo,

1644

enum ATLAS_TRANS TA,

1645

enum ATLAS_DIAG Diag,

1646

ATL_CINT M, /* size of triangular matrix A */

1647

ATL_CINT N, /* number of RHS in B */

1648

const SCALAR alpha, /* scale factor for B */

1649

const TYPE *A0, /* MxM lower matrix A, diag has inverse of original diag */

1650

ATL_CINT lda0,

1651

TYPE *B, /* on input, B, on output X, of A x = b */

1652

ATL_CINT ldb /* leading dim of B */

1653

)

1654

{

1655

void *vp;

1656

const TYPE *A = A0;

1657

TYPE *a, *w, *t=NULL;

1658

ATL_CINT M4 = ((M+3)>>2)<<2;

1659

ATL_INT lda = lda0;

1660

int UPPER = (Uplo == AtlasUpper);

1661

1662

if (TA == AtlasTrans)

1663

{

1664

t = malloc(M*M*sizeof(TYPE));

1665

ATL_assert(t);

1666

if (UPPER)

1667

trU2L(M, A0, lda0, t, M);

1668

else

1669

trL2U(M, A0, lda0, t, M);

1670

UPPER = !UPPER;

1671

A = (const TYPE *) t;

1672

lda = M;

1673

}

1674

vp = malloc(sizeof(TYPE)*(M4*M4+M4*NRHS)+2*ATL_Cachelen);

1675

if (!vp)

1676

return(1);

1677

1678

a = ATL_AlignPtr(vp);

1679

w = a + M4*M4;

1680

w = ATL_AlignPtr(w);

1681

if (!UPPER)

1682

{

1683

int j, i;

1684

TYPE *ap=a;

1685

cpypadL(Diag, M, A, lda, a, M4);

1686

if (t)

1687

free(t);

1688

ATL_trsmLLN(M, N, alpha, a, B, ldb, w);

1689

}

1690

else /* Uplo == AtlasUpper */

1691

{

1692

int j, i;

1693

const int mr = M4-M;

1694

TYPE *ap=a;

1695

cpypadU(Diag, M, A, lda, a, M4);

1696

if (t)

1697

free(t);

1698

ATL_trsmLUN(M, N, alpha, a, B, ldb, w);

1699

}

1700

free(vp);

1701

return(0);

1702

}

Older »