~ubuntu-branches/ubuntu/vivid/atlas/vivid

« back to all changes in this revision

Viewing changes to src/auxil/ATL_sqtrans.c

  • Committer: Package Import Robot
  • Author(s): Sébastien Villemot
  • Date: 2013-06-11 15:58:16 UTC
  • mfrom: (1.1.3 upstream)
  • mto: (2.2.21 experimental)
  • mto: This revision was merged to the branch mainline in revision 26.
  • Revision ID: package-import@ubuntu.com-20130611155816-b72z8f621tuhbzn0
Tags: upstream-3.10.1
Import upstream version 3.10.1

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
/*
 
2
 *             Automatically Tuned Linear Algebra Software v3.10.1
 
3
 * Copyright (C) 2009 R. Clint Whaley
 
4
 *
 
5
 * Redistribution and use in source and binary forms, with or without
 
6
 * modification, are permitted provided that the following conditions
 
7
 * are met:
 
8
 *   1. Redistributions of source code must retain the above copyright
 
9
 *      notice, this list of conditions and the following disclaimer.
 
10
 *   2. Redistributions in binary form must reproduce the above copyright
 
11
 *      notice, this list of conditions, and the following disclaimer in the
 
12
 *      documentation and/or other materials provided with the distribution.
 
13
 *   3. The name of the ATLAS group or the names of its contributers may
 
14
 *      not be used to endorse or promote products derived from this
 
15
 *      software without specific written permission.
 
16
 *
 
17
 * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
 
18
 * ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED
 
19
 * TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
 
20
 * PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE ATLAS GROUP OR ITS CONTRIBUTORS
 
21
 * BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR
 
22
 * CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF
 
23
 * SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS
 
24
 * INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN
 
25
 * CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)
 
26
 * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
 
27
 * POSSIBILITY OF SUCH DAMAGE.
 
28
 *
 
29
 */
 
30
#include "atlas_misc.h"
 
31
#include "atlas_level1.h"
 
32
#define NB 32
 
33
#define ATL_MulByNB(n_) ((n_)<<5)
 
34
#define ATL_DivByNB(n_) ((n_)>>5)
 
35
 
 
36
static void Mjoin(PATL,sqtrans0)(ATL_CINT N, TYPE *C, ATL_CINT ldc)
 
37
/*
 
38
 * Does an in-place transpose of a square matrix.
 
39
 * NOTE: this should only be used on small matrices, as it is not optimized
 
40
 *       for the TLB.
 
41
 */
 
42
{
 
43
   ATL_INT j;
 
44
/*
 
45
 * We will work by reflecting swapping columns & rows across diagonal,
 
46
 * starting from the last column, so that early cols are retained in cache
 
47
 */
 
48
   for (j=N-1; j; j--)
 
49
      Mjoin(PATL,swap)(j, C+((size_t)ldc)*(j SHIFT), 1, C+(j SHIFT), ldc);
 
50
}
 
51
 
 
52
void Mjoin(PATL,sqtrans)(ATL_CINT N, TYPE *C, ATL_CINT ldc)
 
53
/*
 
54
 * Does an in-place transpose of a square matrix.  This routine is blocked
 
55
 * to help with TLB
 
56
 */
 
57
{
 
58
   const size_t ldt = ldc;
 
59
   ATL_CINT Nnb = ATL_MulByNB(ATL_DivByNB(N)), Nr = N - Nnb;
 
60
   ATL_INT i, j;
 
61
 
 
62
   if (N < NB+NB)
 
63
   {
 
64
      Mjoin(PATL,sqtrans0)(N, C, ldc);
 
65
      return;
 
66
   }
 
67
/*
 
68
 * Loop in reverse order, so first part of matrix retained in cache
 
69
 */
 
70
   if (Nr)
 
71
   {
 
72
      for (i=0; i < Nnb; i += NB)
 
73
         Mjoin(PATL,geswapT)(NB, Nr, C+((Nnb*ldt+i)SHIFT), ldc,
 
74
                             C+((Nnb+i*ldt)SHIFT), ldc);
 
75
      Mjoin(PATL,sqtrans0)(Nr, C+((Nnb*(ldt+1))SHIFT), ldc);
 
76
   }
 
77
   for (j=Nnb-NB; j >= 0; j -= NB)
 
78
   {
 
79
 
 
80
      for (i=0; i < j; i += NB)
 
81
         Mjoin(PATL,geswapT)(NB, NB, C+((j*ldt+i)SHIFT), ldc,
 
82
                             C+((j+i*ldt)SHIFT), ldc);
 
83
      Mjoin(PATL,sqtrans0)(NB, C+((j*(ldt+1))SHIFT), ldc);
 
84
   }
 
85
}