~ubuntu-branches/ubuntu/precise/linux-lowlatency/precise

« back to all changes in this revision

Viewing changes to arch/microblaze/lib/fastcopy.S

  • Committer: Package Import Robot
  • Author(s): Alessio Igor Bogani
  • Date: 2011-10-26 11:13:05 UTC
  • Revision ID: package-import@ubuntu.com-20111026111305-tz023xykf0i6eosh
Tags: upstream-3.2.0
ImportĀ upstreamĀ versionĀ 3.2.0

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
/*
 
2
 * Copyright (C) 2008-2009 Michal Simek <monstr@monstr.eu>
 
3
 * Copyright (C) 2008-2009 PetaLogix
 
4
 * Copyright (C) 2008 Jim Law - Iris LP  All rights reserved.
 
5
 *
 
6
 * This file is subject to the terms and conditions of the GNU General
 
7
 * Public License.  See the file COPYING in the main directory of this
 
8
 * archive for more details.
 
9
 *
 
10
 * Written by Jim Law <jlaw@irispower.com>
 
11
 *
 
12
 * intended to replace:
 
13
 *      memcpy in memcpy.c and
 
14
 *      memmove in memmove.c
 
15
 * ... in arch/microblaze/lib
 
16
 *
 
17
 *
 
18
 * assly_fastcopy.S
 
19
 *
 
20
 * Attempt at quicker memcpy and memmove for MicroBlaze
 
21
 *      Input : Operand1 in Reg r5 - destination address
 
22
 *              Operand2 in Reg r6 - source address
 
23
 *              Operand3 in Reg r7 - number of bytes to transfer
 
24
 *      Output: Result in Reg r3 - starting destinaition address
 
25
 *
 
26
 *
 
27
 * Explanation:
 
28
 *      Perform (possibly unaligned) copy of a block of memory
 
29
 *      between mem locations with size of xfer spec'd in bytes
 
30
 */
 
31
 
 
32
#ifdef __MICROBLAZEEL__
 
33
#error Microblaze LE not support ASM optimized lib func. Disable OPT_LIB_ASM.
 
34
#endif
 
35
 
 
36
#include <linux/linkage.h>
 
37
        .text
 
38
        .globl  memcpy
 
39
        .type  memcpy, @function
 
40
        .ent    memcpy
 
41
 
 
42
memcpy:
 
43
fast_memcpy_ascending:
 
44
        /* move d to return register as value of function */
 
45
        addi    r3, r5, 0
 
46
 
 
47
        addi    r4, r0, 4       /* n = 4 */
 
48
        cmpu    r4, r4, r7      /* n = c - n  (unsigned) */
 
49
        blti    r4, a_xfer_end  /* if n < 0, less than one word to transfer */
 
50
 
 
51
        /* transfer first 0~3 bytes to get aligned dest address */
 
52
        andi    r4, r5, 3               /* n = d & 3 */
 
53
        /* if zero, destination already aligned */
 
54
        beqi    r4, a_dalign_done
 
55
        /* n = 4 - n (yields 3, 2, 1 transfers for 1, 2, 3 addr offset) */
 
56
        rsubi   r4, r4, 4
 
57
        rsub    r7, r4, r7              /* c = c - n adjust c */
 
58
 
 
59
a_xfer_first_loop:
 
60
        /* if no bytes left to transfer, transfer the bulk */
 
61
        beqi    r4, a_dalign_done
 
62
        lbui    r11, r6, 0              /* h = *s */
 
63
        sbi     r11, r5, 0              /* *d = h */
 
64
        addi    r6, r6, 1               /* s++ */
 
65
        addi    r5, r5, 1               /* d++ */
 
66
        brid    a_xfer_first_loop       /* loop */
 
67
        addi    r4, r4, -1              /* n-- (IN DELAY SLOT) */
 
68
 
 
69
a_dalign_done:
 
70
        addi    r4, r0, 32              /* n = 32 */
 
71
        cmpu    r4, r4, r7              /* n = c - n  (unsigned) */
 
72
        /* if n < 0, less than one block to transfer */
 
73
        blti    r4, a_block_done
 
74
 
 
75
a_block_xfer:
 
76
        andi    r4, r7, 0xffffffe0      /* n = c & ~31 */
 
77
        rsub    r7, r4, r7              /* c = c - n */
 
78
 
 
79
        andi    r9, r6, 3               /* t1 = s & 3 */
 
80
        /* if temp != 0, unaligned transfers needed */
 
81
        bnei    r9, a_block_unaligned
 
82
 
 
83
a_block_aligned:
 
84
        lwi     r9, r6, 0               /* t1 = *(s + 0) */
 
85
        lwi     r10, r6, 4              /* t2 = *(s + 4) */
 
86
        lwi     r11, r6, 8              /* t3 = *(s + 8) */
 
87
        lwi     r12, r6, 12             /* t4 = *(s + 12) */
 
88
        swi     r9, r5, 0               /* *(d + 0) = t1 */
 
89
        swi     r10, r5, 4              /* *(d + 4) = t2 */
 
90
        swi     r11, r5, 8              /* *(d + 8) = t3 */
 
91
        swi     r12, r5, 12             /* *(d + 12) = t4 */
 
92
        lwi     r9, r6, 16              /* t1 = *(s + 16) */
 
93
        lwi     r10, r6, 20             /* t2 = *(s + 20) */
 
94
        lwi     r11, r6, 24             /* t3 = *(s + 24) */
 
95
        lwi     r12, r6, 28             /* t4 = *(s + 28) */
 
96
        swi     r9, r5, 16              /* *(d + 16) = t1 */
 
97
        swi     r10, r5, 20             /* *(d + 20) = t2 */
 
98
        swi     r11, r5, 24             /* *(d + 24) = t3 */
 
99
        swi     r12, r5, 28             /* *(d + 28) = t4 */
 
100
        addi    r6, r6, 32              /* s = s + 32 */
 
101
        addi    r4, r4, -32             /* n = n - 32 */
 
102
        bneid   r4, a_block_aligned     /* while (n) loop */
 
103
        addi    r5, r5, 32              /* d = d + 32 (IN DELAY SLOT) */
 
104
        bri     a_block_done
 
105
 
 
106
a_block_unaligned:
 
107
        andi    r8, r6, 0xfffffffc      /* as = s & ~3 */
 
108
        add     r6, r6, r4              /* s = s + n */
 
109
        lwi     r11, r8, 0              /* h = *(as + 0) */
 
110
 
 
111
        addi    r9, r9, -1
 
112
        beqi    r9, a_block_u1          /* t1 was 1 => 1 byte offset */
 
113
        addi    r9, r9, -1
 
114
        beqi    r9, a_block_u2          /* t1 was 2 => 2 byte offset */
 
115
 
 
116
a_block_u3:
 
117
        bslli   r11, r11, 24    /* h = h << 24 */
 
118
a_bu3_loop:
 
119
        lwi     r12, r8, 4      /* v = *(as + 4) */
 
120
        bsrli   r9, r12, 8      /* t1 = v >> 8 */
 
121
        or      r9, r11, r9     /* t1 = h | t1 */
 
122
        swi     r9, r5, 0       /* *(d + 0) = t1 */
 
123
        bslli   r11, r12, 24    /* h = v << 24 */
 
124
        lwi     r12, r8, 8      /* v = *(as + 8) */
 
125
        bsrli   r9, r12, 8      /* t1 = v >> 8 */
 
126
        or      r9, r11, r9     /* t1 = h | t1 */
 
127
        swi     r9, r5, 4       /* *(d + 4) = t1 */
 
128
        bslli   r11, r12, 24    /* h = v << 24 */
 
129
        lwi     r12, r8, 12     /* v = *(as + 12) */
 
130
        bsrli   r9, r12, 8      /* t1 = v >> 8 */
 
131
        or      r9, r11, r9     /* t1 = h | t1 */
 
132
        swi     r9, r5, 8       /* *(d + 8) = t1 */
 
133
        bslli   r11, r12, 24    /* h = v << 24 */
 
134
        lwi     r12, r8, 16     /* v = *(as + 16) */
 
135
        bsrli   r9, r12, 8      /* t1 = v >> 8 */
 
136
        or      r9, r11, r9     /* t1 = h | t1 */
 
137
        swi     r9, r5, 12      /* *(d + 12) = t1 */
 
138
        bslli   r11, r12, 24    /* h = v << 24 */
 
139
        lwi     r12, r8, 20     /* v = *(as + 20) */
 
140
        bsrli   r9, r12, 8      /* t1 = v >> 8 */
 
141
        or      r9, r11, r9     /* t1 = h | t1 */
 
142
        swi     r9, r5, 16      /* *(d + 16) = t1 */
 
143
        bslli   r11, r12, 24    /* h = v << 24 */
 
144
        lwi     r12, r8, 24     /* v = *(as + 24) */
 
145
        bsrli   r9, r12, 8      /* t1 = v >> 8 */
 
146
        or      r9, r11, r9     /* t1 = h | t1 */
 
147
        swi     r9, r5, 20      /* *(d + 20) = t1 */
 
148
        bslli   r11, r12, 24    /* h = v << 24 */
 
149
        lwi     r12, r8, 28     /* v = *(as + 28) */
 
150
        bsrli   r9, r12, 8      /* t1 = v >> 8 */
 
151
        or      r9, r11, r9     /* t1 = h | t1 */
 
152
        swi     r9, r5, 24      /* *(d + 24) = t1 */
 
153
        bslli   r11, r12, 24    /* h = v << 24 */
 
154
        lwi     r12, r8, 32     /* v = *(as + 32) */
 
155
        bsrli   r9, r12, 8      /* t1 = v >> 8 */
 
156
        or      r9, r11, r9     /* t1 = h | t1 */
 
157
        swi     r9, r5, 28      /* *(d + 28) = t1 */
 
158
        bslli   r11, r12, 24    /* h = v << 24 */
 
159
        addi    r8, r8, 32      /* as = as + 32 */
 
160
        addi    r4, r4, -32     /* n = n - 32 */
 
161
        bneid   r4, a_bu3_loop  /* while (n) loop */
 
162
        addi    r5, r5, 32      /* d = d + 32 (IN DELAY SLOT) */
 
163
        bri     a_block_done
 
164
 
 
165
a_block_u1:
 
166
        bslli   r11, r11, 8     /* h = h << 8 */
 
167
a_bu1_loop:
 
168
        lwi     r12, r8, 4      /* v = *(as + 4) */
 
169
        bsrli   r9, r12, 24     /* t1 = v >> 24 */
 
170
        or      r9, r11, r9     /* t1 = h | t1 */
 
171
        swi     r9, r5, 0       /* *(d + 0) = t1 */
 
172
        bslli   r11, r12, 8     /* h = v << 8 */
 
173
        lwi     r12, r8, 8      /* v = *(as + 8) */
 
174
        bsrli   r9, r12, 24     /* t1 = v >> 24 */
 
175
        or      r9, r11, r9     /* t1 = h | t1 */
 
176
        swi     r9, r5, 4       /* *(d + 4) = t1 */
 
177
        bslli   r11, r12, 8     /* h = v << 8 */
 
178
        lwi     r12, r8, 12     /* v = *(as + 12) */
 
179
        bsrli   r9, r12, 24     /* t1 = v >> 24 */
 
180
        or      r9, r11, r9     /* t1 = h | t1 */
 
181
        swi     r9, r5, 8       /* *(d + 8) = t1 */
 
182
        bslli   r11, r12, 8     /* h = v << 8 */
 
183
        lwi     r12, r8, 16     /* v = *(as + 16) */
 
184
        bsrli   r9, r12, 24     /* t1 = v >> 24 */
 
185
        or      r9, r11, r9     /* t1 = h | t1 */
 
186
        swi     r9, r5, 12      /* *(d + 12) = t1 */
 
187
        bslli   r11, r12, 8     /* h = v << 8 */
 
188
        lwi     r12, r8, 20     /* v = *(as + 20) */
 
189
        bsrli   r9, r12, 24     /* t1 = v >> 24 */
 
190
        or      r9, r11, r9     /* t1 = h | t1 */
 
191
        swi     r9, r5, 16      /* *(d + 16) = t1 */
 
192
        bslli   r11, r12, 8     /* h = v << 8 */
 
193
        lwi     r12, r8, 24     /* v = *(as + 24) */
 
194
        bsrli   r9, r12, 24     /* t1 = v >> 24 */
 
195
        or      r9, r11, r9     /* t1 = h | t1 */
 
196
        swi     r9, r5, 20      /* *(d + 20) = t1 */
 
197
        bslli   r11, r12, 8     /* h = v << 8 */
 
198
        lwi     r12, r8, 28     /* v = *(as + 28) */
 
199
        bsrli   r9, r12, 24     /* t1 = v >> 24 */
 
200
        or      r9, r11, r9     /* t1 = h | t1 */
 
201
        swi     r9, r5, 24      /* *(d + 24) = t1 */
 
202
        bslli   r11, r12, 8     /* h = v << 8 */
 
203
        lwi     r12, r8, 32     /* v = *(as + 32) */
 
204
        bsrli   r9, r12, 24     /* t1 = v >> 24 */
 
205
        or      r9, r11, r9     /* t1 = h | t1 */
 
206
        swi     r9, r5, 28      /* *(d + 28) = t1 */
 
207
        bslli   r11, r12, 8     /* h = v << 8 */
 
208
        addi    r8, r8, 32      /* as = as + 32 */
 
209
        addi    r4, r4, -32     /* n = n - 32 */
 
210
        bneid   r4, a_bu1_loop  /* while (n) loop */
 
211
        addi    r5, r5, 32      /* d = d + 32 (IN DELAY SLOT) */
 
212
        bri     a_block_done
 
213
 
 
214
a_block_u2:
 
215
        bslli   r11, r11, 16    /* h = h << 16 */
 
216
a_bu2_loop:
 
217
        lwi     r12, r8, 4      /* v = *(as + 4) */
 
218
        bsrli   r9, r12, 16     /* t1 = v >> 16 */
 
219
        or      r9, r11, r9     /* t1 = h | t1 */
 
220
        swi     r9, r5, 0       /* *(d + 0) = t1 */
 
221
        bslli   r11, r12, 16    /* h = v << 16 */
 
222
        lwi     r12, r8, 8      /* v = *(as + 8) */
 
223
        bsrli   r9, r12, 16     /* t1 = v >> 16 */
 
224
        or      r9, r11, r9     /* t1 = h | t1 */
 
225
        swi     r9, r5, 4       /* *(d + 4) = t1 */
 
226
        bslli   r11, r12, 16    /* h = v << 16 */
 
227
        lwi     r12, r8, 12     /* v = *(as + 12) */
 
228
        bsrli   r9, r12, 16     /* t1 = v >> 16 */
 
229
        or      r9, r11, r9     /* t1 = h | t1 */
 
230
        swi     r9, r5, 8       /* *(d + 8) = t1 */
 
231
        bslli   r11, r12, 16    /* h = v << 16 */
 
232
        lwi     r12, r8, 16     /* v = *(as + 16) */
 
233
        bsrli   r9, r12, 16     /* t1 = v >> 16 */
 
234
        or      r9, r11, r9     /* t1 = h | t1 */
 
235
        swi     r9, r5, 12      /* *(d + 12) = t1 */
 
236
        bslli   r11, r12, 16    /* h = v << 16 */
 
237
        lwi     r12, r8, 20     /* v = *(as + 20) */
 
238
        bsrli   r9, r12, 16     /* t1 = v >> 16 */
 
239
        or      r9, r11, r9     /* t1 = h | t1 */
 
240
        swi     r9, r5, 16      /* *(d + 16) = t1 */
 
241
        bslli   r11, r12, 16    /* h = v << 16 */
 
242
        lwi     r12, r8, 24     /* v = *(as + 24) */
 
243
        bsrli   r9, r12, 16     /* t1 = v >> 16 */
 
244
        or      r9, r11, r9     /* t1 = h | t1 */
 
245
        swi     r9, r5, 20      /* *(d + 20) = t1 */
 
246
        bslli   r11, r12, 16    /* h = v << 16 */
 
247
        lwi     r12, r8, 28     /* v = *(as + 28) */
 
248
        bsrli   r9, r12, 16     /* t1 = v >> 16 */
 
249
        or      r9, r11, r9     /* t1 = h | t1 */
 
250
        swi     r9, r5, 24      /* *(d + 24) = t1 */
 
251
        bslli   r11, r12, 16    /* h = v << 16 */
 
252
        lwi     r12, r8, 32     /* v = *(as + 32) */
 
253
        bsrli   r9, r12, 16     /* t1 = v >> 16 */
 
254
        or      r9, r11, r9     /* t1 = h | t1 */
 
255
        swi     r9, r5, 28      /* *(d + 28) = t1 */
 
256
        bslli   r11, r12, 16    /* h = v << 16 */
 
257
        addi    r8, r8, 32      /* as = as + 32 */
 
258
        addi    r4, r4, -32     /* n = n - 32 */
 
259
        bneid   r4, a_bu2_loop  /* while (n) loop */
 
260
        addi    r5, r5, 32      /* d = d + 32 (IN DELAY SLOT) */
 
261
 
 
262
a_block_done:
 
263
        addi    r4, r0, 4       /* n = 4 */
 
264
        cmpu    r4, r4, r7      /* n = c - n  (unsigned) */
 
265
        blti    r4, a_xfer_end  /* if n < 0, less than one word to transfer */
 
266
 
 
267
a_word_xfer:
 
268
        andi    r4, r7, 0xfffffffc      /* n = c & ~3 */
 
269
        addi    r10, r0, 0              /* offset = 0 */
 
270
 
 
271
        andi    r9, r6, 3               /* t1 = s & 3 */
 
272
        /* if temp != 0, unaligned transfers needed */
 
273
        bnei    r9, a_word_unaligned
 
274
 
 
275
a_word_aligned:
 
276
        lw      r9, r6, r10             /* t1 = *(s+offset) */
 
277
        sw      r9, r5, r10             /* *(d+offset) = t1 */
 
278
        addi    r4, r4,-4               /* n-- */
 
279
        bneid   r4, a_word_aligned      /* loop */
 
280
        addi    r10, r10, 4             /* offset++ (IN DELAY SLOT) */
 
281
 
 
282
        bri     a_word_done
 
283
 
 
284
a_word_unaligned:
 
285
        andi    r8, r6, 0xfffffffc      /* as = s & ~3 */
 
286
        lwi     r11, r8, 0              /* h = *(as + 0) */
 
287
        addi    r8, r8, 4               /* as = as + 4 */
 
288
 
 
289
        addi    r9, r9, -1
 
290
        beqi    r9, a_word_u1           /* t1 was 1 => 1 byte offset */
 
291
        addi    r9, r9, -1
 
292
        beqi    r9, a_word_u2           /* t1 was 2 => 2 byte offset */
 
293
 
 
294
a_word_u3:
 
295
        bslli   r11, r11, 24    /* h = h << 24 */
 
296
a_wu3_loop:
 
297
        lw      r12, r8, r10    /* v = *(as + offset) */
 
298
        bsrli   r9, r12, 8      /* t1 = v >> 8 */
 
299
        or      r9, r11, r9     /* t1 = h | t1 */
 
300
        sw      r9, r5, r10     /* *(d + offset) = t1 */
 
301
        bslli   r11, r12, 24    /* h = v << 24 */
 
302
        addi    r4, r4,-4       /* n = n - 4 */
 
303
        bneid   r4, a_wu3_loop  /* while (n) loop */
 
304
        addi    r10, r10, 4     /* offset = ofset + 4 (IN DELAY SLOT) */
 
305
 
 
306
        bri     a_word_done
 
307
 
 
308
a_word_u1:
 
309
        bslli   r11, r11, 8     /* h = h << 8 */
 
310
a_wu1_loop:
 
311
        lw      r12, r8, r10    /* v = *(as + offset) */
 
312
        bsrli   r9, r12, 24     /* t1 = v >> 24 */
 
313
        or      r9, r11, r9     /* t1 = h | t1 */
 
314
        sw      r9, r5, r10     /* *(d + offset) = t1 */
 
315
        bslli   r11, r12, 8     /* h = v << 8 */
 
316
        addi    r4, r4,-4       /* n = n - 4 */
 
317
        bneid   r4, a_wu1_loop  /* while (n) loop */
 
318
        addi    r10, r10, 4     /* offset = ofset + 4 (IN DELAY SLOT) */
 
319
 
 
320
        bri     a_word_done
 
321
 
 
322
a_word_u2:
 
323
        bslli   r11, r11, 16    /* h = h << 16 */
 
324
a_wu2_loop:
 
325
        lw      r12, r8, r10    /* v = *(as + offset) */
 
326
        bsrli   r9, r12, 16     /* t1 = v >> 16 */
 
327
        or      r9, r11, r9     /* t1 = h | t1 */
 
328
        sw      r9, r5, r10     /* *(d + offset) = t1 */
 
329
        bslli   r11, r12, 16    /* h = v << 16 */
 
330
        addi    r4, r4,-4       /* n = n - 4 */
 
331
        bneid   r4, a_wu2_loop  /* while (n) loop */
 
332
        addi    r10, r10, 4     /* offset = ofset + 4 (IN DELAY SLOT) */
 
333
 
 
334
a_word_done:
 
335
        add     r5, r5, r10     /* d = d + offset */
 
336
        add     r6, r6, r10     /* s = s + offset */
 
337
        rsub    r7, r10, r7     /* c = c - offset */
 
338
 
 
339
a_xfer_end:
 
340
a_xfer_end_loop:
 
341
        beqi    r7, a_done              /* while (c) */
 
342
        lbui    r9, r6, 0               /* t1 = *s */
 
343
        addi    r6, r6, 1               /* s++ */
 
344
        sbi     r9, r5, 0               /* *d = t1 */
 
345
        addi    r7, r7, -1              /* c-- */
 
346
        brid    a_xfer_end_loop         /* loop */
 
347
        addi    r5, r5, 1               /* d++ (IN DELAY SLOT) */
 
348
 
 
349
a_done:
 
350
        rtsd    r15, 8
 
351
        nop
 
352
 
 
353
.size  memcpy, . - memcpy
 
354
.end memcpy
 
355
/*----------------------------------------------------------------------------*/
 
356
        .globl  memmove
 
357
        .type  memmove, @function
 
358
        .ent    memmove
 
359
 
 
360
memmove:
 
361
        cmpu    r4, r5, r6      /* n = s - d */
 
362
        bgei    r4,fast_memcpy_ascending
 
363
 
 
364
fast_memcpy_descending:
 
365
        /* move d to return register as value of function */
 
366
        addi    r3, r5, 0
 
367
 
 
368
        add     r5, r5, r7      /* d = d + c */
 
369
        add     r6, r6, r7      /* s = s + c */
 
370
 
 
371
        addi    r4, r0, 4       /* n = 4 */
 
372
        cmpu    r4, r4, r7      /* n = c - n  (unsigned) */
 
373
        blti    r4,d_xfer_end   /* if n < 0, less than one word to transfer */
 
374
 
 
375
        /* transfer first 0~3 bytes to get aligned dest address */
 
376
        andi    r4, r5, 3               /* n = d & 3 */
 
377
        /* if zero, destination already aligned */
 
378
        beqi    r4,d_dalign_done
 
379
        rsub    r7, r4, r7              /* c = c - n adjust c */
 
380
 
 
381
d_xfer_first_loop:
 
382
        /* if no bytes left to transfer, transfer the bulk */
 
383
        beqi    r4,d_dalign_done
 
384
        addi    r6, r6, -1              /* s-- */
 
385
        addi    r5, r5, -1              /* d-- */
 
386
        lbui    r11, r6, 0              /* h = *s */
 
387
        sbi     r11, r5, 0              /* *d = h */
 
388
        brid    d_xfer_first_loop       /* loop */
 
389
        addi    r4, r4, -1              /* n-- (IN DELAY SLOT) */
 
390
 
 
391
d_dalign_done:
 
392
        addi    r4, r0, 32      /* n = 32 */
 
393
        cmpu    r4, r4, r7      /* n = c - n  (unsigned) */
 
394
        /* if n < 0, less than one block to transfer */
 
395
        blti    r4, d_block_done
 
396
 
 
397
d_block_xfer:
 
398
        andi    r4, r7, 0xffffffe0      /* n = c & ~31 */
 
399
        rsub    r7, r4, r7              /* c = c - n */
 
400
 
 
401
        andi    r9, r6, 3               /* t1 = s & 3 */
 
402
        /* if temp != 0, unaligned transfers needed */
 
403
        bnei    r9, d_block_unaligned
 
404
 
 
405
d_block_aligned:
 
406
        addi    r6, r6, -32             /* s = s - 32 */
 
407
        addi    r5, r5, -32             /* d = d - 32 */
 
408
        lwi     r9, r6, 28              /* t1 = *(s + 28) */
 
409
        lwi     r10, r6, 24             /* t2 = *(s + 24) */
 
410
        lwi     r11, r6, 20             /* t3 = *(s + 20) */
 
411
        lwi     r12, r6, 16             /* t4 = *(s + 16) */
 
412
        swi     r9, r5, 28              /* *(d + 28) = t1 */
 
413
        swi     r10, r5, 24             /* *(d + 24) = t2 */
 
414
        swi     r11, r5, 20             /* *(d + 20) = t3 */
 
415
        swi     r12, r5, 16             /* *(d + 16) = t4 */
 
416
        lwi     r9, r6, 12              /* t1 = *(s + 12) */
 
417
        lwi     r10, r6, 8              /* t2 = *(s + 8) */
 
418
        lwi     r11, r6, 4              /* t3 = *(s + 4) */
 
419
        lwi     r12, r6, 0              /* t4 = *(s + 0) */
 
420
        swi     r9, r5, 12              /* *(d + 12) = t1 */
 
421
        swi     r10, r5, 8              /* *(d + 8) = t2 */
 
422
        swi     r11, r5, 4              /* *(d + 4) = t3 */
 
423
        addi    r4, r4, -32             /* n = n - 32 */
 
424
        bneid   r4, d_block_aligned     /* while (n) loop */
 
425
        swi     r12, r5, 0              /* *(d + 0) = t4 (IN DELAY SLOT) */
 
426
        bri     d_block_done
 
427
 
 
428
d_block_unaligned:
 
429
        andi    r8, r6, 0xfffffffc      /* as = s & ~3 */
 
430
        rsub    r6, r4, r6              /* s = s - n */
 
431
        lwi     r11, r8, 0              /* h = *(as + 0) */
 
432
 
 
433
        addi    r9, r9, -1
 
434
        beqi    r9,d_block_u1           /* t1 was 1 => 1 byte offset */
 
435
        addi    r9, r9, -1
 
436
        beqi    r9,d_block_u2           /* t1 was 2 => 2 byte offset */
 
437
 
 
438
d_block_u3:
 
439
        bsrli   r11, r11, 8     /* h = h >> 8 */
 
440
d_bu3_loop:
 
441
        addi    r8, r8, -32     /* as = as - 32 */
 
442
        addi    r5, r5, -32     /* d = d - 32 */
 
443
        lwi     r12, r8, 28     /* v = *(as + 28) */
 
444
        bslli   r9, r12, 24     /* t1 = v << 24 */
 
445
        or      r9, r11, r9     /* t1 = h | t1 */
 
446
        swi     r9, r5, 28      /* *(d + 28) = t1 */
 
447
        bsrli   r11, r12, 8     /* h = v >> 8 */
 
448
        lwi     r12, r8, 24     /* v = *(as + 24) */
 
449
        bslli   r9, r12, 24     /* t1 = v << 24 */
 
450
        or      r9, r11, r9     /* t1 = h | t1 */
 
451
        swi     r9, r5, 24      /* *(d + 24) = t1 */
 
452
        bsrli   r11, r12, 8     /* h = v >> 8 */
 
453
        lwi     r12, r8, 20     /* v = *(as + 20) */
 
454
        bslli   r9, r12, 24     /* t1 = v << 24 */
 
455
        or      r9, r11, r9     /* t1 = h | t1 */
 
456
        swi     r9, r5, 20      /* *(d + 20) = t1 */
 
457
        bsrli   r11, r12, 8     /* h = v >> 8 */
 
458
        lwi     r12, r8, 16     /* v = *(as + 16) */
 
459
        bslli   r9, r12, 24     /* t1 = v << 24 */
 
460
        or      r9, r11, r9     /* t1 = h | t1 */
 
461
        swi     r9, r5, 16      /* *(d + 16) = t1 */
 
462
        bsrli   r11, r12, 8     /* h = v >> 8 */
 
463
        lwi     r12, r8, 12     /* v = *(as + 12) */
 
464
        bslli   r9, r12, 24     /* t1 = v << 24 */
 
465
        or      r9, r11, r9     /* t1 = h | t1 */
 
466
        swi     r9, r5, 12      /* *(d + 112) = t1 */
 
467
        bsrli   r11, r12, 8     /* h = v >> 8 */
 
468
        lwi     r12, r8, 8      /* v = *(as + 8) */
 
469
        bslli   r9, r12, 24     /* t1 = v << 24 */
 
470
        or      r9, r11, r9     /* t1 = h | t1 */
 
471
        swi     r9, r5, 8       /* *(d + 8) = t1 */
 
472
        bsrli   r11, r12, 8     /* h = v >> 8 */
 
473
        lwi     r12, r8, 4      /* v = *(as + 4) */
 
474
        bslli   r9, r12, 24     /* t1 = v << 24 */
 
475
        or      r9, r11, r9     /* t1 = h | t1 */
 
476
        swi     r9, r5, 4       /* *(d + 4) = t1 */
 
477
        bsrli   r11, r12, 8     /* h = v >> 8 */
 
478
        lwi     r12, r8, 0      /* v = *(as + 0) */
 
479
        bslli   r9, r12, 24     /* t1 = v << 24 */
 
480
        or      r9, r11, r9     /* t1 = h | t1 */
 
481
        swi     r9, r5, 0       /* *(d + 0) = t1 */
 
482
        addi    r4, r4, -32     /* n = n - 32 */
 
483
        bneid   r4, d_bu3_loop  /* while (n) loop */
 
484
        bsrli   r11, r12, 8     /* h = v >> 8 (IN DELAY SLOT) */
 
485
        bri     d_block_done
 
486
 
 
487
d_block_u1:
 
488
        bsrli   r11, r11, 24    /* h = h >> 24 */
 
489
d_bu1_loop:
 
490
        addi    r8, r8, -32     /* as = as - 32 */
 
491
        addi    r5, r5, -32     /* d = d - 32 */
 
492
        lwi     r12, r8, 28     /* v = *(as + 28) */
 
493
        bslli   r9, r12, 8      /* t1 = v << 8 */
 
494
        or      r9, r11, r9     /* t1 = h | t1 */
 
495
        swi     r9, r5, 28      /* *(d + 28) = t1 */
 
496
        bsrli   r11, r12, 24    /* h = v >> 24 */
 
497
        lwi     r12, r8, 24     /* v = *(as + 24) */
 
498
        bslli   r9, r12, 8      /* t1 = v << 8 */
 
499
        or      r9, r11, r9     /* t1 = h | t1 */
 
500
        swi     r9, r5, 24      /* *(d + 24) = t1 */
 
501
        bsrli   r11, r12, 24    /* h = v >> 24 */
 
502
        lwi     r12, r8, 20     /* v = *(as + 20) */
 
503
        bslli   r9, r12, 8      /* t1 = v << 8 */
 
504
        or      r9, r11, r9     /* t1 = h | t1 */
 
505
        swi     r9, r5, 20      /* *(d + 20) = t1 */
 
506
        bsrli   r11, r12, 24    /* h = v >> 24 */
 
507
        lwi     r12, r8, 16     /* v = *(as + 16) */
 
508
        bslli   r9, r12, 8      /* t1 = v << 8 */
 
509
        or      r9, r11, r9     /* t1 = h | t1 */
 
510
        swi     r9, r5, 16      /* *(d + 16) = t1 */
 
511
        bsrli   r11, r12, 24    /* h = v >> 24 */
 
512
        lwi     r12, r8, 12     /* v = *(as + 12) */
 
513
        bslli   r9, r12, 8      /* t1 = v << 8 */
 
514
        or      r9, r11, r9     /* t1 = h | t1 */
 
515
        swi     r9, r5, 12      /* *(d + 112) = t1 */
 
516
        bsrli   r11, r12, 24    /* h = v >> 24 */
 
517
        lwi     r12, r8, 8      /* v = *(as + 8) */
 
518
        bslli   r9, r12, 8      /* t1 = v << 8 */
 
519
        or      r9, r11, r9     /* t1 = h | t1 */
 
520
        swi     r9, r5, 8       /* *(d + 8) = t1 */
 
521
        bsrli   r11, r12, 24    /* h = v >> 24 */
 
522
        lwi     r12, r8, 4      /* v = *(as + 4) */
 
523
        bslli   r9, r12, 8      /* t1 = v << 8 */
 
524
        or      r9, r11, r9     /* t1 = h | t1 */
 
525
        swi     r9, r5, 4       /* *(d + 4) = t1 */
 
526
        bsrli   r11, r12, 24    /* h = v >> 24 */
 
527
        lwi     r12, r8, 0      /* v = *(as + 0) */
 
528
        bslli   r9, r12, 8      /* t1 = v << 8 */
 
529
        or      r9, r11, r9     /* t1 = h | t1 */
 
530
        swi     r9, r5, 0       /* *(d + 0) = t1 */
 
531
        addi    r4, r4, -32     /* n = n - 32 */
 
532
        bneid   r4, d_bu1_loop  /* while (n) loop */
 
533
        bsrli   r11, r12, 24    /* h = v >> 24 (IN DELAY SLOT) */
 
534
        bri     d_block_done
 
535
 
 
536
d_block_u2:
 
537
        bsrli   r11, r11, 16    /* h = h >> 16 */
 
538
d_bu2_loop:
 
539
        addi    r8, r8, -32     /* as = as - 32 */
 
540
        addi    r5, r5, -32     /* d = d - 32 */
 
541
        lwi     r12, r8, 28     /* v = *(as + 28) */
 
542
        bslli   r9, r12, 16     /* t1 = v << 16 */
 
543
        or      r9, r11, r9     /* t1 = h | t1 */
 
544
        swi     r9, r5, 28      /* *(d + 28) = t1 */
 
545
        bsrli   r11, r12, 16    /* h = v >> 16 */
 
546
        lwi     r12, r8, 24     /* v = *(as + 24) */
 
547
        bslli   r9, r12, 16     /* t1 = v << 16 */
 
548
        or      r9, r11, r9     /* t1 = h | t1 */
 
549
        swi     r9, r5, 24      /* *(d + 24) = t1 */
 
550
        bsrli   r11, r12, 16    /* h = v >> 16 */
 
551
        lwi     r12, r8, 20     /* v = *(as + 20) */
 
552
        bslli   r9, r12, 16     /* t1 = v << 16 */
 
553
        or      r9, r11, r9     /* t1 = h | t1 */
 
554
        swi     r9, r5, 20      /* *(d + 20) = t1 */
 
555
        bsrli   r11, r12, 16    /* h = v >> 16 */
 
556
        lwi     r12, r8, 16     /* v = *(as + 16) */
 
557
        bslli   r9, r12, 16     /* t1 = v << 16 */
 
558
        or      r9, r11, r9     /* t1 = h | t1 */
 
559
        swi     r9, r5, 16      /* *(d + 16) = t1 */
 
560
        bsrli   r11, r12, 16    /* h = v >> 16 */
 
561
        lwi     r12, r8, 12     /* v = *(as + 12) */
 
562
        bslli   r9, r12, 16     /* t1 = v << 16 */
 
563
        or      r9, r11, r9     /* t1 = h | t1 */
 
564
        swi     r9, r5, 12      /* *(d + 112) = t1 */
 
565
        bsrli   r11, r12, 16    /* h = v >> 16 */
 
566
        lwi     r12, r8, 8      /* v = *(as + 8) */
 
567
        bslli   r9, r12, 16     /* t1 = v << 16 */
 
568
        or      r9, r11, r9     /* t1 = h | t1 */
 
569
        swi     r9, r5, 8       /* *(d + 8) = t1 */
 
570
        bsrli   r11, r12, 16    /* h = v >> 16 */
 
571
        lwi     r12, r8, 4      /* v = *(as + 4) */
 
572
        bslli   r9, r12, 16     /* t1 = v << 16 */
 
573
        or      r9, r11, r9     /* t1 = h | t1 */
 
574
        swi     r9, r5, 4       /* *(d + 4) = t1 */
 
575
        bsrli   r11, r12, 16    /* h = v >> 16 */
 
576
        lwi     r12, r8, 0      /* v = *(as + 0) */
 
577
        bslli   r9, r12, 16     /* t1 = v << 16 */
 
578
        or      r9, r11, r9     /* t1 = h | t1 */
 
579
        swi     r9, r5, 0       /* *(d + 0) = t1 */
 
580
        addi    r4, r4, -32     /* n = n - 32 */
 
581
        bneid   r4, d_bu2_loop  /* while (n) loop */
 
582
        bsrli   r11, r12, 16    /* h = v >> 16 (IN DELAY SLOT) */
 
583
 
 
584
d_block_done:
 
585
        addi    r4, r0, 4       /* n = 4 */
 
586
        cmpu    r4, r4, r7      /* n = c - n  (unsigned) */
 
587
        blti    r4,d_xfer_end   /* if n < 0, less than one word to transfer */
 
588
 
 
589
d_word_xfer:
 
590
        andi    r4, r7, 0xfffffffc      /* n = c & ~3 */
 
591
        rsub    r5, r4, r5              /* d = d - n */
 
592
        rsub    r6, r4, r6              /* s = s - n */
 
593
        rsub    r7, r4, r7              /* c = c - n */
 
594
 
 
595
        andi    r9, r6, 3               /* t1 = s & 3 */
 
596
        /* if temp != 0, unaligned transfers needed */
 
597
        bnei    r9, d_word_unaligned
 
598
 
 
599
d_word_aligned:
 
600
        addi    r4, r4,-4               /* n-- */
 
601
        lw      r9, r6, r4              /* t1 = *(s+n) */
 
602
        bneid   r4, d_word_aligned      /* loop */
 
603
        sw      r9, r5, r4              /* *(d+n) = t1 (IN DELAY SLOT) */
 
604
 
 
605
        bri     d_word_done
 
606
 
 
607
d_word_unaligned:
 
608
        andi    r8, r6, 0xfffffffc      /* as = s & ~3 */
 
609
        lw      r11, r8, r4             /* h = *(as + n) */
 
610
 
 
611
        addi    r9, r9, -1
 
612
        beqi    r9,d_word_u1            /* t1 was 1 => 1 byte offset */
 
613
        addi    r9, r9, -1
 
614
        beqi    r9,d_word_u2            /* t1 was 2 => 2 byte offset */
 
615
 
 
616
d_word_u3:
 
617
        bsrli   r11, r11, 8     /* h = h >> 8 */
 
618
d_wu3_loop:
 
619
        addi    r4, r4,-4       /* n = n - 4 */
 
620
        lw      r12, r8, r4     /* v = *(as + n) */
 
621
        bslli   r9, r12, 24     /* t1 = v << 24 */
 
622
        or      r9, r11, r9     /* t1 = h | t1 */
 
623
        sw      r9, r5, r4      /* *(d + n) = t1 */
 
624
        bneid   r4, d_wu3_loop  /* while (n) loop */
 
625
        bsrli   r11, r12, 8     /* h = v >> 8 (IN DELAY SLOT) */
 
626
 
 
627
        bri     d_word_done
 
628
 
 
629
d_word_u1:
 
630
        bsrli   r11, r11, 24    /* h = h >> 24 */
 
631
d_wu1_loop:
 
632
        addi    r4, r4,-4       /* n = n - 4 */
 
633
        lw      r12, r8, r4     /* v = *(as + n) */
 
634
        bslli   r9, r12, 8      /* t1 = v << 8 */
 
635
        or      r9, r11, r9     /* t1 = h | t1 */
 
636
        sw      r9, r5, r4      /* *(d + n) = t1 */
 
637
        bneid   r4, d_wu1_loop  /* while (n) loop */
 
638
        bsrli   r11, r12, 24    /* h = v >> 24 (IN DELAY SLOT) */
 
639
 
 
640
        bri     d_word_done
 
641
 
 
642
d_word_u2:
 
643
        bsrli   r11, r11, 16    /* h = h >> 16 */
 
644
d_wu2_loop:
 
645
        addi    r4, r4,-4       /* n = n - 4 */
 
646
        lw      r12, r8, r4     /* v = *(as + n) */
 
647
        bslli   r9, r12, 16     /* t1 = v << 16 */
 
648
        or      r9, r11, r9     /* t1 = h | t1 */
 
649
        sw      r9, r5, r4      /* *(d + n) = t1 */
 
650
        bneid   r4, d_wu2_loop  /* while (n) loop */
 
651
        bsrli   r11, r12, 16    /* h = v >> 16 (IN DELAY SLOT) */
 
652
 
 
653
d_word_done:
 
654
 
 
655
d_xfer_end:
 
656
d_xfer_end_loop:
 
657
        beqi    r7, a_done              /* while (c) */
 
658
        addi    r6, r6, -1              /* s-- */
 
659
        lbui    r9, r6, 0               /* t1 = *s */
 
660
        addi    r5, r5, -1              /* d-- */
 
661
        sbi     r9, r5, 0               /* *d = t1 */
 
662
        brid    d_xfer_end_loop         /* loop */
 
663
        addi    r7, r7, -1              /* c-- (IN DELAY SLOT) */
 
664
 
 
665
d_done:
 
666
        rtsd    r15, 8
 
667
        nop
 
668
 
 
669
.size  memmove, . - memmove
 
670
.end memmove