~vcs-imports/busybox/trunk

« back to all changes in this revision

Viewing changes to libbb/hash_sha1_hwaccel_x86-64.S

Committer: Denys Vlasenko
Date: 2023-07-18 14:41:12 UTC
Revision ID: git-v1:8f0845cad7bfc46939132b33f9cd0753b261b953

libbb: rename source files, no code changes

Signed-off-by: Denys Vlasenko <vda.linux@googlemail.com>

files added:
libbb/hash_sha1_hwaccel_x86-32.S

libbb/hash_sha1_hwaccel_x86-64.S

libbb/hash_sha1_x86-64.S

libbb/hash_sha1_x86-64.S.sh

libbb/hash_sha256_hwaccel_x86-32.S

libbb/hash_sha256_hwaccel_x86-64.S

files removed:
libbb/hash_md5_sha256_x86-32_shaNI.S

libbb/hash_md5_sha256_x86-64_shaNI.S

libbb/hash_md5_sha_x86-32_shaNI.S

libbb/hash_md5_sha_x86-64.S

libbb/hash_md5_sha_x86-64.S.sh

libbb/hash_md5_sha_x86-64_shaNI.S

files modified:
libbb/Kbuild.src

Show diffs side-by-side

added added

removed removed

libbb/hash_sha1_hwaccel_x86-64.S

#if ENABLE_SHA1_HWACCEL && defined(__GNUC__) && defined(__x86_64__)

/* The code is adapted from Linux kernel's source */

// We use shorter insns, even though they are for "wrong"

// data type (fp, not int).

// For Intel, there is no penalty for doing it at all

// (CPUs which do have such penalty do not support SHA insns).

// For AMD, the penalty is one extra cycle

// (allegedly: I failed to find measurable difference).

//#define mova128 movdqa

#define mova128 movaps

//#define movu128 movdqu

#define movu128 movups

//#define xor128 pxor

#define xor128 xorps

//#define shuf128_32 pshufd

#define shuf128_32 shufps

#define extr128_32 pextrd

//#define extr128_32 extractps # not shorter

// pshufb is a SSSE3 insn.

// pinsrd, pextrd, extractps are SSE4.1 insns.

// We do not check SSSE3/SSE4.1 in cpuid,

// all SHA-capable CPUs support them as well.

#ifdef __linux__

.section .note.GNU-stack, "", @progbits

#endif

.section .text.sha1_process_block64_shaNI, "ax", @progbits

.globl sha1_process_block64_shaNI

.hidden sha1_process_block64_shaNI

.type sha1_process_block64_shaNI, @function

#define ABCD %xmm0

#define E0 %xmm1 /* Need two E's b/c they ping pong */

#define E1 %xmm2

#define MSG0 %xmm3

#define MSG1 %xmm4

#define MSG2 %xmm5

#define MSG3 %xmm6

.balign 8 # allow decoders to fetch at least 2 first insns

sha1_process_block64_shaNI:

/* load initial hash values */

movu128 80(%rdi), ABCD

xor128 E0, E0

pinsrd $3, 80+4*4(%rdi), E0 # load to uppermost 32-bit word

shuf128_32 $0x1B, ABCD, ABCD # DCBA -> ABCD

mova128 PSHUFFLE_BYTE_FLIP_MASK(%rip), %xmm7

movu128 0*16(%rdi), MSG0

pshufb %xmm7, MSG0

movu128 1*16(%rdi), MSG1

pshufb %xmm7, MSG1

movu128 2*16(%rdi), MSG2

pshufb %xmm7, MSG2

movu128 3*16(%rdi), MSG3

pshufb %xmm7, MSG3

/* Save hash values for addition after rounds */

mova128 E0, %xmm7

mova128 ABCD, %xmm8

/* Rounds 0-3 */

paddd MSG0, E0

mova128 ABCD, E1

sha1rnds4 $0, E0, ABCD

/* Rounds 4-7 */

sha1nexte MSG1, E1

mova128 ABCD, E0

sha1rnds4 $0, E1, ABCD

sha1msg1 MSG1, MSG0

/* Rounds 8-11 */

sha1nexte MSG2, E0

mova128 ABCD, E1

sha1rnds4 $0, E0, ABCD

sha1msg1 MSG2, MSG1

xor128 MSG2, MSG0

/* Rounds 12-15 */

sha1nexte MSG3, E1

mova128 ABCD, E0

sha1msg2 MSG3, MSG0

sha1rnds4 $0, E1, ABCD

sha1msg1 MSG3, MSG2

xor128 MSG3, MSG1

/* Rounds 16-19 */

sha1nexte MSG0, E0

mova128 ABCD, E1

sha1msg2 MSG0, MSG1

sha1rnds4 $0, E0, ABCD

sha1msg1 MSG0, MSG3

xor128 MSG0, MSG2

100

101

/* Rounds 20-23 */

102

sha1nexte MSG1, E1

103

mova128 ABCD, E0

104

sha1msg2 MSG1, MSG2

105

sha1rnds4 $1, E1, ABCD

106

sha1msg1 MSG1, MSG0

107

xor128 MSG1, MSG3

108

109

/* Rounds 24-27 */

110

sha1nexte MSG2, E0

111

mova128 ABCD, E1

112

sha1msg2 MSG2, MSG3

113

sha1rnds4 $1, E0, ABCD

114

sha1msg1 MSG2, MSG1

115

xor128 MSG2, MSG0

116

117

/* Rounds 28-31 */

118

sha1nexte MSG3, E1

119

mova128 ABCD, E0

120

sha1msg2 MSG3, MSG0

121

sha1rnds4 $1, E1, ABCD

122

sha1msg1 MSG3, MSG2

123

xor128 MSG3, MSG1

124

125

/* Rounds 32-35 */

126

sha1nexte MSG0, E0

127

mova128 ABCD, E1

128

sha1msg2 MSG0, MSG1

129

sha1rnds4 $1, E0, ABCD

130

sha1msg1 MSG0, MSG3

131

xor128 MSG0, MSG2

132

133

/* Rounds 36-39 */

134

sha1nexte MSG1, E1

135

mova128 ABCD, E0

136

sha1msg2 MSG1, MSG2

137

sha1rnds4 $1, E1, ABCD

138

sha1msg1 MSG1, MSG0

139

xor128 MSG1, MSG3

140

141

/* Rounds 40-43 */

142

sha1nexte MSG2, E0

143

mova128 ABCD, E1

144

sha1msg2 MSG2, MSG3

145

sha1rnds4 $2, E0, ABCD

146

sha1msg1 MSG2, MSG1

147

xor128 MSG2, MSG0

148

149

/* Rounds 44-47 */

150

sha1nexte MSG3, E1

151

mova128 ABCD, E0

152

sha1msg2 MSG3, MSG0

153

sha1rnds4 $2, E1, ABCD

154

sha1msg1 MSG3, MSG2

155

xor128 MSG3, MSG1

156

157

/* Rounds 48-51 */

158

sha1nexte MSG0, E0

159

mova128 ABCD, E1

160

sha1msg2 MSG0, MSG1

161

sha1rnds4 $2, E0, ABCD

162

sha1msg1 MSG0, MSG3

163

xor128 MSG0, MSG2

164

165

/* Rounds 52-55 */

166

sha1nexte MSG1, E1

167

mova128 ABCD, E0

168

sha1msg2 MSG1, MSG2

169

sha1rnds4 $2, E1, ABCD

170

sha1msg1 MSG1, MSG0

171

xor128 MSG1, MSG3

172

173

/* Rounds 56-59 */

174

sha1nexte MSG2, E0

175

mova128 ABCD, E1

176

sha1msg2 MSG2, MSG3

177

sha1rnds4 $2, E0, ABCD

178

sha1msg1 MSG2, MSG1

179

xor128 MSG2, MSG0

180

181

/* Rounds 60-63 */

182

sha1nexte MSG3, E1

183

mova128 ABCD, E0

184

sha1msg2 MSG3, MSG0

185

sha1rnds4 $3, E1, ABCD

186

sha1msg1 MSG3, MSG2

187

xor128 MSG3, MSG1

188

189

/* Rounds 64-67 */

190

sha1nexte MSG0, E0

191

mova128 ABCD, E1

192

sha1msg2 MSG0, MSG1

193

sha1rnds4 $3, E0, ABCD

194

sha1msg1 MSG0, MSG3

195

xor128 MSG0, MSG2

196

197

/* Rounds 68-71 */

198

sha1nexte MSG1, E1

199

mova128 ABCD, E0

200

sha1msg2 MSG1, MSG2

201

sha1rnds4 $3, E1, ABCD

202

xor128 MSG1, MSG3

203

204

/* Rounds 72-75 */

205

sha1nexte MSG2, E0

206

mova128 ABCD, E1

207

sha1msg2 MSG2, MSG3

208

sha1rnds4 $3, E0, ABCD

209

210

/* Rounds 76-79 */

211

sha1nexte MSG3, E1

212

mova128 ABCD, E0

213

sha1rnds4 $3, E1, ABCD

214

215

/* Add current hash values with previously saved */

216

sha1nexte %xmm7, E0

217

paddd %xmm8, ABCD

218

219

/* Write hash values back in the correct order */

220

shuf128_32 $0x1B, ABCD, ABCD

221

movu128 ABCD, 80(%rdi)

222

extr128_32 $3, E0, 80+4*4(%rdi)

223

224

ret

225

.size sha1_process_block64_shaNI, .-sha1_process_block64_shaNI

226

227

.section .rodata.cst16.PSHUFFLE_BYTE_FLIP_MASK, "aM", @progbits, 16

228

.balign 16

229

PSHUFFLE_BYTE_FLIP_MASK:

230

.octa 0x000102030405060708090a0b0c0d0e0f

231

232

#endif

Older »