~pali/+junk/llvm-toolchain-3.7

; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]

1898

; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]

1899

; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero

1900

; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]

1901

; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]

1902

; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]

1903

; SSE2-NEXT: retq

1904

;

1905

; SSSE3-LABEL: combine_test1c:

1906

; SSSE3: # BB#0:

1907

; SSSE3-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero

1908

; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]

1909

; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]

1910

; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero

1911

; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]

1912

; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]

1913

; SSSE3-NEXT: movss {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]

1914

; SSSE3-NEXT: retq

1915

;

1916

; SSE41-LABEL: combine_test1c:

1917

; SSE41: # BB#0:

1918

; SSE41-NEXT: pmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

1919

; SSE41-NEXT: pmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

1920

; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3,4,5,6,7]

1921

; SSE41-NEXT: retq

1922

;

1923

; AVX1-LABEL: combine_test1c:

1924

; AVX1: # BB#0:

1925

; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

1926

; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

1927

; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3,4,5,6,7]

1928

; AVX1-NEXT: retq

1929

;

1930

; AVX2-LABEL: combine_test1c:

1931

; AVX2: # BB#0:

1932

; AVX2-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

1933

; AVX2-NEXT: vpmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

1934

; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]

1935

; AVX2-NEXT: retq

1936

%A = load <4 x i8>, <4 x i8>* %a

1937

%B = load <4 x i8>, <4 x i8>* %b

1938

%1 = shufflevector <4 x i8> %A, <4 x i8> %B, <4 x i32> <i32 0, i32 5, i32 2, i32 7>

1939

%2 = shufflevector <4 x i8> %1, <4 x i8> %B, <4 x i32> <i32 0, i32 1, i32 6, i32 3>

1940

ret <4 x i8> %2

1941

}

1942

1943

define <4 x i8> @combine_test2c(<4 x i8>* %a, <4 x i8>* %b) {

1944

; SSE2-LABEL: combine_test2c:

1945

; SSE2: # BB#0:

1946

; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero

1947

; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]

1948

; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]

1949

; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero

1950

; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]

1951

; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]

1952

; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]

1953

; SSE2-NEXT: retq

1954

;

1955

; SSSE3-LABEL: combine_test2c:

1956

; SSSE3: # BB#0:

1957

; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero

1958

; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]

1959

; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]

1960

; SSSE3-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero

1961

; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]

1962

; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]

1963

; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]

1964

; SSSE3-NEXT: retq

1965

;

1966

; SSE41-LABEL: combine_test2c:

1967

; SSE41: # BB#0:

1968

; SSE41-NEXT: pmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

1969

; SSE41-NEXT: pmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

1970

; SSE41-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]

1971

; SSE41-NEXT: retq

1972

;

1973

; AVX-LABEL: combine_test2c:

1974

; AVX: # BB#0:

1975

; AVX-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

1976

; AVX-NEXT: vpmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

1977

; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]

1978

; AVX-NEXT: retq

1979

%A = load <4 x i8>, <4 x i8>* %a

1980

%B = load <4 x i8>, <4 x i8>* %b

1981

%1 = shufflevector <4 x i8> %A, <4 x i8> %B, <4 x i32> <i32 0, i32 5, i32 1, i32 5>

1982

%2 = shufflevector <4 x i8> %1, <4 x i8> %B, <4 x i32> <i32 0, i32 2, i32 4, i32 1>

1983

ret <4 x i8> %2

1984

}

1985

1986

define <4 x i8> @combine_test3c(<4 x i8>* %a, <4 x i8>* %b) {

1987

; SSE2-LABEL: combine_test3c:

1988

; SSE2: # BB#0:

1989

; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero

1990

; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]

1991

; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]

1992

; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero

1993

; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]

1994

; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]

1995

; SSE2-NEXT: punpckhqdq {{.*#+}} xmm0 = xmm0[1],xmm1[1]

1996

; SSE2-NEXT: retq

1997

;

1998

; SSSE3-LABEL: combine_test3c:

1999

; SSSE3: # BB#0:

2000

; SSSE3-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero

2001

; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]

2002

; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]

2003

; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero

2004

; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]

2005

; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]

2006

; SSSE3-NEXT: punpckhqdq {{.*#+}} xmm0 = xmm0[1],xmm1[1]

2007

; SSSE3-NEXT: retq

2008

;

2009

; SSE41-LABEL: combine_test3c:

2010

; SSE41: # BB#0:

2011

; SSE41-NEXT: pmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

2012

; SSE41-NEXT: pmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

2013

; SSE41-NEXT: punpckhqdq {{.*#+}} xmm0 = xmm0[1],xmm1[1]

2014

; SSE41-NEXT: retq

2015

;

2016

; AVX-LABEL: combine_test3c:

2017

; AVX: # BB#0:

2018

; AVX-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

2019

; AVX-NEXT: vpmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

2020

; AVX-NEXT: vpunpckhqdq {{.*#+}} xmm0 = xmm1[1],xmm0[1]

2021

; AVX-NEXT: retq

2022

%A = load <4 x i8>, <4 x i8>* %a

2023

%B = load <4 x i8>, <4 x i8>* %b

2024

%1 = shufflevector <4 x i8> %A, <4 x i8> %B, <4 x i32> <i32 2, i32 3, i32 5, i32 5>

2025

%2 = shufflevector <4 x i8> %1, <4 x i8> %B, <4 x i32> <i32 6, i32 7, i32 0, i32 1>

2026

ret <4 x i8> %2

2027

}

2028

2029

define <4 x i8> @combine_test4c(<4 x i8>* %a, <4 x i8>* %b) {

2030

; SSE2-LABEL: combine_test4c:

2031

; SSE2: # BB#0:

2032

; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero

2033

; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]

2034

; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]

2035

; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero

2036

; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]

2037

; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]

2038

; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm1[0,0]

2039

; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]

2040

; SSE2-NEXT: retq

2041

;

2042

; SSSE3-LABEL: combine_test4c:

2043

; SSSE3: # BB#0:

2044

; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero

2045

; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]

2046

; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3]

2047

; SSSE3-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero

2048

; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]

2049

; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]

2050

; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm1[0,0]

2051

; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]

2052

; SSSE3-NEXT: retq

2053

;

2054

; SSE41-LABEL: combine_test4c:

2055

; SSE41: # BB#0:

2056

; SSE41-NEXT: pmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

2057

; SSE41-NEXT: pmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

2058

; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5,6,7]

2059

; SSE41-NEXT: retq

2060

;

2061

; AVX1-LABEL: combine_test4c:

2062

; AVX1: # BB#0:

2063

; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

2064

; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

2065

; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm1[0,1],xmm0[2,3],xmm1[4,5,6,7]

2066

; AVX1-NEXT: retq

2067

;

2068

; AVX2-LABEL: combine_test4c:

2069

; AVX2: # BB#0:

2070

; AVX2-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

2071

; AVX2-NEXT: vpmovzxbd {{.*#+}} xmm1 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero

2072

; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm1[0],xmm0[1],xmm1[2,3]

2073

; AVX2-NEXT: retq

2074

%A = load <4 x i8>, <4 x i8>* %a

2075

%B = load <4 x i8>, <4 x i8>* %b

2076

%1 = shufflevector <4 x i8> %A, <4 x i8> %B, <4 x i32> <i32 4, i32 1, i32 6, i32 3>

2077

%2 = shufflevector <4 x i8> %1, <4 x i8> %B, <4 x i32> <i32 0, i32 1, i32 2, i32 7>

2078

ret <4 x i8> %2

2079

}

2080

2081

2082

; The following test cases are generated from this C++ code

2083

;

2084

;__m128 blend_01(__m128 a, __m128 b)

2085

;{

2086

; __m128 s = a;

2087

; s = _mm_blend_ps( s, b, 1<<0 );

2088

; s = _mm_blend_ps( s, b, 1<<1 );

2089

; return s;

2090

;}

2091

;

2092

;__m128 blend_02(__m128 a, __m128 b)

2093

;{

2094

; __m128 s = a;

2095

; s = _mm_blend_ps( s, b, 1<<0 );

2096

; s = _mm_blend_ps( s, b, 1<<2 );

2097

; return s;

2098

;}

2099

;

2100

;__m128 blend_123(__m128 a, __m128 b)

2101

;{

2102

; __m128 s = a;

2103

; s = _mm_blend_ps( s, b, 1<<1 );

2104

; s = _mm_blend_ps( s, b, 1<<2 );

2105

; s = _mm_blend_ps( s, b, 1<<3 );

2106

; return s;

2107

;}

2108

2109

; Ideally, we should collapse the following shuffles into a single one.

2110

2111

define <4 x float> @combine_blend_01(<4 x float> %a, <4 x float> %b) {

2112

; SSE2-LABEL: combine_blend_01:

2113

; SSE2: # BB#0:

2114

; SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]

2115

; SSE2-NEXT: retq

2116

;

2117

; SSSE3-LABEL: combine_blend_01:

2118

; SSSE3: # BB#0:

2119

; SSSE3-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]

2120

; SSSE3-NEXT: retq

2121

;

2122

; SSE41-LABEL: combine_blend_01:

2123

; SSE41: # BB#0:

2124

; SSE41-NEXT: blendpd {{.*#+}} xmm0 = xmm1[0],xmm0[1]

2125

; SSE41-NEXT: retq

2126

;

2127

; AVX-LABEL: combine_blend_01:

2128

; AVX: # BB#0:

2129

; AVX-NEXT: vblendpd {{.*#+}} xmm0 = xmm1[0],xmm0[1]

2130

; AVX-NEXT: retq

2131

%shuffle = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32> <i32 4, i32 undef, i32 2, i32 3>

2132

%shuffle6 = shufflevector <4 x float> %shuffle, <4 x float> %b, <4 x i32> <i32 0, i32 5, i32 2, i32 3>

2133

ret <4 x float> %shuffle6

2134

}

2135

2136

define <4 x float> @combine_blend_02(<4 x float> %a, <4 x float> %b) {

2137

; SSE2-LABEL: combine_blend_02:

2138

; SSE2: # BB#0:

2139

; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[1,3]

2140

; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2,1,3]

2141

; SSE2-NEXT: movaps %xmm1, %xmm0

2142

; SSE2-NEXT: retq

2143

;

2144

; SSSE3-LABEL: combine_blend_02:

2145

; SSSE3: # BB#0:

2146

; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[1,3]

2147

; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2,1,3]

2148

; SSSE3-NEXT: movaps %xmm1, %xmm0

2149

; SSSE3-NEXT: retq

2150

;

2151

; SSE41-LABEL: combine_blend_02:

2152

; SSE41: # BB#0:

2153

; SSE41-NEXT: blendps {{.*#+}} xmm0 = xmm1[0],xmm0[1],xmm1[2],xmm0[3]

2154

; SSE41-NEXT: retq

2155

;

2156

; AVX-LABEL: combine_blend_02:

2157

; AVX: # BB#0:

2158

; AVX-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0],xmm0[1],xmm1[2],xmm0[3]

2159

; AVX-NEXT: retq

2160

%shuffle = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32> <i32 4, i32 1, i32 undef, i32 3>

2161

%shuffle6 = shufflevector <4 x float> %shuffle, <4 x float> %b, <4 x i32> <i32 0, i32 1, i32 6, i32 3>

2162

ret <4 x float> %shuffle6

2163

}

2164

2165

define <4 x float> @combine_blend_123(<4 x float> %a, <4 x float> %b) {

2166

; SSE2-LABEL: combine_blend_123:

2167

; SSE2: # BB#0:

2168

; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]

2169

; SSE2-NEXT: movaps %xmm1, %xmm0

2170

; SSE2-NEXT: retq

2171

;

2172

; SSSE3-LABEL: combine_blend_123:

2173

; SSSE3: # BB#0:

2174

; SSSE3-NEXT: movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]

2175

; SSSE3-NEXT: movaps %xmm1, %xmm0

2176

; SSSE3-NEXT: retq

2177

;

2178

; SSE41-LABEL: combine_blend_123:

2179

; SSE41: # BB#0:

2180

; SSE41-NEXT: blendps {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]

2181

; SSE41-NEXT: retq

2182

;

2183

; AVX-LABEL: combine_blend_123:

2184

; AVX: # BB#0:

2185

; AVX-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]

2186

; AVX-NEXT: retq

2187

%shuffle = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32> <i32 0, i32 5, i32 undef, i32 undef>

2188

%shuffle6 = shufflevector <4 x float> %shuffle, <4 x float> %b, <4 x i32> <i32 0, i32 1, i32 6, i32 undef>

2189

%shuffle12 = shufflevector <4 x float> %shuffle6, <4 x float> %b, <4 x i32> <i32 0, i32 1, i32 2, i32 7>

2190

ret <4 x float> %shuffle12

2191

}

2192

2193

define <4 x i32> @combine_test_movhl_1(<4 x i32> %a, <4 x i32> %b) {

2194

; SSE-LABEL: combine_test_movhl_1:

2195

; SSE: # BB#0:

2196

; SSE-NEXT: punpckhqdq {{.*#+}} xmm1 = xmm1[1],xmm0[1]

2197

; SSE-NEXT: movdqa %xmm1, %xmm0

2198

; SSE-NEXT: retq

2199

;

2200

; AVX-LABEL: combine_test_movhl_1:

2201

; AVX: # BB#0:

2202

; AVX-NEXT: vpunpckhqdq {{.*#+}} xmm0 = xmm1[1],xmm0[1]

2203

; AVX-NEXT: retq

2204

%1 = shufflevector <4 x i32> %a, <4 x i32> %b, <4 x i32> <i32 2, i32 7, i32 5, i32 3>

2205

%2 = shufflevector <4 x i32> %1, <4 x i32> %b, <4 x i32> <i32 6, i32 1, i32 0, i32 3>

2206

ret <4 x i32> %2

2207

}

2208

2209

define <4 x i32> @combine_test_movhl_2(<4 x i32> %a, <4 x i32> %b) {

2210

; SSE-LABEL: combine_test_movhl_2:

2211

; SSE: # BB#0:

2212

; SSE-NEXT: punpckhqdq {{.*#+}} xmm1 = xmm1[1],xmm0[1]

2213

; SSE-NEXT: movdqa %xmm1, %xmm0

2214

; SSE-NEXT: retq

2215

;

2216

; AVX-LABEL: combine_test_movhl_2:

2217

; AVX: # BB#0:

2218

; AVX-NEXT: vpunpckhqdq {{.*#+}} xmm0 = xmm1[1],xmm0[1]

2219

; AVX-NEXT: retq

2220

%1 = shufflevector <4 x i32> %a, <4 x i32> %b, <4 x i32> <i32 2, i32 0, i32 3, i32 6>

2221

%2 = shufflevector <4 x i32> %1, <4 x i32> %b, <4 x i32> <i32 3, i32 7, i32 0, i32 2>

2222

ret <4 x i32> %2

2223

}

2224

2225

define <4 x i32> @combine_test_movhl_3(<4 x i32> %a, <4 x i32> %b) {

2226

; SSE-LABEL: combine_test_movhl_3:

2227

; SSE: # BB#0:

2228

; SSE-NEXT: punpckhqdq {{.*#+}} xmm1 = xmm1[1],xmm0[1]

2229

; SSE-NEXT: movdqa %xmm1, %xmm0

2230

; SSE-NEXT: retq

2231

;

2232

; AVX-LABEL: combine_test_movhl_3:

2233

; AVX: # BB#0:

2234

; AVX-NEXT: vpunpckhqdq {{.*#+}} xmm0 = xmm1[1],xmm0[1]

2235

; AVX-NEXT: retq

2236

%1 = shufflevector <4 x i32> %a, <4 x i32> %b, <4 x i32> <i32 7, i32 6, i32 3, i32 2>

2237

%2 = shufflevector <4 x i32> %1, <4 x i32> %b, <4 x i32> <i32 6, i32 0, i32 3, i32 2>

2238

ret <4 x i32> %2

2239

}

2240

2241

2242

; Verify that we fold shuffles according to rule:

2243

; (shuffle(shuffle A, Undef, M0), B, M1) -> (shuffle A, B, M2)

2244

2245

define <4 x float> @combine_undef_input_test1(<4 x float> %a, <4 x float> %b) {

2246

; SSE2-LABEL: combine_undef_input_test1:

2247

; SSE2: # BB#0:

2248

; SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]

2249

; SSE2-NEXT: retq

2250

;

2251

; SSSE3-LABEL: combine_undef_input_test1:

2252

; SSSE3: # BB#0:

2253

; SSSE3-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]

2254

; SSSE3-NEXT: retq

2255

;

2256

; SSE41-LABEL: combine_undef_input_test1:

2257

; SSE41: # BB#0:

2258

; SSE41-NEXT: blendpd {{.*#+}} xmm0 = xmm1[0],xmm0[1]

2259

; SSE41-NEXT: retq

2260

;

2261

; AVX-LABEL: combine_undef_input_test1:

2262

; AVX: # BB#0:

2263

; AVX-NEXT: vblendpd {{.*#+}} xmm0 = xmm1[0],xmm0[1]

2264

; AVX-NEXT: retq

2265

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 4, i32 2, i32 3, i32 1>

2266

%2 = shufflevector <4 x float> %1, <4 x float> %b, <4 x i32> <i32 4, i32 5, i32 1, i32 2>

2267

ret <4 x float> %2

2268

}

2269

2270

define <4 x float> @combine_undef_input_test2(<4 x float> %a, <4 x float> %b) {

2271

; SSE-LABEL: combine_undef_input_test2:

2272

; SSE: # BB#0:

2273

; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]

2274

; SSE-NEXT: retq

2275

;

2276

; AVX-LABEL: combine_undef_input_test2:

2277

; AVX: # BB#0:

2278

; AVX-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]

2279

; AVX-NEXT: retq

2280

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 6, i32 0, i32 1, i32 7>

2281

%2 = shufflevector <4 x float> %1, <4 x float> %b, <4 x i32> <i32 1, i32 2, i32 4, i32 5>

2282

ret <4 x float> %2

2283

}

2284

2285

define <4 x float> @combine_undef_input_test3(<4 x float> %a, <4 x float> %b) {

2286

; SSE-LABEL: combine_undef_input_test3:

2287

; SSE: # BB#0:

2288

; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]

2289

; SSE-NEXT: retq

2290

;

2291

; AVX-LABEL: combine_undef_input_test3:

2292

; AVX: # BB#0:

2293

; AVX-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]

2294

; AVX-NEXT: retq

2295

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 0, i32 5, i32 1, i32 7>

2296

%2 = shufflevector <4 x float> %1, <4 x float> %b, <4 x i32> <i32 0, i32 2, i32 4, i32 1>

2297

ret <4 x float> %2

2298

}

2299

2300

define <4 x float> @combine_undef_input_test4(<4 x float> %a, <4 x float> %b) {

2301

; SSE-LABEL: combine_undef_input_test4:

2302

; SSE: # BB#0:

2303

; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]

2304

; SSE-NEXT: movapd %xmm1, %xmm0

2305

; SSE-NEXT: retq

2306

;

2307

; AVX-LABEL: combine_undef_input_test4:

2308

; AVX: # BB#0:

2309

; AVX-NEXT: vunpckhpd {{.*#+}} xmm0 = xmm1[1],xmm0[1]

2310

; AVX-NEXT: retq

2311

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 5, i32 5>

2312

%2 = shufflevector <4 x float> %1, <4 x float> %b, <4 x i32> <i32 6, i32 7, i32 0, i32 1>

2313

ret <4 x float> %2

2314

}

2315

2316

define <4 x float> @combine_undef_input_test5(<4 x float> %a, <4 x float> %b) {

2317

; SSE2-LABEL: combine_undef_input_test5:

2318

; SSE2: # BB#0:

2319

; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm0[0],xmm1[1]

2320

; SSE2-NEXT: movapd %xmm1, %xmm0

2321

; SSE2-NEXT: retq

2322

;

2323

; SSSE3-LABEL: combine_undef_input_test5:

2324

; SSSE3: # BB#0:

2325

; SSSE3-NEXT: movsd {{.*#+}} xmm1 = xmm0[0],xmm1[1]

2326

; SSSE3-NEXT: movapd %xmm1, %xmm0

2327

; SSSE3-NEXT: retq

2328

;

2329

; SSE41-LABEL: combine_undef_input_test5:

2330

; SSE41: # BB#0:

2331

; SSE41-NEXT: blendpd {{.*#+}} xmm0 = xmm0[0],xmm1[1]

2332

; SSE41-NEXT: retq

2333

;

2334

; AVX-LABEL: combine_undef_input_test5:

2335

; AVX: # BB#0:

2336

; AVX-NEXT: vblendpd {{.*#+}} xmm0 = xmm0[0],xmm1[1]

2337

; AVX-NEXT: retq

2338

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 0, i32 4, i32 1, i32 3>

2339

%2 = shufflevector <4 x float> %1, <4 x float> %b, <4 x i32> <i32 0, i32 2, i32 6, i32 7>

2340

ret <4 x float> %2

2341

}

2342

2343

2344

; Verify that we fold shuffles according to rule:

2345

; (shuffle(shuffle A, Undef, M0), A, M1) -> (shuffle A, Undef, M2)

2346

2347

define <4 x float> @combine_undef_input_test6(<4 x float> %a) {

2348

; ALL-LABEL: combine_undef_input_test6:

2349

; ALL: # BB#0:

2350

; ALL-NEXT: retq

2351

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 4, i32 2, i32 3, i32 1>

2352

%2 = shufflevector <4 x float> %1, <4 x float> %a, <4 x i32> <i32 4, i32 5, i32 1, i32 2>

2353

ret <4 x float> %2

2354

}

2355

2356

define <4 x float> @combine_undef_input_test7(<4 x float> %a) {

2357

; SSE2-LABEL: combine_undef_input_test7:

2358

; SSE2: # BB#0:

2359

; SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0,0]

2360

; SSE2-NEXT: retq

2361

;

2362

; SSSE3-LABEL: combine_undef_input_test7:

2363

; SSSE3: # BB#0:

2364

; SSSE3-NEXT: movddup {{.*#+}} xmm0 = xmm0[0,0]

2365

; SSSE3-NEXT: retq

2366

;

2367

; SSE41-LABEL: combine_undef_input_test7:

2368

; SSE41: # BB#0:

2369

; SSE41-NEXT: movddup {{.*#+}} xmm0 = xmm0[0,0]

2370

; SSE41-NEXT: retq

2371

;

2372

; AVX-LABEL: combine_undef_input_test7:

2373

; AVX: # BB#0:

2374

; AVX-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]

2375

; AVX-NEXT: retq

2376

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 6, i32 0, i32 1, i32 7>

2377

%2 = shufflevector <4 x float> %1, <4 x float> %a, <4 x i32> <i32 1, i32 2, i32 4, i32 5>

2378

ret <4 x float> %2

2379

}

2380

2381

define <4 x float> @combine_undef_input_test8(<4 x float> %a) {

2382

; SSE2-LABEL: combine_undef_input_test8:

2383

; SSE2: # BB#0:

2384

; SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0,0]

2385

; SSE2-NEXT: retq

2386

;

2387

; SSSE3-LABEL: combine_undef_input_test8:

2388

; SSSE3: # BB#0:

2389

; SSSE3-NEXT: movddup {{.*#+}} xmm0 = xmm0[0,0]

2390

; SSSE3-NEXT: retq

2391

;

2392

; SSE41-LABEL: combine_undef_input_test8:

2393

; SSE41: # BB#0:

2394

; SSE41-NEXT: movddup {{.*#+}} xmm0 = xmm0[0,0]

2395

; SSE41-NEXT: retq

2396

;

2397

; AVX-LABEL: combine_undef_input_test8:

2398

; AVX: # BB#0:

2399

; AVX-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]

2400

; AVX-NEXT: retq

2401

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 0, i32 5, i32 1, i32 7>

2402

%2 = shufflevector <4 x float> %1, <4 x float> %a, <4 x i32> <i32 0, i32 2, i32 4, i32 1>

2403

ret <4 x float> %2

2404

}

2405

2406

define <4 x float> @combine_undef_input_test9(<4 x float> %a) {

2407

; SSE-LABEL: combine_undef_input_test9:

2408

; SSE: # BB#0:

2409

; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]

2410

; SSE-NEXT: retq

2411

;

2412

; AVX-LABEL: combine_undef_input_test9:

2413

; AVX: # BB#0:

2414

; AVX-NEXT: vmovhlps {{.*#+}} xmm0 = xmm0[1,1]

2415

; AVX-NEXT: retq

2416

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 5, i32 5>

2417

%2 = shufflevector <4 x float> %1, <4 x float> %a, <4 x i32> <i32 6, i32 7, i32 0, i32 1>

2418

ret <4 x float> %2

2419

}

2420

2421

define <4 x float> @combine_undef_input_test10(<4 x float> %a) {

2422

; ALL-LABEL: combine_undef_input_test10:

2423

; ALL: # BB#0:

2424

; ALL-NEXT: retq

2425

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 0, i32 4, i32 1, i32 3>

2426

%2 = shufflevector <4 x float> %1, <4 x float> %a, <4 x i32> <i32 0, i32 2, i32 6, i32 7>

2427

ret <4 x float> %2

2428

}

2429

2430

define <4 x float> @combine_undef_input_test11(<4 x float> %a, <4 x float> %b) {

2431

; SSE2-LABEL: combine_undef_input_test11:

2432

; SSE2: # BB#0:

2433

; SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]

2434

; SSE2-NEXT: retq

2435

;

2436

; SSSE3-LABEL: combine_undef_input_test11:

2437

; SSSE3: # BB#0:

2438

; SSSE3-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]

2439

; SSSE3-NEXT: retq

2440

;

2441

; SSE41-LABEL: combine_undef_input_test11:

2442

; SSE41: # BB#0:

2443

; SSE41-NEXT: blendpd {{.*#+}} xmm0 = xmm1[0],xmm0[1]

2444

; SSE41-NEXT: retq

2445

;

2446

; AVX-LABEL: combine_undef_input_test11:

2447

; AVX: # BB#0:

2448

; AVX-NEXT: vblendpd {{.*#+}} xmm0 = xmm1[0],xmm0[1]

2449

; AVX-NEXT: retq

2450

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 4, i32 2, i32 3, i32 1>

2451

%2 = shufflevector <4 x float> %b, <4 x float> %1, <4 x i32> <i32 0, i32 1, i32 5, i32 6>

2452

ret <4 x float> %2

2453

}

2454

2455

define <4 x float> @combine_undef_input_test12(<4 x float> %a, <4 x float> %b) {

2456

; SSE-LABEL: combine_undef_input_test12:

2457

; SSE: # BB#0:

2458

; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]

2459

; SSE-NEXT: retq

2460

;

2461

; AVX-LABEL: combine_undef_input_test12:

2462

; AVX: # BB#0:

2463

; AVX-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]

2464

; AVX-NEXT: retq

2465

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 6, i32 0, i32 1, i32 7>

2466

%2 = shufflevector <4 x float> %b, <4 x float> %1, <4 x i32> <i32 5, i32 6, i32 0, i32 1>

2467

ret <4 x float> %2

2468

}

2469

2470

define <4 x float> @combine_undef_input_test13(<4 x float> %a, <4 x float> %b) {

2471

; SSE-LABEL: combine_undef_input_test13:

2472

; SSE: # BB#0:

2473

; SSE-NEXT: unpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]

2474

; SSE-NEXT: retq

2475

;

2476

; AVX-LABEL: combine_undef_input_test13:

2477

; AVX: # BB#0:

2478

; AVX-NEXT: vunpcklpd {{.*#+}} xmm0 = xmm0[0],xmm1[0]

2479

; AVX-NEXT: retq

2480

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 0, i32 5, i32 1, i32 7>

2481

%2 = shufflevector <4 x float> %b, <4 x float> %1, <4 x i32> <i32 4, i32 5, i32 0, i32 5>

2482

ret <4 x float> %2

2483

}

2484

2485

define <4 x float> @combine_undef_input_test14(<4 x float> %a, <4 x float> %b) {

2486

; SSE-LABEL: combine_undef_input_test14:

2487

; SSE: # BB#0:

2488

; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]

2489

; SSE-NEXT: movapd %xmm1, %xmm0

2490

; SSE-NEXT: retq

2491

;

2492

; AVX-LABEL: combine_undef_input_test14:

2493

; AVX: # BB#0:

2494

; AVX-NEXT: vunpckhpd {{.*#+}} xmm0 = xmm1[1],xmm0[1]

2495

; AVX-NEXT: retq

2496

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 5, i32 5>

2497

%2 = shufflevector <4 x float> %b, <4 x float> %1, <4 x i32> <i32 2, i32 3, i32 4, i32 5>

2498

ret <4 x float> %2

2499

}

2500

2501

define <4 x float> @combine_undef_input_test15(<4 x float> %a, <4 x float> %b) {

2502

; SSE2-LABEL: combine_undef_input_test15:

2503

; SSE2: # BB#0:

2504

; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm0[0],xmm1[1]

2505

; SSE2-NEXT: movapd %xmm1, %xmm0

2506

; SSE2-NEXT: retq

2507

;

2508

; SSSE3-LABEL: combine_undef_input_test15:

2509

; SSSE3: # BB#0:

2510

; SSSE3-NEXT: movsd {{.*#+}} xmm1 = xmm0[0],xmm1[1]

2511

; SSSE3-NEXT: movapd %xmm1, %xmm0

2512

; SSSE3-NEXT: retq

2513

;

2514

; SSE41-LABEL: combine_undef_input_test15:

2515

; SSE41: # BB#0:

2516

; SSE41-NEXT: blendpd {{.*#+}} xmm0 = xmm0[0],xmm1[1]

2517

; SSE41-NEXT: retq

2518

;

2519

; AVX-LABEL: combine_undef_input_test15:

2520

; AVX: # BB#0:

2521

; AVX-NEXT: vblendpd {{.*#+}} xmm0 = xmm0[0],xmm1[1]

2522

; AVX-NEXT: retq

2523

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 0, i32 4, i32 1, i32 3>

2524

%2 = shufflevector <4 x float> %b, <4 x float> %1, <4 x i32> <i32 4, i32 6, i32 2, i32 3>

2525

ret <4 x float> %2

2526

}

2527

2528

2529

; Verify that shuffles are canonicalized according to rules:

2530

; shuffle(B, shuffle(A, Undef)) -> shuffle(shuffle(A, Undef), B)

2531

;

2532

; This allows to trigger the following combine rule:

2533

; (shuffle(shuffle A, Undef, M0), A, M1) -> (shuffle A, Undef, M2)

2534

;

2535

; As a result, all the shuffle pairs in each function below should be

2536

; combined into a single legal shuffle operation.

2537

2538

define <4 x float> @combine_undef_input_test16(<4 x float> %a) {

2539

; ALL-LABEL: combine_undef_input_test16:

2540

; ALL: # BB#0:

2541

; ALL-NEXT: retq

2542

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 4, i32 2, i32 3, i32 1>

2543

%2 = shufflevector <4 x float> %a, <4 x float> %1, <4 x i32> <i32 0, i32 1, i32 5, i32 3>

2544

ret <4 x float> %2

2545

}

2546

2547

define <4 x float> @combine_undef_input_test17(<4 x float> %a) {

2548

; SSE2-LABEL: combine_undef_input_test17:

2549

; SSE2: # BB#0:

2550

; SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0,0]

2551

; SSE2-NEXT: retq

2552

;

2553

; SSSE3-LABEL: combine_undef_input_test17:

2554

; SSSE3: # BB#0:

2555

; SSSE3-NEXT: movddup {{.*#+}} xmm0 = xmm0[0,0]

2556

; SSSE3-NEXT: retq

2557

;

2558

; SSE41-LABEL: combine_undef_input_test17:

2559

; SSE41: # BB#0:

2560

; SSE41-NEXT: movddup {{.*#+}} xmm0 = xmm0[0,0]

2561

; SSE41-NEXT: retq

2562

;

2563

; AVX-LABEL: combine_undef_input_test17:

2564

; AVX: # BB#0:

2565

; AVX-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]

2566

; AVX-NEXT: retq

2567

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 6, i32 0, i32 1, i32 7>

2568

%2 = shufflevector <4 x float> %a, <4 x float> %1, <4 x i32> <i32 5, i32 6, i32 0, i32 1>

2569

ret <4 x float> %2

2570

}

2571

2572

define <4 x float> @combine_undef_input_test18(<4 x float> %a) {

2573

; SSE2-LABEL: combine_undef_input_test18:

2574

; SSE2: # BB#0:

2575

; SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0,0]

2576

; SSE2-NEXT: retq

2577

;

2578

; SSSE3-LABEL: combine_undef_input_test18:

2579

; SSSE3: # BB#0:

2580

; SSSE3-NEXT: movddup {{.*#+}} xmm0 = xmm0[0,0]

2581

; SSSE3-NEXT: retq

2582

;

2583

; SSE41-LABEL: combine_undef_input_test18:

2584

; SSE41: # BB#0:

2585

; SSE41-NEXT: movddup {{.*#+}} xmm0 = xmm0[0,0]

2586

; SSE41-NEXT: retq

2587

;

2588

; AVX-LABEL: combine_undef_input_test18:

2589

; AVX: # BB#0:

2590

; AVX-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]

2591

; AVX-NEXT: retq

2592

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 0, i32 5, i32 1, i32 7>

2593

%2 = shufflevector <4 x float> %a, <4 x float> %1, <4 x i32> <i32 4, i32 6, i32 0, i32 5>

2594

ret <4 x float> %2

2595

}

2596

2597

define <4 x float> @combine_undef_input_test19(<4 x float> %a) {

2598

; SSE-LABEL: combine_undef_input_test19:

2599

; SSE: # BB#0:

2600

; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]

2601

; SSE-NEXT: retq

2602

;

2603

; AVX-LABEL: combine_undef_input_test19:

2604

; AVX: # BB#0:

2605

; AVX-NEXT: vmovhlps {{.*#+}} xmm0 = xmm0[1,1]

2606

; AVX-NEXT: retq

2607

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 5, i32 5>

2608

%2 = shufflevector <4 x float> %a, <4 x float> %1, <4 x i32> <i32 2, i32 3, i32 4, i32 5>

2609

ret <4 x float> %2

2610

}

2611

2612

define <4 x float> @combine_undef_input_test20(<4 x float> %a) {

2613

; ALL-LABEL: combine_undef_input_test20:

2614

; ALL: # BB#0:

2615

; ALL-NEXT: retq

2616

%1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 0, i32 4, i32 1, i32 3>

2617

%2 = shufflevector <4 x float> %a, <4 x float> %1, <4 x i32> <i32 4, i32 6, i32 2, i32 3>

2618

ret <4 x float> %2

2619

}

2620

2621

; These tests are designed to test the ability to combine away unnecessary

2622

; operations feeding into a shuffle. The AVX cases are the important ones as

2623

; they leverage operations which cannot be done naturally on the entire vector

2624

; and thus are decomposed into multiple smaller operations.

2625

2626

define <8 x i32> @combine_unneeded_subvector1(<8 x i32> %a) {

2627

; SSE-LABEL: combine_unneeded_subvector1:

2628

; SSE: # BB#0:

2629

; SSE-NEXT: paddd {{.*}}(%rip), %xmm1

2630

; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,2,1,0]

2631

; SSE-NEXT: movdqa %xmm0, %xmm1

2632

; SSE-NEXT: retq

2633

;

2634

; AVX1-LABEL: combine_unneeded_subvector1:

2635

; AVX1: # BB#0:

2636

; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0

2637

; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0

2638

; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,2,1,0]

2639

; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0

2640

; AVX1-NEXT: retq

2641

;

2642

; AVX2-LABEL: combine_unneeded_subvector1:

2643

; AVX2: # BB#0:

2644

; AVX2-NEXT: vpaddd {{.*}}(%rip), %ymm0, %ymm0

2645

; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [7,6,5,4,7,6,5,4]

2646

; AVX2-NEXT: vpermd %ymm0, %ymm1, %ymm0

2647

; AVX2-NEXT: retq

2648

%b = add <8 x i32> %a, <i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8>

2649

%c = shufflevector <8 x i32> %b, <8 x i32> undef, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 7, i32 6, i32 5, i32 4>

2650

ret <8 x i32> %c

2651

}

2652

2653

define <8 x i32> @combine_unneeded_subvector2(<8 x i32> %a, <8 x i32> %b) {

2654

; SSE-LABEL: combine_unneeded_subvector2:

2655

; SSE: # BB#0:

2656

; SSE-NEXT: paddd {{.*}}(%rip), %xmm1

2657

; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm3[3,2,1,0]

2658

; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[3,2,1,0]

2659

; SSE-NEXT: retq

2660

;

2661

; AVX1-LABEL: combine_unneeded_subvector2:

2662

; AVX1: # BB#0:

2663

; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0

2664

; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0

2665

; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0

2666

; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm1[2,3],ymm0[2,3]

2667

; AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4]

2668

; AVX1-NEXT: retq

2669

;

2670

; AVX2-LABEL: combine_unneeded_subvector2:

2671

; AVX2: # BB#0:

2672

; AVX2-NEXT: vpaddd {{.*}}(%rip), %ymm0, %ymm0

2673

; AVX2-NEXT: vperm2i128 {{.*#+}} ymm0 = ymm1[2,3],ymm0[2,3]

2674

; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4]

2675

; AVX2-NEXT: retq

2676

%c = add <8 x i32> %a, <i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8>

2677

%d = shufflevector <8 x i32> %b, <8 x i32> %c, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 15, i32 14, i32 13, i32 12>

2678

ret <8 x i32> %d

2679

}

2680

2681

define <4 x float> @combine_insertps1(<4 x float> %a, <4 x float> %b) {

2682

; SSE2-LABEL: combine_insertps1:

2683

; SSE2: # BB#0:

2684

; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[1,0]

2685

; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[2,3]

2686

; SSE2-NEXT: movaps %xmm1, %xmm0

2687

; SSE2-NEXT: retq

2688

;

2689

; SSSE3-LABEL: combine_insertps1:

2690

; SSSE3: # BB#0:

2691

; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[1,0]

2692

; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[2,3]

2693

; SSSE3-NEXT: movaps %xmm1, %xmm0

2694

; SSSE3-NEXT: retq

2695

;

2696

; SSE41-LABEL: combine_insertps1:

2697

; SSE41: # BB#0:

2698

; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm1[2],xmm0[1,2,3]

2699

; SSE41-NEXT: retq

2700

;

2701

; AVX-LABEL: combine_insertps1:

2702

; AVX: # BB#0:

2703

; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm1[2],xmm0[1,2,3]

2704

; AVX-NEXT: retq

2705

2706

%c = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32><i32 0, i32 6, i32 2, i32 4>

2707

%d = shufflevector <4 x float> %a, <4 x float> %c, <4 x i32> <i32 5, i32 1, i32 6, i32 3>

2708

ret <4 x float> %d

2709

}

2710

2711

define <4 x float> @combine_insertps2(<4 x float> %a, <4 x float> %b) {

2712

; SSE2-LABEL: combine_insertps2:

2713

; SSE2: # BB#0:

2714

; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[0,0]

2715

; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]

2716

; SSE2-NEXT: movaps %xmm1, %xmm0

2717

; SSE2-NEXT: retq

2718

;

2719

; SSSE3-LABEL: combine_insertps2:

2720

; SSSE3: # BB#0:

2721

; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[0,0]

2722

; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]

2723

; SSSE3-NEXT: movaps %xmm1, %xmm0

2724

; SSSE3-NEXT: retq

2725

;

2726

; SSE41-LABEL: combine_insertps2:

2727

; SSE41: # BB#0:

2728

; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],xmm1[2],xmm0[2,3]

2729

; SSE41-NEXT: retq

2730

;

2731

; AVX-LABEL: combine_insertps2:

2732

; AVX: # BB#0:

2733

; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],xmm1[2],xmm0[2,3]

2734

; AVX-NEXT: retq

2735

2736

%c = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32><i32 0, i32 1, i32 6, i32 7>

2737

%d = shufflevector <4 x float> %a, <4 x float> %c, <4 x i32> <i32 4, i32 6, i32 2, i32 3>

2738

ret <4 x float> %d

2739

}

2740

2741

define <4 x float> @combine_insertps3(<4 x float> %a, <4 x float> %b) {

2742

; SSE2-LABEL: combine_insertps3:

2743

; SSE2: # BB#0:

2744

; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[3,0]

2745

; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]

2746

; SSE2-NEXT: retq

2747

;

2748

; SSSE3-LABEL: combine_insertps3:

2749

; SSSE3: # BB#0:

2750

; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[3,0]

2751

; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]

2752

; SSSE3-NEXT: retq

2753

;

2754

; SSE41-LABEL: combine_insertps3:

2755

; SSE41: # BB#0:

2756

; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0],xmm0[3]

2757

; SSE41-NEXT: retq

2758

;

2759

; AVX-LABEL: combine_insertps3:

2760

; AVX: # BB#0:

2761

; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0],xmm0[3]

2762

; AVX-NEXT: retq

2763

2764

%c = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32><i32 0, i32 4, i32 2, i32 5>

2765

%d = shufflevector <4 x float> %a, <4 x float> %c, <4 x i32><i32 4, i32 1, i32 5, i32 3>

2766

ret <4 x float> %d

2767

}

2768

2769

define <4 x float> @combine_insertps4(<4 x float> %a, <4 x float> %b) {

2770

; SSE2-LABEL: combine_insertps4:

2771

; SSE2: # BB#0:

2772

; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]

2773

; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]

2774

; SSE2-NEXT: retq

2775

;

2776

; SSSE3-LABEL: combine_insertps4:

2777

; SSSE3: # BB#0:

2778

; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]

2779

; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]

2780

; SSSE3-NEXT: retq

2781

;

2782

; SSE41-LABEL: combine_insertps4:

2783

; SSE41: # BB#0:

2784

; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]

2785

; SSE41-NEXT: retq

2786

;

2787

; AVX-LABEL: combine_insertps4:

2788

; AVX: # BB#0:

2789

; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]

2790

; AVX-NEXT: retq

2791

2792

%c = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32><i32 0, i32 4, i32 2, i32 5>

2793

%d = shufflevector <4 x float> %a, <4 x float> %c, <4 x i32><i32 4, i32 1, i32 6, i32 5>

2794

ret <4 x float> %d

2795

}

2796

2797

define <4 x float> @PR22377(<4 x float> %a, <4 x float> %b) {

2798

; SSE-LABEL: PR22377:

2799

; SSE: # BB#0: # %entry

2800

; SSE-NEXT: movaps %xmm0, %xmm1

2801

; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,3,1,3]

2802

; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2,0,2]

2803

; SSE-NEXT: addps %xmm0, %xmm1

2804

; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]

2805

; SSE-NEXT: retq

2806

;

2807

; AVX-LABEL: PR22377:

2808

; AVX: # BB#0: # %entry

2809

; AVX-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,3,1,3]

2810

; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,0,2]

2811

; AVX-NEXT: vaddps %xmm0, %xmm1, %xmm1

2812

; AVX-NEXT: vunpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]

2813

; AVX-NEXT: retq

2814

entry:

2815

%s1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 1, i32 3, i32 1, i32 3>

2816

%s2 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 0, i32 2, i32 0, i32 2>

2817

%r2 = fadd <4 x float> %s1, %s2

2818

%s3 = shufflevector <4 x float> %s2, <4 x float> %r2, <4 x i32> <i32 0, i32 4, i32 1, i32 5>

2819

ret <4 x float> %s3

2820

}

2821

2822

define <4 x float> @PR22390(<4 x float> %a, <4 x float> %b) {

2823

; SSE2-LABEL: PR22390:

2824

; SSE2: # BB#0: # %entry

2825

; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,0,1,2]

2826

; SSE2-NEXT: movaps %xmm0, %xmm2

2827

; SSE2-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]

2828

; SSE2-NEXT: addps %xmm0, %xmm2

2829

; SSE2-NEXT: movaps %xmm2, %xmm0

2830

; SSE2-NEXT: retq

2831

;

2832

; SSSE3-LABEL: PR22390:

2833

; SSSE3: # BB#0: # %entry

2834

; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,0,1,2]

2835

; SSSE3-NEXT: movaps %xmm0, %xmm2

2836

; SSSE3-NEXT: movss {{.*#+}} xmm2 = xmm1[0],xmm2[1,2,3]

2837

; SSSE3-NEXT: addps %xmm0, %xmm2

2838

; SSSE3-NEXT: movaps %xmm2, %xmm0

2839

; SSSE3-NEXT: retq

2840

;

2841

; SSE41-LABEL: PR22390:

2842

; SSE41: # BB#0: # %entry

2843

; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,0,1,2]

2844

; SSE41-NEXT: blendps {{.*#+}} xmm1 = xmm1[0],xmm0[1,2,3]

2845

; SSE41-NEXT: addps %xmm1, %xmm0

2846

; SSE41-NEXT: retq

2847

;

2848

; AVX-LABEL: PR22390:

2849

; AVX: # BB#0: # %entry

2850

; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,0,1,2]

2851

; AVX-NEXT: vblendps {{.*#+}} xmm1 = xmm1[0],xmm0[1,2,3]

2852

; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0

2853

; AVX-NEXT: retq

2854

entry:

2855

%s1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 3, i32 0, i32 1, i32 2>

2856

%s2 = shufflevector <4 x float> %s1, <4 x float> %b, <4 x i32> <i32 4, i32 1, i32 2, i32 3>

2857

%r2 = fadd <4 x float> %s1, %s2

2858

ret <4 x float> %r2

2859

}

2860

2861

define <8 x float> @PR22412(<8 x float> %a, <8 x float> %b) {

2862

; SSE2-LABEL: PR22412:

2863

; SSE2: # BB#0: # %entry

2864

; SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm0[0],xmm2[1]

2865

; SSE2-NEXT: movapd %xmm2, %xmm0

2866

; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm3[3,2]

2867

; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,0],xmm2[3,2]

2868

; SSE2-NEXT: movaps %xmm3, %xmm1

2869

; SSE2-NEXT: retq

2870

;

2871

; SSSE3-LABEL: PR22412:

2872

; SSSE3: # BB#0: # %entry

2873

; SSSE3-NEXT: movsd {{.*#+}} xmm2 = xmm0[0],xmm2[1]

2874

; SSSE3-NEXT: movapd %xmm2, %xmm0

2875

; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm3[3,2]

2876

; SSSE3-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,0],xmm2[3,2]

2877

; SSSE3-NEXT: movaps %xmm3, %xmm1

2878

; SSSE3-NEXT: retq

2879

;

2880

; SSE41-LABEL: PR22412:

2881

; SSE41: # BB#0: # %entry

2882

; SSE41-NEXT: blendpd {{.*#+}} xmm0 = xmm0[0],xmm2[1]

2883

; SSE41-NEXT: movapd %xmm0, %xmm1

2884

; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,0],xmm3[3,2]

2885

; SSE41-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,0],xmm0[3,2]

2886

; SSE41-NEXT: movaps %xmm1, %xmm0

2887

; SSE41-NEXT: movaps %xmm3, %xmm1

2888

; SSE41-NEXT: retq

2889

;

2890

; AVX1-LABEL: PR22412:

2891

; AVX1: # BB#0: # %entry

2892

; AVX1-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3]

2893

; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm0[2,3,0,1]

2894

; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,0],ymm1[3,2],ymm0[5,4],ymm1[7,6]

2895

; AVX1-NEXT: retq

2896

;

2897

; AVX2-LABEL: PR22412:

2898

; AVX2: # BB#0: # %entry

2899

; AVX2-NEXT: vblendpd {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3]

2900

; AVX2-NEXT: vmovaps {{.*#+}} ymm1 = [1,0,7,6,5,4,3,2]

2901

; AVX2-NEXT: vpermps %ymm0, %ymm1, %ymm0

2902

; AVX2-NEXT: retq

2903

entry:

2904

%s1 = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 0, i32 1, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>

2905

%s2 = shufflevector <8 x float> %s1, <8 x float> undef, <8 x i32> <i32 1, i32 0, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2>

2906

ret <8 x float> %s2

2907

}

Older »