~ppsspp/ppsspp/ffmpeg

.macro mspel_filter.16 acc0 acc1 acc0_0 acc0_1 dest src0 src1 src2 src3 src4 src5 src6 src7 filter_a filter_b filter_c filter_d reg_a reg_b reg_c reg_d reg_add filter_shift

752

.if \filter_a != 1

753

vmov \acc0, \reg_add

754

vmov \acc1, \reg_add

755

vmlsl.s16 \acc0, \reg_a, \src0

756

vmlsl.s16 \acc1, \reg_a, \src1

757

.else

758

vsubw.s16 \acc0, \reg_add, \src0

759

vsubw.s16 \acc1, \reg_add, \src1

760

.endif

761

vmlal.s16 \acc0, \reg_b, \src2

762

vmlal.s16 \acc1, \reg_b, \src3

763

.if \filter_b != \filter_c

764

vmlal.s16 \acc0, \reg_c, \src4

765

vmlal.s16 \acc1, \reg_c, \src5

766

.else

767

vmlal.s16 \acc0, \reg_b, \src4

768

vmlal.s16 \acc1, \reg_b, \src5

769

.endif

770

.if \filter_d != 1

771

vmlsl.s16 \acc0, \reg_d, \src6

772

vmlsl.s16 \acc1, \reg_d, \src7

773

.else

774

vsubw.s16 \acc0, \acc0, \src6

775

vsubw.s16 \acc1, \acc1, \src7

776

.endif

777

@ Use acc0_0 and acc0_1 as temp space

778

vqshrun.s32 \acc0_0, \acc0, #\filter_shift @ Shift and narrow with saturation from s32 to u16

779

vqshrun.s32 \acc0_1, \acc1, #\filter_shift

780

vqmovn.u16 \dest, \acc0 @ Narrow with saturation from u16 to u8

781

.endm

782

783

@ Register usage for put_vc1_mspel_mc functions. Registers marked 'hv' are only used in put_vc1_mspel_mc_hv.

784

785

@ r0 adjusted dst

786

@ r1 adjusted src

787

@ r2 stride

788

@ r3 adjusted rnd

789

@ r4 [hv] tmp

790

@ r11 [hv] sp saved

791

@ r12 loop counter

792

@ d0 src[-stride]

793

@ d1 src[0]

794

@ d2 src[stride]

795

@ d3 src[stride * 2]

796

@ q0 [hv] src[-stride]

797

@ q1 [hv] src[0]

798

@ q2 [hv] src[stride]

799

@ q3 [hv] src[stride * 2]

800

@ d21 often result from mspel_filter

801

@ q11 accumulator 0

802

@ q12 [hv] accumulator 1

803

@ q13 accumulator initial value

804

@ d28 filter_a

805

@ d29 filter_b

806

@ d30 filter_c

807

@ d31 filter_d

808

809

@ (uint8_t *dst [r0], const uint8_t *src [r1], ptrdiff_t stride [r2], int rnd [r3])

810

.macro put_vc1_mspel_mc_hv hmode vmode filter_h_a filter_h_b filter_h_c filter_h_d filter_v_a filter_v_b filter_v_c filter_v_d filter_add filter_shift

811

function ff_put_vc1_mspel_mc\hmode\()\vmode\()_neon, export=1

812

push {r4, r11, lr}

813

mov r11, sp @ r11 = stack pointer before realignmnet

814

A bic sp, sp, #15 @ sp = round down to multiple of 16 bytes

815

T bic r4, r11, #15

816

T mov sp, r4

817

sub sp, sp, #(8*2*16) @ make space for 8 rows * 2 byte per element * 16 elements per row (to fit 11 actual elements per row)

818

mov r4, sp @ r4 = int16_t tmp[8 * 16]

819

820

sub r1, r1, #1 @ src -= 1

821

.if \filter_add != 0

822

add r3, r3, #\filter_add @ r3 = filter_add + rnd

823

.endif

824

mov r12, #8 @ loop counter

825

sub r1, r1, r2 @ r1 = &src[-stride] @ slide back

826

827

@ Do vertical filtering from src into tmp

828

mspel_constants i8 d28 d29 d30 d31 \filter_v_a \filter_v_b \filter_v_c \filter_v_d q13 r3

829

830

vld1.64 {d0,d1}, [r1], r2

831

vld1.64 {d2,d3}, [r1], r2

832

vld1.64 {d4,d5}, [r1], r2

833

834

835

subs r12, r12, #4

836

837

vld1.64 {d6,d7}, [r1], r2

838

mspel_filter q11 q11 d0 d2 d4 d6 \filter_v_a \filter_v_b \filter_v_c \filter_v_d d28 d29 d30 d31 q13 \filter_shift narrow=0

839

mspel_filter q12 q12 d1 d3 d5 d7 \filter_v_a \filter_v_b \filter_v_c \filter_v_d d28 d29 d30 d31 q13 \filter_shift narrow=0

840

vst1.64 {q11,q12}, [r4,:128]! @ store and increment

841

842

vld1.64 {d0,d1}, [r1], r2

843

mspel_filter q11 q11 d2 d4 d6 d0 \filter_v_a \filter_v_b \filter_v_c \filter_v_d d28 d29 d30 d31 q13 \filter_shift narrow=0

844

mspel_filter q12 q12 d3 d5 d7 d1 \filter_v_a \filter_v_b \filter_v_c \filter_v_d d28 d29 d30 d31 q13 \filter_shift narrow=0

845

vst1.64 {q11,q12}, [r4,:128]! @ store and increment

846

847

vld1.64 {d2,d3}, [r1], r2

848

mspel_filter q11 q11 d4 d6 d0 d2 \filter_v_a \filter_v_b \filter_v_c \filter_v_d d28 d29 d30 d31 q13 \filter_shift narrow=0

849

mspel_filter q12 q12 d5 d7 d1 d3 \filter_v_a \filter_v_b \filter_v_c \filter_v_d d28 d29 d30 d31 q13 \filter_shift narrow=0

850

vst1.64 {q11,q12}, [r4,:128]! @ store and increment

851

852

vld1.64 {d4,d5}, [r1], r2

853

mspel_filter q11 q11 d6 d0 d2 d4 \filter_v_a \filter_v_b \filter_v_c \filter_v_d d28 d29 d30 d31 q13 \filter_shift narrow=0

854

mspel_filter q12 q12 d7 d1 d3 d5 \filter_v_a \filter_v_b \filter_v_c \filter_v_d d28 d29 d30 d31 q13 \filter_shift narrow=0

855

vst1.64 {q11,q12}, [r4,:128]! @ store and increment

856

857

bne 1b

858

859

rsb r3, r3, #(64 + \filter_add) @ r3 = (64 + filter_add) - r3

860

mov r12, #8 @ loop counter

861

mov r4, sp @ r4 = tmp

862

863

@ Do horizontal filtering from temp to dst

864

mspel_constants i16 d28 d29 d30 d31 \filter_h_a \filter_h_b \filter_h_c \filter_h_d q13 r3

865

866

867

subs r12, r12, #1

868

869

vld1.64 {q0,q1}, [r4,:128]! @ read one line of tmp

870

vext.16 q2, q0, q1, #2

871

vext.16 q3, q0, q1, #3

872

vext.16 q1, q0, q1, #1 @ do last because it writes to q1 which is read by the other vext instructions

873

874

mspel_filter.16 q11 q12 d22 d23 d21 d0 d1 d2 d3 d4 d5 d6 d7 \filter_h_a \filter_h_b \filter_h_c \filter_h_d d28 d29 d30 d31 q13 7

875

876

vst1.64 {d21}, [r0,:64], r2 @ store and increment dst

877

878

bne 2b

879

880

mov sp, r11

881

pop {r4, r11, pc}

882

endfunc

883

.endm

884

885

@ Use C preprocessor and assembler macros to expand to functions for horizontal and vertical filtering.

886

#define PUT_VC1_MSPEL_MC_HV(hmode, vmode) \

887

put_vc1_mspel_mc_hv hmode vmode \

888

MSPEL_MODE_ ## hmode ## _MUL_CONSTANTS \

889

MSPEL_MODE_ ## vmode ## _MUL_CONSTANTS \

890

MSPEL_MODES_ ## hmode ## vmode ## _ADDSHIFT_CONSTANTS

891

892

PUT_VC1_MSPEL_MC_HV(1, 1)

893

PUT_VC1_MSPEL_MC_HV(1, 2)

894

PUT_VC1_MSPEL_MC_HV(1, 3)

895

PUT_VC1_MSPEL_MC_HV(2, 1)

896

PUT_VC1_MSPEL_MC_HV(2, 2)

897

PUT_VC1_MSPEL_MC_HV(2, 3)

898

PUT_VC1_MSPEL_MC_HV(3, 1)

899

PUT_VC1_MSPEL_MC_HV(3, 2)

900

PUT_VC1_MSPEL_MC_HV(3, 3)

901

902

#undef PUT_VC1_MSPEL_MC_HV

903

904

.macro put_vc1_mspel_mc_h_only hmode filter_a filter_b filter_c filter_d filter_add filter_shift

905

function ff_put_vc1_mspel_mc\hmode\()0_neon, export=1

906

rsb r3, r3, #\filter_add @ r3 = filter_add - r = filter_add - rnd

907

mov r12, #8 @ loop counter

908

sub r1, r1, #1 @ slide back, using immediate

909

910

mspel_constants i8 d28 d29 d30 d31 \filter_a \filter_b \filter_c \filter_d q13 r3

911

912

913

subs r12, r12, #1

914

915

vld1.64 {d0,d1}, [r1], r2 @ read 16 bytes even though we only need 11, also src += stride

916

vext.8 d2, d0, d1, #2

917

vext.8 d3, d0, d1, #3

918

vext.8 d1, d0, d1, #1 @ do last because it writes to d1 which is read by the other vext instructions

919

920

mspel_filter q11 d21 d0 d1 d2 d3 \filter_a \filter_b \filter_c \filter_d d28 d29 d30 d31 q13 \filter_shift

921

922

vst1.64 {d21}, [r0,:64], r2 @ store and increment dst

923

924

bne 1b

925

926

bx lr

927

endfunc

928

.endm

929

930

@ Use C preprocessor and assembler macros to expand to functions for horizontal only filtering.

931

#define PUT_VC1_MSPEL_MC_H_ONLY(hmode) \

932

put_vc1_mspel_mc_h_only hmode MSPEL_MODE_ ## hmode ## _MUL_CONSTANTS MSPEL_MODE_ ## hmode ## _ADDSHIFT_CONSTANTS

933

934

PUT_VC1_MSPEL_MC_H_ONLY(1)

935

PUT_VC1_MSPEL_MC_H_ONLY(2)

936

PUT_VC1_MSPEL_MC_H_ONLY(3)

937

938

#undef PUT_VC1_MSPEL_MC_H_ONLY

939

940

@ (uint8_t *dst [r0], const uint8_t *src [r1], ptrdiff_t stride [r2], int rnd [r3])

941

.macro put_vc1_mspel_mc_v_only vmode filter_a filter_b filter_c filter_d filter_add filter_shift

942

function ff_put_vc1_mspel_mc0\vmode\()_neon, export=1

943

add r3, r3, #\filter_add - 1 @ r3 = filter_add - r = filter_add - (1 - rnd) = filter_add - 1 + rnd

944

mov r12, #8 @ loop counter

945

sub r1, r1, r2 @ r1 = &src[-stride] @ slide back

946

947

mspel_constants i8 d28 d29 d30 d31 \filter_a \filter_b \filter_c \filter_d q13 r3

948

949

vld1.64 {d0}, [r1], r2 @ d0 = src[-stride]

950

vld1.64 {d1}, [r1], r2 @ d1 = src[0]

951

vld1.64 {d2}, [r1], r2 @ d2 = src[stride]

952

953

954

subs r12, r12, #4

955

956

vld1.64 {d3}, [r1], r2 @ d3 = src[stride * 2]

957

mspel_filter q11 d21 d0 d1 d2 d3 \filter_a \filter_b \filter_c \filter_d d28 d29 d30 d31 q13 \filter_shift

958

vst1.64 {d21}, [r0,:64], r2 @ store and increment dst

959

960

vld1.64 {d0}, [r1], r2 @ d0 = next line

961

mspel_filter q11 d21 d1 d2 d3 d0 \filter_a \filter_b \filter_c \filter_d d28 d29 d30 d31 q13 \filter_shift

962

vst1.64 {d21}, [r0,:64], r2 @ store and increment dst

963

964

vld1.64 {d1}, [r1], r2 @ d1 = next line

965

mspel_filter q11 d21 d2 d3 d0 d1 \filter_a \filter_b \filter_c \filter_d d28 d29 d30 d31 q13 \filter_shift

966

vst1.64 {d21}, [r0,:64], r2 @ store and increment dst

967

968

vld1.64 {d2}, [r1], r2 @ d2 = next line

969

mspel_filter q11 d21 d3 d0 d1 d2 \filter_a \filter_b \filter_c \filter_d d28 d29 d30 d31 q13 \filter_shift

970

vst1.64 {d21}, [r0,:64], r2 @ store and increment dst

971

972

bne 1b

973

974

bx lr

975

endfunc

976

.endm

977

978

@ Use C preprocessor and assembler macros to expand to functions for vertical only filtering.

979

#define PUT_VC1_MSPEL_MC_V_ONLY(vmode) \

980

put_vc1_mspel_mc_v_only vmode MSPEL_MODE_ ## vmode ## _MUL_CONSTANTS MSPEL_MODE_ ## vmode ## _ADDSHIFT_CONSTANTS

981

982

PUT_VC1_MSPEL_MC_V_ONLY(1)

983

PUT_VC1_MSPEL_MC_V_ONLY(2)

984

PUT_VC1_MSPEL_MC_V_ONLY(3)

985

986

#undef PUT_VC1_MSPEL_MC_V_ONLY

987

988

function ff_put_pixels8x8_neon, export=1

989

vld1.64 {d0}, [r1], r2

990

vld1.64 {d1}, [r1], r2

991

vld1.64 {d2}, [r1], r2

992

vld1.64 {d3}, [r1], r2

993

vld1.64 {d4}, [r1], r2

994

vld1.64 {d5}, [r1], r2

995

vld1.64 {d6}, [r1], r2

996

vld1.64 {d7}, [r1]

997

vst1.64 {d0}, [r0,:64], r2

998

vst1.64 {d1}, [r0,:64], r2

999

vst1.64 {d2}, [r0,:64], r2

1000

vst1.64 {d3}, [r0,:64], r2

1001

vst1.64 {d4}, [r0,:64], r2

1002

vst1.64 {d5}, [r0,:64], r2

1003

vst1.64 {d6}, [r0,:64], r2

1004

vst1.64 {d7}, [r0,:64]

1005

bx lr

1006

endfunc

1007

1008

function ff_vc1_inv_trans_8x8_dc_neon, export=1

1009

ldrsh r2, [r2] @ int dc = block[0];

1010

1011

vld1.64 {d0}, [r0,:64], r1

1012

vld1.64 {d1}, [r0,:64], r1

1013

vld1.64 {d4}, [r0,:64], r1

1014

vld1.64 {d5}, [r0,:64], r1

1015

1016

add r2, r2, r2, lsl #1 @ dc = (3 * dc + 1) >> 1;

1017

vld1.64 {d6}, [r0,:64], r1

1018

add r2, r2, #1

1019

vld1.64 {d7}, [r0,:64], r1

1020

vld1.64 {d16}, [r0,:64], r1

1021

vld1.64 {d17}, [r0,:64], r1

1022

asr r2, r2, #1

1023

1024

sub r0, r0, r1, lsl #3 @ restore r0 to original value

1025

1026

add r2, r2, r2, lsl #1 @ dc = (3 * dc + 16) >> 5;

1027

add r2, r2, #16

1028

asr r2, r2, #5

1029

1030

vdup.16 q1, r2 @ dc

1031

1032

vaddw.u8 q9, q1, d0

1033

vaddw.u8 q10, q1, d1

1034

vaddw.u8 q11, q1, d4

1035

vaddw.u8 q12, q1, d5

1036

vqmovun.s16 d0, q9

1037

vqmovun.s16 d1, q10

1038

vqmovun.s16 d4, q11

1039

vst1.64 {d0}, [r0,:64], r1

1040

vqmovun.s16 d5, q12

1041

vst1.64 {d1}, [r0,:64], r1

1042

vaddw.u8 q13, q1, d6

1043

vst1.64 {d4}, [r0,:64], r1

1044

vaddw.u8 q14, q1, d7

1045

vst1.64 {d5}, [r0,:64], r1

1046

vaddw.u8 q15, q1, d16

1047

vaddw.u8 q1, q1, d17 @ this destroys q1

1048

vqmovun.s16 d6, q13

1049

vqmovun.s16 d7, q14

1050

vqmovun.s16 d16, q15

1051

vqmovun.s16 d17, q1

1052

vst1.64 {d6}, [r0,:64], r1

1053

vst1.64 {d7}, [r0,:64], r1

1054

vst1.64 {d16}, [r0,:64], r1

1055

vst1.64 {d17}, [r0,:64]

1056

bx lr

1057

endfunc

1058

1059

function ff_vc1_inv_trans_8x4_dc_neon, export=1

1060

ldrsh r2, [r2] @ int dc = block[0];

1061

1062

vld1.64 {d0}, [r0,:64], r1

1063

vld1.64 {d1}, [r0,:64], r1

1064

vld1.64 {d4}, [r0,:64], r1

1065

vld1.64 {d5}, [r0,:64], r1

1066

1067

add r2, r2, r2, lsl #1 @ dc = ( 3 * dc + 1) >> 1;

1068

1069

sub r0, r0, r1, lsl #2 @ restore r0 to original value

1070

1071

add r2, r2, #1

1072

asr r2, r2, #1

1073

1074

add r2, r2, r2, lsl #4 @ dc = (17 * dc + 64) >> 7;

1075

add r2, r2, #64

1076

asr r2, r2, #7

1077

1078

vdup.16 q1, r2 @ dc

1079

1080

vaddw.u8 q3, q1, d0

1081

vaddw.u8 q8, q1, d1

1082

vaddw.u8 q9, q1, d4

1083

vaddw.u8 q10, q1, d5

1084

vqmovun.s16 d0, q3

1085

vqmovun.s16 d1, q8

1086

vqmovun.s16 d4, q9

1087

vst1.64 {d0}, [r0,:64], r1

1088

vqmovun.s16 d5, q10

1089

vst1.64 {d1}, [r0,:64], r1

1090

vst1.64 {d4}, [r0,:64], r1

1091

vst1.64 {d5}, [r0,:64]

1092

bx lr

1093

endfunc

1094

1095

function ff_vc1_inv_trans_4x8_dc_neon, export=1

1096

ldrsh r2, [r2] @ int dc = block[0];

1097

1098

vld1.32 {d0[]}, [r0,:32], r1

1099

vld1.32 {d1[]}, [r0,:32], r1

1100

vld1.32 {d0[1]}, [r0,:32], r1

1101

vld1.32 {d1[1]}, [r0,:32], r1

1102

1103

add r2, r2, r2, lsl #4 @ dc = (17 * dc + 4) >> 3;

1104

vld1.32 {d4[]}, [r0,:32], r1

1105

add r2, r2, #4

1106

vld1.32 {d5[]}, [r0,:32], r1

1107

vld1.32 {d4[1]}, [r0,:32], r1

1108

asr r2, r2, #3

1109

vld1.32 {d5[1]}, [r0,:32], r1

1110

1111

add r2, r2, r2, lsl #1 @ dc = (12 * dc + 64) >> 7;

1112

1113

sub r0, r0, r1, lsl #3 @ restore r0 to original value

1114

1115

lsl r2, r2, #2

1116

add r2, r2, #64

1117

asr r2, r2, #7

1118

1119

vdup.16 q1, r2 @ dc

1120

1121

vaddw.u8 q3, q1, d0

1122

vaddw.u8 q8, q1, d1

1123

vaddw.u8 q9, q1, d4

1124

vaddw.u8 q10, q1, d5

1125

vqmovun.s16 d0, q3

1126

vst1.32 {d0[0]}, [r0,:32], r1

1127

vqmovun.s16 d1, q8

1128

vst1.32 {d1[0]}, [r0,:32], r1

1129

vqmovun.s16 d4, q9

1130

vst1.32 {d0[1]}, [r0,:32], r1

1131

vqmovun.s16 d5, q10

1132

vst1.32 {d1[1]}, [r0,:32], r1

1133

vst1.32 {d4[0]}, [r0,:32], r1

1134

vst1.32 {d5[0]}, [r0,:32], r1

1135

vst1.32 {d4[1]}, [r0,:32], r1

1136

vst1.32 {d5[1]}, [r0,:32]

1137

bx lr

1138

endfunc

1139

1140

function ff_vc1_inv_trans_4x4_dc_neon, export=1

1141

ldrsh r2, [r2] @ int dc = block[0];

1142

1143

vld1.32 {d0[]}, [r0,:32], r1

1144

vld1.32 {d1[]}, [r0,:32], r1

1145

vld1.32 {d0[1]}, [r0,:32], r1

1146

vld1.32 {d1[1]}, [r0,:32], r1

1147

1148

add r2, r2, r2, lsl #4 @ dc = (17 * dc + 4) >> 3;

1149

1150

sub r0, r0, r1, lsl #2 @ restore r0 to original value

1151

1152

add r2, r2, #4

1153

asr r2, r2, #3

1154

1155

add r2, r2, r2, lsl #4 @ dc = (17 * dc + 64) >> 7;

1156

add r2, r2, #64

1157

asr r2, r2, #7

1158

1159

vdup.16 q1, r2 @ dc

1160

1161

vaddw.u8 q2, q1, d0

1162

vaddw.u8 q3, q1, d1

1163

vqmovun.s16 d0, q2

1164

vst1.32 {d0[0]}, [r0,:32], r1

1165

vqmovun.s16 d1, q3

1166

vst1.32 {d1[0]}, [r0,:32], r1

1167

vst1.32 {d0[1]}, [r0,:32], r1

1168

vst1.32 {d1[1]}, [r0,:32]

1169

bx lr

1170

endfunc

Older »