← Back to branch summary

~ubuntu-branches/ubuntu/trusty/libthrust/trusty

~ubuntu-branches/ubuntu/trusty/libthrust/trusty

« back to all changes in this revision

Viewing changes to detail/device/cuda/block/reduce.h

Committer: Bazaar Package Importer
Author(s): Andreas Beckmann
Date: 2011-05-28 09:32:48 UTC
Revision ID: james.westby@ubuntu.com-20110528093248-np3euv5sj7fw3nyv

Tags: upstream-1.4.0

Import upstream version 1.4.0

files added:

CHANGELOG

LICENSE

NOTICE

THANKS

adjacent_difference.h

advance.h

binary_search.h

copy.h

count.h

detail

detail/adjacent_difference.inl

detail/advance.inl

detail/binary_search.inl

detail/casts.h

detail/config

detail/config.h

detail/config/compiler.h

detail/config/config.h

detail/config/debug.h

detail/config/device_backend.h

detail/config/host_device.h

detail/config/simple_defines.h

detail/contiguous_storage.h

detail/contiguous_storage.inl

detail/copy.inl

detail/count.inl

detail/cstdint.h

detail/destroy.h

detail/device

detail/device/adjacent_difference.h

detail/device/binary_search.h

detail/device/copy.h

detail/device/cuda

detail/device/cuda/arch.h

detail/device/cuda/arch.inl

detail/device/cuda/block

detail/device/cuda/block/copy.h

detail/device/cuda/block/inclusive_scan.h

detail/device/cuda/block/merge.h

detail/device/cuda/block/merge.inl

detail/device/cuda/block/merging_sort.h

detail/device/cuda/block/odd_even_sort.h

detail/device/cuda/block/reduce.h

detail/device/cuda/block/set_difference.h

detail/device/cuda/block/set_difference.inl

detail/device/cuda/block/set_intersection.h

detail/device/cuda/block/set_intersection.inl

detail/device/cuda/block/set_symmetric_difference.h

detail/device/cuda/block/set_symmetric_difference.inl

detail/device/cuda/block/set_union.h

detail/device/cuda/block/set_union.inl

detail/device/cuda/copy.h

detail/device/cuda/copy_cross_space.h

detail/device/cuda/copy_device_to_device.h

detail/device/cuda/copy_if.h

detail/device/cuda/copy_if.inl

detail/device/cuda/detail

detail/device/cuda/detail/b40c

detail/device/cuda/detail/b40c/kernel_utils.h

detail/device/cuda/detail/b40c/radixsort_api.h

detail/device/cuda/detail/b40c/radixsort_kernel_common.h

detail/device/cuda/detail/b40c/radixsort_key_conversion.h

detail/device/cuda/detail/b40c/radixsort_reduction_kernel.h

detail/device/cuda/detail/b40c/radixsort_scanscatter_kernel.h

detail/device/cuda/detail/b40c/radixsort_spine_kernel.h

detail/device/cuda/detail/b40c/vector_types.h

detail/device/cuda/detail/fast_scan.h

detail/device/cuda/detail/fast_scan.inl

detail/device/cuda/detail/get_set_operation_splitter_ranks.h

detail/device/cuda/detail/get_set_operation_splitter_ranks.inl

detail/device/cuda/detail/launch_closure.h

detail/device/cuda/detail/launch_closure.inl

detail/device/cuda/detail/rank_iterator.h

detail/device/cuda/detail/safe_scan.h

detail/device/cuda/detail/safe_scan.inl

detail/device/cuda/detail/set_operation.h

detail/device/cuda/detail/set_operation.inl

detail/device/cuda/detail/split_for_set_operation.h

detail/device/cuda/detail/split_for_set_operation.inl

detail/device/cuda/detail/stable_merge_sort.h

detail/device/cuda/detail/stable_merge_sort.inl

detail/device/cuda/detail/stable_radix_sort.h

detail/device/cuda/detail/stable_radix_sort.inl

detail/device/cuda/detail/stable_radix_sort_bits.h

detail/device/cuda/detail/stable_radix_sort_key.inl

detail/device/cuda/detail/stable_radix_sort_key_value.inl

detail/device/cuda/detail/stable_radix_sort_merrill.inl

detail/device/cuda/detail/stable_radix_sort_util.h

detail/device/cuda/detail/trivial_copy.h

detail/device/cuda/dispatch

detail/device/cuda/dispatch/copy.h

detail/device/cuda/dispatch/reduce.h

detail/device/cuda/dispatch/reduce.inl

detail/device/cuda/dispatch/scan.h

detail/device/cuda/extern_shared_ptr.h

detail/device/cuda/fill.h

detail/device/cuda/fill.inl

detail/device/cuda/for_each.h

detail/device/cuda/for_each.inl

detail/device/cuda/free.h

detail/device/cuda/free.inl

detail/device/cuda/malloc.h

detail/device/cuda/malloc.inl

detail/device/cuda/merge.h

detail/device/cuda/merge.inl

detail/device/cuda/no_throw_free.h

detail/device/cuda/no_throw_free.inl

detail/device/cuda/partition.h

detail/device/cuda/reduce.h

detail/device/cuda/reduce.inl

detail/device/cuda/scalar

detail/device/cuda/scalar/rotate.h

detail/device/cuda/scan.h

detail/device/cuda/scan.inl

detail/device/cuda/segmented_scan.h

detail/device/cuda/segmented_scan.inl

detail/device/cuda/set_difference.inl

detail/device/cuda/set_intersection.inl

detail/device/cuda/set_operations.h

detail/device/cuda/set_symmetric_difference.inl

detail/device/cuda/set_union.inl

detail/device/cuda/sort.h

detail/device/cuda/sort.inl

detail/device/cuda/synchronize.h

detail/device/cuda/synchronize.inl

detail/device/cuda/trivial_copy.h

detail/device/cuda/trivial_copy.inl

detail/device/cuda/warp

detail/device/cuda/warp/any.h

detail/device/cuda/warp/scan.h

detail/device/dereference.h

detail/device/dispatch

detail/device/dispatch/copy.h

detail/device/dispatch/fill.h

detail/device/dispatch/for_each.h

detail/device/dispatch/free.h

detail/device/dispatch/malloc.h

detail/device/dispatch/merge.h

detail/device/dispatch/no_throw_free.h

detail/device/dispatch/reduce.h

detail/device/dispatch/scan.h

detail/device/dispatch/set_operations.h

detail/device/dispatch/sort.h

detail/device/dispatch/uninitialized_copy.h

detail/device/extrema.h

detail/device/fill.h

detail/device/fill.inl

detail/device/find.h

detail/device/for_each.h

detail/device/for_each.inl

detail/device/generic

detail/device/generic/adjacent_difference.h

detail/device/generic/adjacent_difference.inl

detail/device/generic/binary_search.h

detail/device/generic/binary_search.inl

detail/device/generic/copy.h

detail/device/generic/copy_if.h

detail/device/generic/copy_if.inl

detail/device/generic/extrema.h

detail/device/generic/extrema.inl

detail/device/generic/fill.h

detail/device/generic/find.h

detail/device/generic/find.inl

detail/device/generic/free.h

detail/device/generic/malloc.h

detail/device/generic/no_throw_free.h

detail/device/generic/partition.h

detail/device/generic/partition.inl

detail/device/generic/reduce.h

detail/device/generic/reduce.inl

detail/device/generic/reduce_by_key.h

detail/device/generic/reduce_by_key.inl

detail/device/generic/remove.h

detail/device/generic/remove.inl

detail/device/generic/scalar

detail/device/generic/scalar/binary_search.h

detail/device/generic/scalar/binary_search.inl

detail/device/generic/scalar/select.h

detail/device/generic/scalar/select.inl

detail/device/generic/scan_by_key.h

detail/device/generic/scan_by_key.inl

detail/device/generic/unique.h

detail/device/generic/unique.inl

detail/device/internal_allocator.h

detail/device/merge.h

detail/device/no_throw_free.h

detail/device/omp

detail/device/omp/copy.h

detail/device/omp/copy_device_to_device.h

detail/device/omp/copy_device_to_device.inl

detail/device/omp/copy_device_to_host_or_any.h

detail/device/omp/copy_device_to_host_or_any.inl

detail/device/omp/copy_host_or_any_to_device.h

detail/device/omp/copy_host_or_any_to_device.inl

detail/device/omp/detail

detail/device/omp/detail/stable_merge_sort.h

detail/device/omp/detail/stable_merge_sort.inl

detail/device/omp/dispatch

detail/device/omp/dispatch/copy.h

detail/device/omp/dispatch/sort.h

detail/device/omp/for_each.h

detail/device/omp/for_each.inl

detail/device/omp/merge.h

detail/device/omp/reduce.h

detail/device/omp/reduce.inl

detail/device/omp/scan.h

detail/device/omp/scan.inl

detail/device/omp/set_operations.h

detail/device/omp/sort.h

detail/device/omp/sort.inl

detail/device/partition.h

detail/device/reduce.h

detail/device/reduce.inl

detail/device/remove.h

detail/device/scan.h

detail/device/scan.inl

detail/device/set_operations.h

detail/device/sort.h

detail/device/sort.inl

detail/device/uninitialized_copy.h

detail/device/unique.h

detail/device_delete.inl

detail/device_free.inl

detail/device_malloc.inl

detail/device_new.inl

detail/device_ptr.inl

detail/device_ptr_traits.h

detail/device_reference.inl

detail/device_vector.inl

detail/diagnostic.h

detail/dispatch

detail/dispatch/adjacent_difference.h

detail/dispatch/advance.h

detail/dispatch/binary_search.h

detail/dispatch/copy.h

detail/dispatch/destroy.h

detail/dispatch/distance.h

detail/dispatch/extrema.h

detail/dispatch/fill.h

detail/dispatch/find.h

detail/dispatch/for_each.h

detail/dispatch/is_trivial_copy.h

detail/dispatch/merge.h

detail/dispatch/partition.h

detail/dispatch/reduce.h

detail/dispatch/remove.h

detail/dispatch/scan.h

detail/dispatch/set_operations.h

detail/dispatch/sort.h

detail/dispatch/uninitialized_copy.h

detail/dispatch/uninitialized_fill.h

detail/dispatch/unique.h

detail/distance.inl

detail/equal.inl

detail/extrema.inl

detail/fill.inl

detail/find.inl

detail/for_each.inl

detail/functional.inl

detail/gather.inl

detail/generate.inl

detail/host

detail/host/adjacent_difference.h

detail/host/binary_search.h

detail/host/copy.h

detail/host/detail

detail/host/detail/copy_backward.h

detail/host/detail/general_copy.h

detail/host/detail/insertion_sort.h

detail/host/detail/merge.h

detail/host/detail/merge.inl

detail/host/detail/stable_merge_sort.h

detail/host/detail/stable_merge_sort.inl

detail/host/detail/trivial_copy.h

detail/host/dispatch

detail/host/dispatch/copy.h

detail/host/extrema.h

detail/host/fill.h

detail/host/find.h

detail/host/for_each.h

detail/host/for_each.inl

detail/host/merge.h

detail/host/partition.h

detail/host/reduce.h

detail/host/remove.h

detail/host/scan.h

detail/host/set_operations.h

detail/host/sort.h

detail/host/sort.inl

detail/host/unique.h

detail/host_vector.inl

detail/inner_product.inl

detail/integer_traits.h

detail/internal_functional.h

detail/logical.inl

detail/merge.inl

detail/mismatch.inl

detail/move.h

detail/mpl

detail/mpl/math.h

detail/numeric_traits.h

detail/pair.inl

detail/partition.inl

detail/raw_buffer.h

detail/raw_buffer.inl

detail/reduce.inl

detail/remove.inl

detail/replace.inl

detail/reverse.inl

detail/scan.inl

detail/scatter.inl

detail/sequence.inl

detail/set_operations.inl

detail/sort.inl

detail/static_assert.h

detail/swap.inl

detail/swap_ranges.inl

detail/transform.inl

detail/transform_reduce.inl

detail/transform_scan.inl

detail/trivial_sequence.h

detail/tuple.inl

detail/tuple_meta_transform.h

detail/tuple_transform.h

detail/type_traits

detail/type_traits.h

detail/type_traits/algorithm

detail/type_traits/algorithm/intermediate_type_from_function_and_iterators.h

detail/type_traits/function_traits.h

detail/type_traits/has_nested_type.h

detail/type_traits/has_trivial_assign.h

detail/type_traits/is_metafunction_defined.h

detail/type_traits/iterator

detail/type_traits/iterator/is_output_iterator.h

detail/type_traits/minimum_type.h

detail/uninitialized_copy.inl

detail/uninitialized_fill.inl

detail/unique.inl

detail/util

detail/util/align.h

detail/util/blocking.h

detail/vector_base.h

detail/vector_base.inl

device_allocator.h

device_delete.h

device_free.h

device_malloc.h

device_malloc_allocator.h

device_new.h

device_new_allocator.h

device_ptr.h

device_reference.h

device_vector.h

distance.h

equal.h

experimental

experimental/cuda

experimental/cuda/pinned_allocator.h

extrema.h

fill.h

find.h

for_each.h

functional.h

gather.h

generate.h

host_vector.h

inner_product.h

iterator

iterator/constant_iterator.h

iterator/counting_iterator.h

iterator/detail

iterator/detail/any_space_tag.h

iterator/detail/backend_iterator_categories.h

iterator/detail/backend_iterator_spaces.h

iterator/detail/constant_iterator.inl

iterator/detail/constant_iterator_base.h

iterator/detail/counting_iterator.inl

iterator/detail/device_iterator_category_to_backend_space.h

iterator/detail/discard_iterator.inl

iterator/detail/discard_iterator_base.h

iterator/detail/distance_from_result.h

iterator/detail/forced_iterator.h

iterator/detail/is_iterator_category.h

iterator/detail/iterator_adaptor.inl

iterator/detail/iterator_category_to_space.h

iterator/detail/iterator_category_to_traversal.h

iterator/detail/iterator_facade.inl

iterator/detail/iterator_traits.inl

iterator/detail/minimum_category.h

iterator/detail/minimum_space.h

iterator/detail/normal_iterator.h

iterator/detail/permutation_iterator.inl

iterator/detail/permutation_iterator_base.h

iterator/detail/placement

iterator/detail/placement/is_placed.h

iterator/detail/reverse_iterator.inl

iterator/detail/reverse_iterator_base.h

iterator/detail/transform_iterator.inl

iterator/detail/universal_categories.h

iterator/detail/zip_iterator.inl

iterator/detail/zip_iterator_base.h

iterator/discard_iterator.h

iterator/iterator_adaptor.h

iterator/iterator_categories.h

iterator/iterator_facade.h

iterator/iterator_traits.h

iterator/permutation_iterator.h

iterator/reverse_iterator.h

iterator/transform_iterator.h

iterator/zip_iterator.h

logical.h

merge.h

mismatch.h

pair.h

partition.h

random

random.h

random/detail

random/detail/discard_block_engine.inl

random/detail/linear_congruential_engine.inl

random/detail/linear_congruential_engine_discard.h

random/detail/linear_feedback_shift_engine.inl

random/detail/linear_feedback_shift_engine_wordmask.h

random/detail/mod.h

random/detail/normal_distribution.inl

random/detail/random_core_access.h

random/detail/subtract_with_carry_engine.inl

random/detail/uniform_int_distribution.inl

random/detail/uniform_real_distribution.inl

random/detail/xor_combine_engine.inl

random/detail/xor_combine_engine_max.h

random/discard_block_engine.h

random/linear_congruential_engine.h

random/linear_feedback_shift_engine.h

random/normal_distribution.h

random/subtract_with_carry_engine.h

random/uniform_int_distribution.h

random/uniform_real_distribution.h

random/xor_combine_engine.h

reduce.h

remove.h

replace.h

reverse.h

scan.h

scatter.h

sequence.h

set_operations.h

sort.h

swap.h

system

system/cuda_error.h

system/detail

system/detail/cuda_error.inl

system/detail/errno.h

system/detail/error_category.inl

system/detail/error_code.inl

system/detail/error_condition.inl

system/detail/system_error.inl

system/error_code.h

system/system_error.h

system_error.h

transform.h

transform_reduce.h

transform_scan.h

tuple.h

uninitialized_copy.h

uninitialized_fill.h

unique.h

version.h

Show diffs side-by-side

added added

removed removed

detail/device/cuda/block/reduce.h

1

/*

2

* Copyright 2008-2011 NVIDIA Corporation

3

*

4

* Licensed under the Apache License, Version 2.0 (the "License");

5

* you may not use this file except in compliance with the License.

6

* You may obtain a copy of the License at

7

*

8

* http://www.apache.org/licenses/LICENSE-2.0

9

*

10

* Unless required by applicable law or agreed to in writing, software

11

* distributed under the License is distributed on an "AS IS" BASIS,

12

* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

13

* See the License for the specific language governing permissions and

14

* limitations under the License.

15

*/

16

17

#pragma once

18

19

#include <thrust/detail/config.h>

20

21

// do not attempt to compile this file, which uses CUDA built-in variables, with any compiler other than nvcc

22

#if THRUST_DEVICE_COMPILER == THRUST_DEVICE_COMPILER_NVCC

23

24

namespace thrust

25

{

26

namespace detail

27

{

28

namespace device

29

{

30

namespace cuda

31

{

32

namespace block

33

{

34

35

template <unsigned int block_size, typename ValueIterator, typename BinaryFunction>

36

__device__

37

void reduce(ValueIterator data, BinaryFunction binary_op)

38

{

39

if (block_size >= 1024) { if (threadIdx.x < 512) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 512]); } __syncthreads(); }

40

if (block_size >= 512) { if (threadIdx.x < 256) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 256]); } __syncthreads(); }

41

if (block_size >= 256) { if (threadIdx.x < 128) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 128]); } __syncthreads(); }

42

if (block_size >= 128) { if (threadIdx.x < 64) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 64]); } __syncthreads(); }

43

if (block_size >= 64) { if (threadIdx.x < 32) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 32]); } __syncthreads(); }

44

if (block_size >= 32) { if (threadIdx.x < 16) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 16]); } __syncthreads(); }

45

if (block_size >= 16) { if (threadIdx.x < 8) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 8]); } __syncthreads(); }

46

if (block_size >= 8) { if (threadIdx.x < 4) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 4]); } __syncthreads(); }

47

if (block_size >= 4) { if (threadIdx.x < 2) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 2]); } __syncthreads(); }

48

if (block_size >= 2) { if (threadIdx.x < 1) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 1]); } __syncthreads(); }

49

}

50

51

template <typename ValueIterator, typename BinaryFunction>

52

__device__

53

void reduce_n(ValueIterator data, const unsigned int n, BinaryFunction binary_op)

54

{

55

// assume n <= 1024

56

if (n > 512) { if (threadIdx.x < 512 && threadIdx.x + 512 < n) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 512]); } __syncthreads(); }

57

if (n > 256) { if (threadIdx.x < 256 && threadIdx.x + 256 < n) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 256]); } __syncthreads(); }

58

if (n > 128) { if (threadIdx.x < 128 && threadIdx.x + 128 < n) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 128]); } __syncthreads(); }

59

if (n > 64) { if (threadIdx.x < 64 && threadIdx.x + 64 < n) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 64]); } __syncthreads(); }

60

if (n > 32) { if (threadIdx.x < 32 && threadIdx.x + 32 < n) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 32]); } __syncthreads(); }

61

if (n > 16) { if (threadIdx.x < 16 && threadIdx.x + 16 < n) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 16]); } __syncthreads(); }

62

if (n > 8) { if (threadIdx.x < 8 && threadIdx.x + 8 < n) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 8]); } __syncthreads(); }

63

if (n > 4) { if (threadIdx.x < 4 && threadIdx.x + 4 < n) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 4]); } __syncthreads(); }

64

if (n > 2) { if (threadIdx.x < 2 && threadIdx.x + 2 < n) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 2]); } __syncthreads(); }

65

if (n > 1) { if (threadIdx.x < 1 && threadIdx.x + 1 < n) { data[threadIdx.x] = binary_op(data[threadIdx.x], data[threadIdx.x + 1]); } __syncthreads(); }

66

}

67

68

} // end namespace block

69

} // end namespace cuda

70

} // end namespace device

71

} // end namespace detail

72

} // end namespace thrust

73

74

#endif // THRUST_DEVICE_COMPILER == THRUST_DEVICE_COMPILER_NVCC

75

Older »