~akopytov/percona-xtrabackup/bug1166888-2.1

« back to all changes in this revision

Viewing changes to src/libarchive/tar/tree.h

  • Committer: Alexey Kopytov
  • Date: 2012-02-10 20:05:56 UTC
  • mto: (391.1.5 staging)
  • mto: This revision was merged to the branch mainline in revision 390.
  • Revision ID: akopytov@gmail.com-20120210200556-6kx41z8wwrqfucro
Rebase of the parallel compression patch on new trunk + post-review
fixes.

Implementation of parallel compression and streaming for XtraBackup.

This revision implements the following changes:

* InnoDB files are now streamed by the xtrabackup binary rather than
innobackupex. As a result, integrity is now verified by xtrabackup and
thus tar4ibd is no longer needed, so it was removed.

* xtrabackup binary now accepts the new '--stream' option which has
exactly the same semantics as the '--stream' option in
innobackupex: it tells xtrabackup to stream all files to the standard
output in the specified format rather than storing them locally.

* The xtrabackup binary can now do parallel compression using the
quicklz library. Two new options were added to xtrabackup to support
this feature:

- '--compress' tells xtrabackup to compress all output data, including
the transaction log file and meta data files, using the specified
compression algorithm. The only currently supported algorithm is
'quicklz'. The resulting files have the qpress archive format,
i.e. every *.qp file produced by xtrabackup is essentially a one-file
qpress archive and can be extracted and uncompressed by the qpress
file archiver (http://www.quicklz.com/).

- '--compress-threads' specifies the number of worker threads used by
xtrabackup for parallel data compression. This option defaults to 1.

Parallel compression ('--compress-threads') can be used together with
parallel file copying ('--parallel'). For example, '--parallel=4
--compress --compress-threads=2' will create 4 IO threads that will
read the data and pipe it to 2 compression threads.

* To support simultaneous compression and streaming, a new custom
streaming format called 'xbstream' was introduced to XtraBackup in
addition to the 'tar' format. That was required to overcome some
limitations of traditional archive formats such as 'tar', 'cpio' and
others that do not allow streaming dynamically generated files, for
example dynamically compressed files.  Other advantages of xbstream over
traditional streaming/archive formats include ability to stream multiple
files concurrently (so it is possible to use streaming in the xbstream
format together with the --parallel option) and more compact data
storage.

* To allow streaming and extracting files to/from the xbstream format
produced by xtrabackup, a new utility aptly called 'xbstream' was
added to the XtraBackup distribution. This utility has a tar-like
interface:

- with the '-x' option it extracts files from the stream read from its
standard input to the current directory unless specified otherwise
with the '-C' option.

- with the '-c' option it streams files specified on the command line
to its standard output.

The utility also tries to minimize its impact on the OS page cache by
using the appropriate posix_fadvise() calls when available.

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
/*-
 
2
 * Copyright (c) 2003-2007 Tim Kientzle
 
3
 * All rights reserved.
 
4
 *
 
5
 * Redistribution and use in source and binary forms, with or without
 
6
 * modification, are permitted provided that the following conditions
 
7
 * are met:
 
8
 * 1. Redistributions of source code must retain the above copyright
 
9
 *    notice, this list of conditions and the following disclaimer.
 
10
 * 2. Redistributions in binary form must reproduce the above copyright
 
11
 *    notice, this list of conditions and the following disclaimer in the
 
12
 *    documentation and/or other materials provided with the distribution.
 
13
 *
 
14
 * THIS SOFTWARE IS PROVIDED BY THE AUTHOR(S) ``AS IS'' AND ANY EXPRESS OR
 
15
 * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES
 
16
 * OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED.
 
17
 * IN NO EVENT SHALL THE AUTHOR(S) BE LIABLE FOR ANY DIRECT, INDIRECT,
 
18
 * INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT
 
19
 * NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
 
20
 * DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
 
21
 * THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
 
22
 * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF
 
23
 * THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
24
 *
 
25
 * $FreeBSD: src/usr.bin/tar/tree.h,v 1.4 2008/11/27 05:49:52 kientzle Exp $
 
26
 */
 
27
 
 
28
/*-
 
29
 * A set of routines for traversing directory trees.
 
30
 * Similar in concept to the fts library, but with a few
 
31
 * important differences:
 
32
 *    * Uses less memory.  In particular, fts stores an entire directory
 
33
 *      in memory at a time.  This package only keeps enough subdirectory
 
34
 *      information in memory to track the traversal.  Information
 
35
 *      about non-directories is discarded as soon as possible.
 
36
 *    * Supports very deep logical traversals.  The fts package
 
37
 *      uses "non-chdir" approach for logical traversals.  This
 
38
 *      package does use a chdir approach for logical traversals
 
39
 *      and can therefore handle pathnames much longer than PATH_MAX.
 
40
 *    * Supports deep physical traversals "out of the box."
 
41
 *      Due to the memory optimizations above, there's no need to
 
42
 *      limit dir names to 32k.
 
43
 */
 
44
 
 
45
#include <sys/stat.h>
 
46
#include <stdio.h>
 
47
 
 
48
struct tree;
 
49
 
 
50
/* Initiate/terminate a tree traversal. */
 
51
struct tree *tree_open(const char * /* pathname */);
 
52
void tree_close(struct tree *);
 
53
 
 
54
/*
 
55
 * tree_next() returns Zero if there is no next entry, non-zero if
 
56
 * there is.  Note that directories are visited three times.
 
57
 * Directories are always visited first as part of enumerating their
 
58
 * parent; that is a "regular" visit.  If tree_descend() is invoked at
 
59
 * that time, the directory is added to a work list and will
 
60
 * subsequently be visited two more times: once just after descending
 
61
 * into the directory ("postdescent") and again just after ascending
 
62
 * back to the parent ("postascent").
 
63
 *
 
64
 * TREE_ERROR_DIR is returned if the descent failed (because the
 
65
 * directory couldn't be opened, for instance).  This is returned
 
66
 * instead of TREE_POSTDESCENT/TREE_POSTASCENT.  TREE_ERROR_DIR is not a
 
67
 * fatal error, but it does imply that the relevant subtree won't be
 
68
 * visited.  TREE_ERROR_FATAL is returned for an error that left the
 
69
 * traversal completely hosed.  Right now, this is only returned for
 
70
 * chdir() failures during ascent.
 
71
 */
 
72
#define TREE_REGULAR    1
 
73
#define TREE_POSTDESCENT        2
 
74
#define TREE_POSTASCENT 3
 
75
#define TREE_ERROR_DIR  -1
 
76
#define TREE_ERROR_FATAL -2
 
77
 
 
78
int tree_next(struct tree *);
 
79
 
 
80
/* Errno value associated with the last traversal error. */
 
81
int tree_errno(struct tree *);
 
82
 
 
83
/*
 
84
 * Request that current entry be visited.  If you invoke it on every
 
85
 * directory, you'll get a physical traversal.  This is ignored if the
 
86
 * current entry isn't a directory or a link to a directory.  So, if
 
87
 * you invoke this on every returned path, you'll get a full logical
 
88
 * traversal.
 
89
 */
 
90
void tree_descend(struct tree *);
 
91
 
 
92
/*
 
93
 * Return information about the current entry.
 
94
 */
 
95
 
 
96
/* Current depth in the traversal. */
 
97
int tree_current_depth(struct tree *);
 
98
 
 
99
/*
 
100
 * The current full pathname, length of the full pathname, and a name
 
101
 * that can be used to access the file.  Because tree does use chdir
 
102
 * extensively, the access path is almost never the same as the full
 
103
 * current path.
 
104
 *
 
105
 * TODO: Flesh out this interface to provide other information.  In
 
106
 * particular, Windows can provide file size, mode, and some permission
 
107
 * information without invoking stat() at all.
 
108
 *
 
109
 * TODO: On platforms that support it, use openat()-style operations
 
110
 * to eliminate the chdir() operations entirely while still supporting
 
111
 * arbitrarily deep traversals.  This makes access_path troublesome to
 
112
 * support, of course, which means we'll need a rich enough interface
 
113
 * that clients can function without it.  (In particular, we'll need
 
114
 * tree_current_open() that returns an open file descriptor.)
 
115
 *
 
116
 * TODO: Provide tree_current_archive_entry().
 
117
 */
 
118
const char *tree_current_path(struct tree *);
 
119
size_t tree_current_pathlen(struct tree *);
 
120
const char *tree_current_access_path(struct tree *);
 
121
 
 
122
/*
 
123
 * Request the lstat() or stat() data for the current path.  Since the
 
124
 * tree package needs to do some of this anyway, and caches the
 
125
 * results, you should take advantage of it here if you need it rather
 
126
 * than make a redundant stat() or lstat() call of your own.
 
127
 */
 
128
const struct stat *tree_current_stat(struct tree *);
 
129
const struct stat *tree_current_lstat(struct tree *);
 
130
 
 
131
/* The following functions use tricks to avoid a certain number of
 
132
 * stat()/lstat() calls. */
 
133
/* "is_physical_dir" is equivalent to S_ISDIR(tree_current_lstat()->st_mode) */
 
134
int tree_current_is_physical_dir(struct tree *);
 
135
/* "is_physical_link" is equivalent to S_ISLNK(tree_current_lstat()->st_mode) */
 
136
int tree_current_is_physical_link(struct tree *);
 
137
/* "is_dir" is equivalent to S_ISDIR(tree_current_stat()->st_mode) */
 
138
int tree_current_is_dir(struct tree *);
 
139
 
 
140
/* For testing/debugging: Dump the internal status to the given filehandle. */
 
141
void tree_dump(struct tree *, FILE *);