~ubuntu-branches/ubuntu/utopic/gridengine/utopic

« back to all changes in this revision

Viewing changes to doc/man/man1/sge_ckpt.1

  • Committer: Bazaar Package Importer
  • Author(s): Mark Hymers
  • Date: 2008-06-25 22:36:13 UTC
  • Revision ID: james.westby@ubuntu.com-20080625223613-tvd9xlhuoct9kyhm
Tags: upstream-6.2~beta2
ImportĀ upstreamĀ versionĀ 6.2~beta2

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
'\" t
 
2
.\"___INFO__MARK_BEGIN__
 
3
.\"
 
4
.\" Copyright: 2004 by Sun Microsystems, Inc.
 
5
.\"
 
6
.\"___INFO__MARK_END__
 
7
.\"
 
8
.\" $RCSfile$     Last Update: $Date$     Revision: $Revision$
 
9
.\"
 
10
.\"
 
11
.\" Some handy macro definitions [from Tom Christensen's man(1) manual page].
 
12
.\"
 
13
.de SB          \" small and bold
 
14
.if !"\\$1"" \\s-2\\fB\&\\$1\\s0\\fR\\$2 \\$3 \\$4 \\$5
 
15
..
 
16
.\"
 
17
.de T           \" switch to typewriter font
 
18
.ft CW          \" probably want CW if you don't have TA font
 
19
..
 
20
.\"
 
21
.de TY          \" put $1 in typewriter font
 
22
.if t .T
 
23
.if n ``\c
 
24
\\$1\c
 
25
.if t .ft P
 
26
.if n \&''\c
 
27
\\$2
 
28
..
 
29
.\"
 
30
.de M           \" man page reference
 
31
\\fI\\$1\\$2\\fR\\|(\\$3)\\$4
 
32
..
 
33
.TH xxQS_NAMExx_CKPT 1 "$Date$" "xxRELxx" "xxQS_NAMExx User Commands"
 
34
.\"
 
35
.SH NAME
 
36
xxQS_NAMExx Checkpointing \- the xxQS_NAMExx checkpointing mechanism and checkpointing
 
37
support
 
38
.\"
 
39
.SH DESCRIPTION
 
40
xxQS_NAMExx
 
41
supports two levels of checkpointing: the user level and a operating
 
42
system provided transparent
 
43
level. User level checkpointing refers to applications, which do their
 
44
own checkpointing by writing restart files at certain times or
 
45
algorithmic steps and by properly processing these restart files when
 
46
restarted.
 
47
.PP
 
48
Transparent checkpointing has to be provided by the operating system and is 
 
49
usually integrated in the operating system kernel. An example for a kernel 
 
50
integrated checkpointing facility is the Hibernator package from Softway
 
51
for SGI IRIX platforms.
 
52
.PP
 
53
Checkpointing jobs need to be identified to the xxQS_NAMExx system by using the 
 
54
\fI\-ckpt\fP option of the
 
55
.M qsub 1
 
56
command. The argument to this flag refers to a so 
 
57
called checkpointing environment, which defines the attributes of the 
 
58
checkpointing method to be used (see
 
59
.M checkpoint 5
 
60
for details). 
 
61
Checkpointing environments are setup by the
 
62
.M qconf 1
 
63
options \fI\-ackpt\fP, \fI\-dckpt\fP, \fI\-mckpt\fP and \fI\-sckpt\fP. The
 
64
.M qsub 1
 
65
option \fI\-c\fP can be used to overwrite the \fIwhen\fP
 
66
attribute for the referenced checkpointing environment.
 
67
.PP
 
68
If a queue is of the type CHECKPOINTING, jobs need to have the
 
69
checkpointing attribute flagged (see the \fB\-ckpt\fP option to
 
70
.M qsub 1 )
 
71
to be permitted to run in such a queue. As opposed to the behavior for
 
72
regular batch jobs, checkpointing jobs are aborted under conditions,
 
73
for which batch or interactive jobs are suspended or even stay
 
74
unaffected. These conditions are:
 
75
.\"
 
76
.IP "\(bu" 3n
 
77
Explicit suspension of the queue or job via
 
78
.M qmod 1
 
79
by the cluster administration or a queue owner
 
80
if the \fIx\fP occasion specifier (see
 
81
.M qsub 1
 
82
\fI\-c\fP and 
 
83
.M checkpoint 5 )
 
84
was assigned to the job.
 
85
.\"
 
86
.IP "\(bu" 3n
 
87
A load average value exceeding the migration threshold as configured for
 
88
the corresponding queues (see
 
89
.M queue_conf 5 ).
 
90
.\"
 
91
.IP "\(bu" 3n
 
92
Shutdown of the xxQS_NAMExx execution daemon
 
93
.M xxqs_name_sxx_execd 8
 
94
being responsible for the checkpointing job.
 
95
.PP
 
96
.\"
 
97
After abortion, the jobs will migrate to other queues unless they were
 
98
submitted to one specific queue by an explicit user request.
 
99
The migration of jobs leads to a dynamic load balancing.
 
100
\fBNote:\fP The abortion of checkpointed jobs will free all resources
 
101
(memory, swap space) which the job occupies at that time. This is
 
102
opposed to the situation for suspended regular jobs, which still cover
 
103
swap space.
 
104
.PP
 
105
.\"
 
106
.\"
 
107
.SH RESTRICTIONS
 
108
When a job migrates to a queue on another machine at present no files
 
109
are transferred automatically to that machine. This means that all files
 
110
which are used throughout the entire job including restart files,
 
111
executables and scratch files must be visible or transferred explicitly
 
112
(e.g. at the beginning of the job script).
 
113
.PP
 
114
.\"
 
115
There are also some practical limitations regarding use of disk space
 
116
for transparently checkpointing jobs. Checkpoints of a transparently
 
117
checkpointed application are usually stored in a checkpoint file or
 
118
directory by the operating system. The file or directory contains all
 
119
the text, data, and stack space for the process, along with some
 
120
additional control information. This means jobs which use a very large
 
121
virtual address space will generate very large checkpoint files. Also
 
122
the workstations on which the jobs will actually execute may have
 
123
little free disk space. Thus it is not always possible to transfer a
 
124
transparent checkpointing job to a machine, even though that machine is
 
125
idle. Since large virtual memory jobs must wait for a machine that is
 
126
both idle, and has a sufficient amount of free disk space, such jobs
 
127
may suffer long turnaround times.
 
128
.\"
 
129
.SH "SEE ALSO"
 
130
.M xxqs_name_sxx_intro 1 ,
 
131
.M qconf 1 ,
 
132
.M qmod 1 ,
 
133
.M qsub 1 ,
 
134
.M checkpoint 5 ,
 
135
.I xxQS_NAMExx Installation and Administration Guide,
 
136
.I xxQS_NAMExx User's Guide
 
137
.\"
 
138
.SH "COPYRIGHT"
 
139
See
 
140
.M xxqs_name_sxx_intro 1
 
141
for a full statement of rights and permissions.