~ubuntu-branches/ubuntu/utopic/gridengine/utopic

« back to all changes in this revision

Viewing changes to doc/man/man5/reporting.5

  • Committer: Bazaar Package Importer
  • Author(s): Mark Hymers
  • Date: 2008-06-25 22:36:13 UTC
  • Revision ID: james.westby@ubuntu.com-20080625223613-tvd9xlhuoct9kyhm
Tags: upstream-6.2~beta2
ImportĀ upstreamĀ versionĀ 6.2~beta2

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
'\" t
 
2
.\"___INFO__MARK_BEGIN__
 
3
.\"
 
4
.\" Copyright: 2004 by Sun Microsystems, Inc.
 
5
.\"
 
6
.\"___INFO__MARK_END__
 
7
.\" $RCSfile$     Last Update: $Date$     Revision: $Revision$
 
8
.\"
 
9
.\"
 
10
.\" Some handy macro definitions [from Tom Christensen's man(1) manual page].
 
11
.\"
 
12
.de SB          \" small and bold
 
13
.if !"\\$1"" \\s-2\\fB\&\\$1\\s0\\fR\\$2 \\$3 \\$4 \\$5
 
14
..
 
15
.\"
 
16
.de T           \" switch to typewriter font
 
17
.ft CW          \" probably want CW if you don't have TA font
 
18
..
 
19
.\"
 
20
.de TY          \" put $1 in typewriter font
 
21
.if t .T
 
22
.if n ``\c
 
23
\\$1\c
 
24
.if t .ft P
 
25
.if n \&''\c
 
26
\\$2
 
27
..
 
28
.\"
 
29
.de M           \" man page reference
 
30
\\fI\\$1\\fR\\|(\\$2)\\$3
 
31
..
 
32
.TH REPORTING 5 "$Date$" "xxRELxx" "xxQS_NAMExx File Formats"
 
33
.\"
 
34
.SH NAME
 
35
reporting \- xxQS_NAMExx reporting file format
 
36
.\"
 
37
.SH DESCRIPTION
 
38
A xxQS_NAMExx system writes a reporting file to 
 
39
$SGE_ROOT/default/common/reporting.
 
40
The reporting file contains data that can be used for accounting, monitoring and analysis purposes.
 
41
It contains information about the cluster (hosts, queues, load values, consumables, etc.), about the jobs running in the cluster and about sharetree configuration and usage.
 
42
All information is time related, events are dumped to the reporting file in a configurable interval.
 
43
It allows to monitor a "real time" status of the cluster as well as historical analysis.
 
44
.\"
 
45
.\"
 
46
.SH FORMAT
 
47
The reporting file is an ASCII file.
 
48
Each line contains one record, and the fields of a record are separated by a delimiter (:).
 
49
The reporting file contains records of different type. Each record type has a specific record structure. 
 
50
.PP
 
51
The first two fields are common to all reporting records:
 
52
.IP "\fBtime\fP"
 
53
Time (GMT unix timestamp) when the record was created.
 
54
.IP "\fBrecord type\fP"
 
55
Type of the accounting record.
 
56
The different types of records and their structure are described in the following text.
 
57
.SS new_job
 
58
The new_job record is written whenever a new job enters the system (usually by a submitting command). It has the following fields:
 
59
.IP "\fBsubmission_time\fP"
 
60
Time (GMT unix time stamp) when the job was submitted.
 
61
.IP "\fBjob_number\fP"
 
62
The job number.
 
63
.IP "\fBtask_number\fP"
 
64
The array task id. Always has the value -1 for new_job records (as we don't have array tasks yet).
 
65
.IP "\fBpe_taskid\fP"
 
66
The task id of parallel tasks. Always has the value "none" for new_job records.
 
67
.IP "\fBjob_name\fP"
 
68
The job name (from -N submission option)
 
69
.IP "\fBowner\fP"
 
70
The job owner.
 
71
.IP "\fBgroup\fP"
 
72
The unix group of the job owner.
 
73
.IP "\fBproject\fP"
 
74
The project the job is running in.
 
75
.IP "\fBdepartment\fP"
 
76
The department the job owner is in.
 
77
.IP "\fBaccount\fP"
 
78
The account string specified for the job (from -A submission option).
 
79
.IP "\fBpriority\fP"
 
80
The job priority (from -p submission option).
 
81
.SS job_log
 
82
The job_log record is written whenever a job, an array task or a pe tasks is changing status. A status change can be the transition from pending to running, but can also be triggered by user actions like suspension of a job.
 
83
It has the following fields:
 
84
.IP "\fBevent_time\fP"
 
85
Time (GMT unix time stamp) when the event was generated.
 
86
.IP "\fBevent\fP"
 
87
A one word description of the event.
 
88
.IP "\fBjob_number\fP"
 
89
The job number.
 
90
.IP "\fBtask_number\fP"
 
91
The array task id. Always has the value -1 for new_job records (as we don't have array tasks yet).
 
92
.IP "\fBpe_taskid\fP"
 
93
The task id of parallel tasks. Always has the value "none" for new_job records.
 
94
.IP "\fBstate\fP"
 
95
The state of the job after the event was processed.
 
96
.IP "\fBuser\fP"
 
97
The user who initiated the event (or special usernames "qmaster", "scheduler" 
 
98
and "execd" for actions of the system itself like scheduling jobs, executing jobs etc.).
 
99
.IP "\fBhost\fP"
 
100
The host from which the action was initiated (e.g. the submit host, the qmaster host, etc.).
 
101
.IP "\fBstate_time\fP"
 
102
Reserved field for later use.
 
103
.IP "\fBsubmission_time\fP"
 
104
Time (GMT unix time stamp) when the job was submitted.
 
105
.IP "\fBjob_name\fP"
 
106
The job name (from -N submission option)
 
107
.IP "\fBowner\fP"
 
108
The job owner.
 
109
.IP "\fBgroup\fP"
 
110
The unix group of the job owner.
 
111
.IP "\fBproject\fP"
 
112
The project the job is running in.
 
113
.IP "\fBdepartment\fP"
 
114
The department the job owner is in.
 
115
.IP "\fBaccount\fP"
 
116
The account string specified for the job (from -A submission option).
 
117
.IP "\fBpriority\fP"
 
118
The job priority (from -p submission option).
 
119
.IP "\fBmessage\fP"
 
120
A message describing the reported action.
 
121
.SS acct
 
122
Records of type acct are accounting records. Normally, they are written whenever a job, a task of an array job, 
 
123
or the task of a parallel job terminates. However, for long running jobs an intermediate acct record is created once a 
 
124
day after a midnight. This results in multiple accounting records for a particular job and allows for a fine-grained 
 
125
resource usage monitoring over time. 
 
126
Accounting records comprise the following fields:
 
127
.IP "\fBqname\fP"
 
128
Name of the cluster queue in which the job has run.
 
129
.IP "\fBhostname\fP"
 
130
Name of the execution host.
 
131
.IP "\fBgroup\fP"
 
132
The effective group id of the job owner when executing the job.
 
133
.IP "\fBowner\fP"
 
134
Owner of the xxQS_NAMExx job.
 
135
.IP "\fBjob_name\fP"
 
136
Job name.
 
137
.IP "\fBjob_number\fP"
 
138
Job identifier - job number.
 
139
.IP "\fBaccount\fP"
 
140
An account string as specified by the
 
141
.M qsub 1
 
142
or
 
143
.M qalter 1
 
144
\fB\-A\fP option.
 
145
.IP "\fBpriority\fP"
 
146
Priority value assigned to the job corresponding to the \fBpriority\fP
 
147
parameter in the queue configuration (see
 
148
.M queue_conf 5 ).
 
149
.IP "\fBsubmission_time\fP"
 
150
Submission time (GMT unix time stamp).
 
151
.IP "\fBstart_time\fP"
 
152
Start time (GMT unix time stamp).
 
153
.IP "\fBend_time\fP"
 
154
End time (GMT unix time stamp).
 
155
.IP "\fBfailed\fP"
 
156
Indicates the problem which occurred in case a job could not be started on 
 
157
the execution host (e.g. because the owner of the job did not have a valid 
 
158
account on that machine). If xxQS_NAMExx tries to start a job multiple times, 
 
159
this may lead to multiple entries in the accounting file corresponding to 
 
160
the same job ID.
 
161
.IP "\fBexit_status\fP"
 
162
Exit status of the job script (or xxQS_NAMExx specific status in case
 
163
of certain error conditions).
 
164
.IP "\fBru_wallclock\fP"
 
165
Difference between \fBend_time\fP and \fBstart_time\fP (see above).
 
166
.PP
 
167
The remainder of the accounting entries follows the contents of the
 
168
standard UNIX rusage structure as described in
 
169
.M getrusage 2 .
 
170
Depending on the operating system where the job was executed some of the
 
171
fields may be 0.  The following entries are provided:
 
172
.PP
 
173
.nf
 
174
.RS
 
175
.B ru_utime
 
176
.B ru_stime
 
177
.B ru_maxrss
 
178
.B ru_ixrss
 
179
.B ru_ismrss
 
180
.B ru_idrss
 
181
.B ru_isrss
 
182
.B ru_minflt
 
183
.B ru_majflt
 
184
.B ru_nswap
 
185
.B ru_inblock
 
186
.B ru_oublock
 
187
.B ru_msgsnd
 
188
.B ru_msgrcv
 
189
.B ru_nsignals
 
190
.B ru_nvcsw
 
191
.B ru_nivcsw
 
192
.RE
 
193
.fi
 
194
.PP
 
195
 
 
196
.IP "\fBproject\fP"
 
197
The project which was assigned to the job.
 
198
.IP "\fBdepartment\fP"
 
199
The department which was assigned to the job.
 
200
.IP "\fBgranted_pe\fP"
 
201
The parallel environment which was selected for that job.
 
202
.IP "\fBslots\fP"
 
203
The number of slots which were dispatched to the job by the scheduler.
 
204
.IP "\fBtask_number\fP"
 
205
Array job task index number.
 
206
.IP "\fBcpu\fP"
 
207
The cpu time usage in seconds. 
 
208
.IP "\fBmem\fP"
 
209
The integral memory usage in Gbytes seconds. 
 
210
.IP "\fBio\fP"
 
211
The amount of data transferred in input/output operations.
 
212
.IP "\fBcategory\fP"
 
213
A string specifying the job category.
 
214
.IP "\fBiow\fP"
 
215
The io wait time in seconds.
 
216
.IP "\fBpe_taskid\fP"
 
217
If this identifier is set the task was part of a parallel job and was 
 
218
passed to xxQS_NAMExx via the qrsh -inherit interface.
 
219
.IP "\fBmaxvmem\fP"
 
220
The maximum vmem size in bytes.
 
221
.IP "\fBarid\fP"
 
222
Advance reservation identifier. If the job used resources of an advance
 
223
reservation then this field contains a positive integer identifier otherwise the
 
224
value is "\fB0\fP" .
 
225
.SS queue
 
226
Records of type queue contain state information for queues (queue instances).
 
227
A queue record has the following fields:
 
228
.IP "\fBqname\fP"
 
229
The cluster queue name.
 
230
.IP "\fBhostname\fP"
 
231
The hostname of a specific queue instance.
 
232
.IP "\fBreport_time\fP"
 
233
The time (GMT unix time stamp) when a state change was triggered.
 
234
.IP "\fBstate\fP"
 
235
The new queue state.
 
236
.SS queue_consumable
 
237
A queue_consumable record contains information about queue consumable values in addition to queue state information:
 
238
.IP "\fBqname\fP"
 
239
The cluster queue name.
 
240
.IP "\fBhostname\fP"
 
241
The hostname of a specific queue instance.
 
242
.IP "\fBreport_time\fP"
 
243
The time (GMT unix time stamp) when a state change was triggered.
 
244
.IP "\fBstate\fP"
 
245
The new queue state.
 
246
.IP "\fBconsumables\fP"
 
247
Description of consumable values. Information about multiple consumables is separated by space.
 
248
A consumable description has the format <name>=<actual_value>=<configured value>.
 
249
.SS host
 
250
A host record contains information about hosts and host load values.
 
251
It contains the following information:
 
252
.IP "\fBhostname\fP"
 
253
The name of the host.
 
254
.IP "\fBreport_time\fP"
 
255
The time (GMT unix time stamp) when the reported information was generated.
 
256
.IP "\fBstate\fP"
 
257
The new host state.
 
258
Currently, xxQS_NAMExx doesn't track a host state, the field is reserved for 
 
259
future use. Always contains the value X.
 
260
.IP "\fBload values\fP"
 
261
Description of load values. Information about multiple load values is separated by space.
 
262
A load value description has the format <name>=<actual_value>.
 
263
.\"
 
264
.SS host_consumable
 
265
A host_consumable record contains information about hosts and host consumables.
 
266
Host consumables can for example be licenses.
 
267
It contains the following information:
 
268
.IP "\fBhostname\fP"
 
269
The name of the host.
 
270
.IP "\fBreport_time\fP"
 
271
The time (GMT unix time stamp) when the reported information was generated.
 
272
.IP "\fBstate\fP"
 
273
The new host state.
 
274
Currently, xxQS_NAMExx doesn't track a host state, the field is reserved for 
 
275
future use. Always contains the value X.
 
276
.IP "\fBconsumables\fP"
 
277
Description of consumable values. Information about multiple consumables is separated by space.
 
278
A consumable description has the format <name>=<actual_value>=<configured value>.
 
279
.SS sharelog 
 
280
The xxQS_NAMExx qmaster can dump information about sharetree configuration and use to the reporting file.
 
281
The parameter \fIsharelog\fP sets an interval in which sharetree information will be dumped.
 
282
It is set in the format HH:MM:SS. A value of 00:00:00 configures qmaster not to
 
283
dump sharetree information. Intervals of several minutes up to hours are sensible values for this parameter.
 
284
The record contains the following fields
 
285
.IP "\fBcurrent time\fP"
 
286
The present time
 
287
.IP "\fBusage time\fP"
 
288
The  time used so far
 
289
.IP "\fBnode name\fP"
 
290
The node name
 
291
.IP "\fBuser name\fP"
 
292
The user name
 
293
.IP "\fBproject name\fP"
 
294
The project name
 
295
.IP "\fBshares \fP"
 
296
The total shares
 
297
.IP "\fBjob count \fP"
 
298
The job  count
 
299
.IP "\fBlevel \fP"
 
300
The percentage of shares used
 
301
.IP "\fBtotal \fP"
 
302
The adjusted percentage of shares used
 
303
.IP "\fBlong target share \fP"
 
304
The long target percentage of resource shares used
 
305
.IP "\fBshort target share \fP"
 
306
The short target percentage of resource shares used
 
307
.IP "\fBactual share \fP"
 
308
The actual percentage of resource shares used
 
309
.IP "\fBusage \fP"
 
310
The combined shares used
 
311
.IP "\fBcpu \fP"
 
312
The cpu used
 
313
.IP "\fBmem \fP"
 
314
The memory used
 
315
.IP "\fBio \fP"
 
316
The IO used
 
317
.IP "\fBlong target cpu \fP"
 
318
The long target cpu used
 
319
.IP "\fBlong target mem \fP"
 
320
The long target memory used
 
321
.IP "\fBlong target io \fP"
 
322
The long target IO used
 
323
.\"
 
324
.SS new_ar
 
325
A new_ar record contains information about advance reservation objects. Entries of this
 
326
type will be added if an advance reservation is created.
 
327
It contains the following information:
 
328
.IP "\fBsubmission_time\fP"
 
329
The time (GMT unix time stamp) when the advance reservation was created.
 
330
.IP "\fBar_number\fP"
 
331
The advance reservation number identifying the reservation.
 
332
.IP "\fBar_owner\fP"
 
333
The owner of the advance reservation.
 
334
.\"
 
335
.SS ar_attribute
 
336
The ar_attribute record is written whenever a new advance reservation was added or the
 
337
attribute of an existing advance reservation has changed. It has following fields.
 
338
.IP "\fBevent_time\fP"
 
339
The time (GMT unix time stamp) when the event was generated.
 
340
.IP "\fBsubmission_time\fP"
 
341
The time (GMT unix time stamp) when the advance reservation was created.
 
342
.IP "\fBar_number\fP"
 
343
The advance reservation number identifying the reservation.
 
344
.IP "\fBar_name\fP"
 
345
Name of the advance reservation.
 
346
.IP "\fBar_account\fP"
 
347
An account string which was specified during the creation of the advance reservation.
 
348
.IP "\fBar_start_time\fP"
 
349
Start time.
 
350
.IP "\fBar_end_time\fP"
 
351
End time.
 
352
.IP "\fBar_granted_pe\fP"
 
353
The parallel environment which was selected for an advance reservation.
 
354
.IP "\fBar_granted_resources\fP"
 
355
The granted resources which were selected for an advance reservation.
 
356
.\"
 
357
.SS ar_log
 
358
The ar_log record is written whenever a advance reservation is changing status. A status
 
359
change can be from pending to active, but can also be triggered by system events like host
 
360
outage. It has following fields.
 
361
.IP "\fBar_state_change_time\fP"
 
362
The time (GMT unix time stamp) when the event occurred which caused a state change.
 
363
.IP "\fBsubmission_time\fP"
 
364
The time (GMT unix time stamp) when the advance reservation was created.
 
365
.IP "\fBar_number\fP"
 
366
The advance reservation number identifying the reservation.
 
367
.IP "\fBar_state\fP"
 
368
The new state.
 
369
.IP "\fBar_event\fP"
 
370
An event id identifying the event which caused the state change.
 
371
.IP "\fBar_message\fP"
 
372
A message describing the event which caused the state change.
 
373
.\"
 
374
.SS ar_acct
 
375
The ar_acct records are accounting records which are written for every queue instance
 
376
whenever a advance reservation terminates. Advance reservation accounting records comprise
 
377
following fields.
 
378
.IP "\fBar_termination_time\fP"
 
379
The time (GMT unix time stamp) when the advance reservation terminated.
 
380
.IP "\fBsubmission_time\fP"
 
381
The time (GMT unix time stamp) when the advance reservation was created.
 
382
.IP "\fBar_number\fP"
 
383
The advance reservation number identifying the reservation.
 
384
.IP "\fBar_qname\fP"
 
385
Cluster queue name which the advance reservation reserved.
 
386
.IP "\fBar_hostname\fP"
 
387
The name of the execution host.
 
388
.IP "\fBar_slots\fP"
 
389
The number of slots which were reserved.
 
390
.\"
 
391
.\"
 
392
.SH "SEE ALSO"
 
393
.M sge_conf 5 .
 
394
.M host_conf 5 .
 
395
.\"
 
396
.SH "COPYRIGHT"
 
397
See
 
398
.M xxqs_name_sxx_intro 1
 
399
for a full statement of rights and permissions.