~ubuntu-branches/ubuntu/saucy/slurm-llnl/saucy

Viewing changes to src/slurmd/slurmd/req.c

Committer: Bazaar Package Importer
Author(s): Gennaro Oliva
Date: 2008-05-30 13:11:30 UTC
mfrom: (1.1.3 upstream)
Revision ID: james.westby@ubuntu.com-20080530131130-l6ko6aie7xhrlmxe

Tags: 1.3.3-1

* New upstream release
* Removed patches to src/slurmctd/controller.c src/slurmdbd/slurmdbd.c
doc/man/man1/sacctmgr.1 included to upstream
* Edited watch file to seek for 1.3 releases
* doc/man/man1/salloc.1 doc/man/man1/sbatch.1 doc/man/man5/slurm.conf.5
patched to improve formatting and avoid manual warnings

files added:
auxdir/x_ac_databases.m4

contribs/phpext

contribs/phpext/Makefile.am

contribs/phpext/Makefile.in

contribs/phpext/README

contribs/phpext/slurm_php

contribs/phpext/slurm_php/config.m4.in

contribs/phpext/slurm_php/slurm_php.c

contribs/phpext/slurm_php/slurm_php.h

debian/slurm-llnl-slurmdbd.dirs

debian/slurm-llnl-slurmdbd.examples

debian/slurm-llnl-slurmdbd.init.d

debian/slurm-llnl-slurmdbd.logrotate

debian/slurm-llnl-slurmdbd.postinst

debian/slurm-llnl-slurmdbd.postrm

debian/slurm-llnl-slurmdbd.preinst

debian/slurm-llnl.examples

debian/slurm-llnl.init.d

debian/slurm-llnl.logrotate

debian/slurm-llnl.postinst

debian/slurm-llnl.postrm

debian/slurm-llnl.preinst

debian/slurm-resume.sh

debian/slurm-suspend.sh

debian/slurmdbd.conf.simple

doc/html/accounting.shtml

doc/html/cons_res_share.shtml

doc/html/crypto_plugins.shtml

doc/html/gang_scheduling.shtml

doc/html/jobacct_gatherplugins.shtml

doc/html/jobacct_storageplugins.shtml

doc/html/preempt.shtml

doc/html/slurm_moab.pdf

doc/html/slurm_v1.3.pdf

doc/man/man1/sacctmgr.1

doc/man/man1/sreport.1

doc/man/man1/sstat.1

doc/man/man5/slurmdbd.conf.5

doc/man/man8/slurmdbd.8

etc/init.d.slurmdbd

src/api/allocate_msg.c

src/common/assoc_mgr.c

src/common/assoc_mgr.h

src/common/jobacct_common.c

src/common/jobacct_common.h

src/common/proc_args.c

src/common/proc_args.h

src/common/slurm_accounting_storage.c

src/common/slurm_accounting_storage.h

src/common/slurm_jobacct_gather.c

src/common/slurm_jobacct_gather.h

src/common/slurmdbd_defs.c

src/common/slurmdbd_defs.h

src/database

src/database/Makefile.am

src/database/Makefile.in

src/database/base64.c

src/database/base64.h

src/database/gold_interface.c

src/database/gold_interface.h

src/database/mysql_common.c

src/database/mysql_common.h

src/database/pgsql_common.c

src/database/pgsql_common.h

src/plugins/accounting_storage

src/plugins/accounting_storage/Makefile.am

src/plugins/accounting_storage/Makefile.in

src/plugins/accounting_storage/filetxt

src/plugins/accounting_storage/filetxt/Makefile.am

src/plugins/accounting_storage/filetxt/Makefile.in

src/plugins/accounting_storage/filetxt/accounting_storage_filetxt.c

src/plugins/accounting_storage/filetxt/filetxt_jobacct_process.c

src/plugins/accounting_storage/filetxt/filetxt_jobacct_process.h

src/plugins/accounting_storage/gold

src/plugins/accounting_storage/gold/Makefile.am

src/plugins/accounting_storage/gold/Makefile.in

src/plugins/accounting_storage/gold/accounting_storage_gold.c

src/plugins/accounting_storage/mysql

src/plugins/accounting_storage/mysql/Makefile.am

src/plugins/accounting_storage/mysql/Makefile.in

src/plugins/accounting_storage/mysql/accounting_storage_mysql.c

src/plugins/accounting_storage/mysql/mysql_jobacct_process.c

src/plugins/accounting_storage/mysql/mysql_jobacct_process.h

src/plugins/accounting_storage/mysql/mysql_rollup.c

src/plugins/accounting_storage/mysql/mysql_rollup.h

src/plugins/accounting_storage/none

src/plugins/accounting_storage/none/Makefile.am

src/plugins/accounting_storage/none/Makefile.in

src/plugins/accounting_storage/none/accounting_storage_none.c

src/plugins/accounting_storage/pgsql

src/plugins/accounting_storage/pgsql/Makefile.am

src/plugins/accounting_storage/pgsql/Makefile.in

src/plugins/accounting_storage/pgsql/accounting_storage_pgsql.c

src/plugins/accounting_storage/pgsql/pgsql_jobacct_process.c

src/plugins/accounting_storage/pgsql/pgsql_jobacct_process.h

src/plugins/accounting_storage/slurmdbd

src/plugins/accounting_storage/slurmdbd/Makefile.am

src/plugins/accounting_storage/slurmdbd/Makefile.in

src/plugins/accounting_storage/slurmdbd/accounting_storage_slurmdbd.c

src/plugins/checkpoint/xlch

src/plugins/checkpoint/xlch/Makefile.am

src/plugins/checkpoint/xlch/Makefile.in

src/plugins/checkpoint/xlch/checkpoint_xlch.c

src/plugins/crypto

src/plugins/crypto/Makefile.am

src/plugins/crypto/Makefile.in

src/plugins/crypto/munge

src/plugins/crypto/munge/Makefile.am

src/plugins/crypto/munge/Makefile.in

src/plugins/crypto/munge/crypto_munge.c

src/plugins/crypto/openssl

src/plugins/crypto/openssl/Makefile.am

src/plugins/crypto/openssl/Makefile.in

src/plugins/crypto/openssl/crypto_openssl.c

src/plugins/jobacct_gather

src/plugins/jobacct_gather/Makefile.am

src/plugins/jobacct_gather/Makefile.in

src/plugins/jobacct_gather/aix

src/plugins/jobacct_gather/aix/Makefile.am

src/plugins/jobacct_gather/aix/Makefile.in

src/plugins/jobacct_gather/aix/jobacct_gather_aix.c

src/plugins/jobacct_gather/linux

src/plugins/jobacct_gather/linux/Makefile.am

src/plugins/jobacct_gather/linux/Makefile.in

src/plugins/jobacct_gather/linux/jobacct_gather_linux.c

src/plugins/jobacct_gather/none

src/plugins/jobacct_gather/none/Makefile.am

src/plugins/jobacct_gather/none/Makefile.in

src/plugins/jobacct_gather/none/jobacct_gather_none.c

src/plugins/jobcomp/filetxt/filetxt_jobcomp_process.c

src/plugins/jobcomp/filetxt/filetxt_jobcomp_process.h

src/plugins/jobcomp/mysql

src/plugins/jobcomp/mysql/Makefile.am

src/plugins/jobcomp/mysql/Makefile.in

src/plugins/jobcomp/mysql/jobcomp_mysql.c

src/plugins/jobcomp/mysql/mysql_jobcomp_process.c

src/plugins/jobcomp/mysql/mysql_jobcomp_process.h

src/plugins/jobcomp/pgsql

src/plugins/jobcomp/pgsql/Makefile.am

src/plugins/jobcomp/pgsql/Makefile.in

src/plugins/jobcomp/pgsql/jobcomp_pgsql.c

src/plugins/jobcomp/pgsql/pgsql_jobcomp_process.c

src/plugins/jobcomp/pgsql/pgsql_jobcomp_process.h

src/plugins/jobcomp/slurmdbd

src/plugins/jobcomp/slurmdbd/Makefile.am

src/plugins/jobcomp/slurmdbd/Makefile.in

src/plugins/jobcomp/slurmdbd/jobcomp_slurmdbd.c

src/plugins/select/bluegene/plugin/bg_record_functions.c

src/plugins/select/bluegene/plugin/bg_record_functions.h

src/plugins/select/bluegene/plugin/defined_block.c

src/plugins/select/bluegene/plugin/defined_block.h

src/plugins/select/bluegene/plugin/dynamic_block.c

src/plugins/select/bluegene/plugin/dynamic_block.h

src/plugins/select/linear/select_linear.h

src/sacctmgr

src/sacctmgr/Makefile.am

src/sacctmgr/Makefile.in

src/sacctmgr/account_functions.c

src/sacctmgr/association_functions.c

src/sacctmgr/cluster_functions.c

src/sacctmgr/common.c

src/sacctmgr/print.c

src/sacctmgr/print.h

src/sacctmgr/sacctmgr.c

src/sacctmgr/sacctmgr.h

src/sacctmgr/user_functions.c

src/slurmctld/job_scheduler.h

src/slurmctld/licenses.c

src/slurmctld/licenses.h

src/slurmdbd

src/slurmdbd/Makefile.am

src/slurmdbd/Makefile.in

src/slurmdbd/agent.c

src/slurmdbd/agent.h

src/slurmdbd/proc_req.c

src/slurmdbd/proc_req.h

src/slurmdbd/read_config.c

src/slurmdbd/read_config.h

src/slurmdbd/rpc_mgr.c

src/slurmdbd/rpc_mgr.h

src/slurmdbd/slurmdbd.c

src/slurmdbd/slurmdbd.h

src/sreport

src/sreport/Makefile.am

src/sreport/Makefile.in

src/sreport/sreport.c

src/sreport/sreport.h

src/srun/debugger.c

src/srun/debugger.h

src/srun/srun_pty.c

src/srun/srun_pty.h

src/sstat

src/sstat/Makefile.am

src/sstat/Makefile.in

src/sstat/options.c

src/sstat/print.c

src/sstat/process.c

src/sstat/sstat.c

src/sstat/sstat.h

testsuite/expect/test1.93

testsuite/expect/test17.33

testsuite/expect/test21.1

testsuite/expect/test21.2

testsuite/expect/test21.3

testsuite/expect/test21.4

testsuite/expect/test21.5

testsuite/expect/test21.6

testsuite/expect/test3.10

testsuite/expect/test8.7

testsuite/expect/test8.7.crypto.c

testsuite/expect/test8.7.prog.c

testsuite/slurm_unit/slurmctld/security_2_2a.sh

testsuite/slurm_unit/slurmctld/security_2_2b.sh

files removed:
contribs/Makefile

contribs/perlapi/Makefile

contribs/torque/Makefile

debian/init.d

debian/postinst

debian/postrm

debian/preinst

doc/html/jobacctplugins.shtml

doc/man/man1/slaunch.1

src/common/global_defaults.c

src/common/slurm_jobacct.c

src/common/slurm_jobacct.h

src/plugins/jobacct

src/plugins/jobacct/Makefile.am

src/plugins/jobacct/Makefile.in

src/plugins/jobacct/aix

src/plugins/jobacct/aix/Makefile.am

src/plugins/jobacct/aix/Makefile.in

src/plugins/jobacct/aix/jobacct_aix.c

src/plugins/jobacct/common

src/plugins/jobacct/common/common_slurmctld.c

src/plugins/jobacct/common/common_slurmstepd.c

src/plugins/jobacct/common/jobacct_common.c

src/plugins/jobacct/common/jobacct_common.h

src/plugins/jobacct/gold

src/plugins/jobacct/gold/Makefile.am

src/plugins/jobacct/gold/Makefile.in

src/plugins/jobacct/gold/agent.c

src/plugins/jobacct/gold/agent.h

src/plugins/jobacct/gold/base64.c

src/plugins/jobacct/gold/base64.h

src/plugins/jobacct/gold/gold_interface.c

src/plugins/jobacct/gold/gold_interface.h

src/plugins/jobacct/gold/jobacct_gold.c

src/plugins/jobacct/linux

src/plugins/jobacct/linux/Makefile.am

src/plugins/jobacct/linux/Makefile.in

src/plugins/jobacct/linux/jobacct_linux.c

src/plugins/jobacct/none

src/plugins/jobacct/none/Makefile.am

src/plugins/jobacct/none/Makefile.in

src/plugins/jobacct/none/jobacct_none.c

src/sacct/sacct_stat.h

src/salloc/msg.c

src/salloc/msg.h

src/slaunch

src/slaunch/Makefile.am

src/slaunch/Makefile.in

src/slaunch/attach.c

src/slaunch/attach.h

src/slaunch/core-format.c

src/slaunch/core-format.h

src/slaunch/fname.c

src/slaunch/fname.h

src/slaunch/multi_prog.c

src/slaunch/multi_prog.h

src/slaunch/opt.c

src/slaunch/opt.h

src/slaunch/sigstr.c

src/slaunch/sigstr.h

src/slaunch/slaunch.c

src/slaunch/slaunch.h

src/slaunch/slaunch.wrapper.c

src/slurmd/slurmd/config.c

src/slurmd/slurmd/testconfig.c

src/srun/attach.c

src/srun/attach.h

src/srun/launch.c

src/srun/launch.h

src/srun/msg.c

src/srun/msg.h

src/srun/reattach.c

src/srun/reattach.h

src/srun/signals.c

src/srun/signals.h

src/srun/sigstr.c

src/srun/sigstr.h

testsuite/expect/test1.18.prog.c

testsuite/expect/test1.34

testsuite/expect/test1.37

testsuite/expect/test1.40

testsuite/expect/test1.45

testsuite/expect/test1.47

testsuite/expect/test1.53

testsuite/expect/test1.85

testsuite/expect/test18.1

testsuite/expect/test18.10

testsuite/expect/test18.11

testsuite/expect/test18.12

testsuite/expect/test18.13

testsuite/expect/test18.14

testsuite/expect/test18.15

testsuite/expect/test18.16

testsuite/expect/test18.16.prog.c

testsuite/expect/test18.17

testsuite/expect/test18.18

testsuite/expect/test18.19

testsuite/expect/test18.19.prog.c

testsuite/expect/test18.2

testsuite/expect/test18.20

testsuite/expect/test18.21

testsuite/expect/test18.22

testsuite/expect/test18.23

testsuite/expect/test18.24

testsuite/expect/test18.25

testsuite/expect/test18.26

testsuite/expect/test18.27

testsuite/expect/test18.28

testsuite/expect/test18.29

testsuite/expect/test18.3

testsuite/expect/test18.30

testsuite/expect/test18.31

testsuite/expect/test18.32

testsuite/expect/test18.32.prog.c

testsuite/expect/test18.33

testsuite/expect/test18.34

testsuite/expect/test18.35

testsuite/expect/test18.36

testsuite/expect/test18.36.prog.c

testsuite/expect/test18.37

testsuite/expect/test18.37.prog.c

testsuite/expect/test18.38

testsuite/expect/test18.4

testsuite/expect/test18.5

testsuite/expect/test18.6

testsuite/expect/test18.7

testsuite/expect/test18.8

testsuite/expect/test18.9

testsuite/expect/test7.5

testsuite/expect/test7.5.prog.c

testsuite/slurm_unit/slurmctld/security_2_2.sh

files modified:
AUTHORS

BUILD.NOTES

COPYING

DISCLAIMER

META

Makefile.am

Makefile.in

NEWS

README

RELEASE_NOTES

aclocal.m4

auxdir/Makefile.am

auxdir/Makefile.in

auxdir/config.guess

auxdir/config.sub

auxdir/depcomp

auxdir/install-sh

auxdir/ltmain.sh

auxdir/slurm.m4

auxdir/x_ac_aix.m4

auxdir/x_ac_bluegene.m4

auxdir/x_ac_gtk.m4

auxdir/x_ac_slurm_ssl.m4

config.h.in

configure

configure.ac

contribs/Makefile.am

contribs/Makefile.in

contribs/env_cache_builder.c

contribs/perlapi/Makefile.in

contribs/perlapi/libslurm-perl/Slurm.xs

contribs/perlapi/libslurm-perl/alloc.c

contribs/perlapi/libslurm-perl/conf.c

contribs/perlapi/libslurm-perl/job.c

contribs/perlapi/libslurm-perl/launch.c

contribs/perlapi/libslurm-perl/partition.c

contribs/perlapi/libslurm-perl/trigger.c

contribs/time_login.c

contribs/torque/Makefile.in

contribs/torque/mpiexec.pl

contribs/torque/pbsnodes.pl

contribs/torque/qdel.pl

contribs/torque/qhold.pl

contribs/torque/qrls.pl

contribs/torque/qstat.pl

contribs/torque/qsub.pl

debian/README.Debian

debian/changelog

debian/control

debian/rules

debian/slurm-llnl-configurator.html

debian/slurm-llnl.dirs

debian/slurm.conf.simple

debian/watch

doc/Makefile.in

doc/html/Makefile.am

doc/html/Makefile.in

doc/html/arch.gif

doc/html/big_sys.shtml

doc/html/bluegene.shtml

doc/html/checkpoint_plugins.shtml

doc/html/configurator.html.in

doc/html/cons_res.shtml

doc/html/documentation.shtml

doc/html/download.shtml

doc/html/faq.shtml

doc/html/footer.txt

doc/html/header.txt

doc/html/jobcompplugins.shtml

doc/html/maui.shtml

doc/html/moab.shtml

doc/html/news.shtml

doc/html/overview.shtml

doc/html/power_save.shtml

doc/html/programmer_guide.shtml

doc/html/publications.shtml

doc/html/quickstart.shtml

doc/html/quickstart_admin.shtml

doc/html/review_release.html

doc/html/schedplugins.shtml

doc/html/selectplugins.shtml

doc/html/slurm.shtml

doc/html/taskplugins.shtml

doc/html/team.shtml

doc/man/Makefile.am

doc/man/Makefile.in

doc/man/man1/salloc.1

doc/man/man1/sattach.1

doc/man/man1/sbatch.1

doc/man/man1/sbcast.1

doc/man/man1/scancel.1

doc/man/man1/scontrol.1

doc/man/man1/sinfo.1

doc/man/man1/slurm.1

doc/man/man1/smap.1

doc/man/man1/squeue.1

doc/man/man1/srun.1

doc/man/man1/strigger.1

doc/man/man1/sview.1

doc/man/man3/slurm_allocate_resources.3

doc/man/man3/slurm_checkpoint_error.3

doc/man/man3/slurm_complete_job.3

doc/man/man3/slurm_free_ctl_conf.3

doc/man/man3/slurm_free_job_info_msg.3

doc/man/man3/slurm_free_job_step_info_response_msg.3

doc/man/man3/slurm_free_node_info.3

doc/man/man3/slurm_free_partition_info.3

doc/man/man3/slurm_get_errno.3

doc/man/man3/slurm_hostlist_create.3

doc/man/man3/slurm_job_step_create.3

doc/man/man3/slurm_kill_job.3

doc/man/man3/slurm_reconfigure.3

doc/man/man3/slurm_resume.3

doc/man/man3/slurm_step_ctx_create.3

doc/man/man3/slurm_step_launch.3

doc/man/man5/bluegene.conf.5

doc/man/man5/slurm.conf.5

doc/man/man5/wiki.conf.5

doc/man/man8/slurmctld.8

doc/man/man8/slurmd.8

doc/man/man8/slurmstepd.8

doc/man/man8/spank.8

etc/bluegene.conf.example

etc/init.d.slurm

etc/slurm.conf.example

slurm.spec

slurm/slurm.h.in

slurm/slurm_errno.h

slurm/spank.h

src/Makefile.am

src/Makefile.in

src/api/Makefile.am

src/api/Makefile.in

src/api/allocate.c

src/api/cancel.c

src/api/checkpoint.c

src/api/complete.c

src/api/config_info.c

src/api/init_msg.c

src/api/job_info.c

src/api/job_info.h

src/api/job_step_info.c

src/api/node_info.c

src/api/node_select_info.c

src/api/node_select_info.h

src/api/partition_info.c

src/api/pmi.c

src/api/pmi_server.c

src/api/pmi_server.h

src/api/reconfigure.c

src/api/signal.c

src/api/slurm_pmi.c

src/api/slurm_pmi.h

src/api/step_ctx.c

src/api/step_ctx.h

src/api/step_io.c

src/api/step_io.h

src/api/step_launch.c

src/api/step_launch.h

src/api/submit.c

src/api/suspend.c

src/api/triggers.c

src/api/update_config.c

src/common/Makefile.am

src/common/Makefile.in

src/common/arg_desc.c

src/common/arg_desc.h

src/common/bitstring.c

src/common/bitstring.h

src/common/checkpoint.c

src/common/checkpoint.h

src/common/daemonize.c

src/common/daemonize.h

src/common/eio.c

src/common/eio.h

src/common/env.c

src/common/env.h

src/common/forward.c

src/common/forward.h

src/common/hostlist.c

src/common/hostlist.h

src/common/io_hdr.c

src/common/io_hdr.h

src/common/job_options.c

src/common/job_options.h

src/common/list.c

src/common/list.h

src/common/log.c

src/common/log.h

src/common/macros.h

src/common/mpi.c

src/common/mpi.h

src/common/net.c

src/common/net.h

src/common/node_select.c

src/common/node_select.h

src/common/optz.c

src/common/optz.h

src/common/pack.c

src/common/pack.h

src/common/parse_config.c

src/common/parse_config.h

src/common/parse_spec.c

src/common/parse_spec.h

src/common/parse_time.c

src/common/parse_time.h

src/common/plugin.c

src/common/plugin.h

src/common/plugrack.c

src/common/plugrack.h

src/common/plugstack.c

src/common/plugstack.h

src/common/read_config.c

src/common/read_config.h

src/common/safeopen.c

src/common/safeopen.h

src/common/slurm_auth.c

src/common/slurm_auth.h

src/common/slurm_cred.c

src/common/slurm_cred.h

src/common/slurm_errno.c

src/common/slurm_jobcomp.c

src/common/slurm_jobcomp.h

src/common/slurm_protocol_api.c

src/common/slurm_protocol_api.h

src/common/slurm_protocol_common.h

src/common/slurm_protocol_defs.c

src/common/slurm_protocol_defs.h

src/common/slurm_protocol_interface.h

src/common/slurm_protocol_mongo_common.h

src/common/slurm_protocol_pack.c

src/common/slurm_protocol_pack.h

src/common/slurm_protocol_socket_common.h

src/common/slurm_protocol_socket_implementation.c

src/common/slurm_protocol_util.c

src/common/slurm_protocol_util.h

src/common/slurm_resource_info.c

src/common/slurm_resource_info.h

src/common/slurm_selecttype_info.c

src/common/slurm_selecttype_info.h

src/common/slurm_step_layout.c

src/common/slurm_step_layout.h

src/common/slurm_xlator.h

src/common/stepd_api.c

src/common/stepd_api.h

src/common/switch.c

src/common/switch.h

src/common/timers.c

src/common/timers.h

src/common/uid.c

src/common/uid.h

src/common/unsetenv.c

src/common/unsetenv.h

src/common/xassert.c

src/common/xassert.h

src/common/xmalloc.c

src/common/xmalloc.h

src/common/xsignal.c

src/common/xsignal.h

src/common/xstring.c

src/common/xstring.h

src/plugins/Makefile.am

src/plugins/Makefile.in

src/plugins/auth/Makefile.in

src/plugins/auth/authd/Makefile.in

src/plugins/auth/authd/auth_authd.c

src/plugins/auth/munge/Makefile.in

src/plugins/auth/munge/auth_munge.c

src/plugins/auth/none/Makefile.in

src/plugins/auth/none/auth_none.c

src/plugins/checkpoint/Makefile.am

src/plugins/checkpoint/Makefile.in

src/plugins/checkpoint/aix/Makefile.in

src/plugins/checkpoint/aix/checkpoint_aix.c

src/plugins/checkpoint/none/Makefile.in

src/plugins/checkpoint/none/checkpoint_none.c

src/plugins/checkpoint/ompi/Makefile.in

src/plugins/checkpoint/ompi/checkpoint_ompi.c

src/plugins/jobcomp/Makefile.am

src/plugins/jobcomp/Makefile.in

src/plugins/jobcomp/filetxt/Makefile.am

src/plugins/jobcomp/filetxt/Makefile.in

src/plugins/jobcomp/filetxt/jobcomp_filetxt.c

src/plugins/jobcomp/none/Makefile.in

src/plugins/jobcomp/none/jobcomp_none.c

src/plugins/jobcomp/script/Makefile.in

src/plugins/jobcomp/script/jobcomp_script.c

src/plugins/mpi/Makefile.in

src/plugins/mpi/lam/Makefile.in

src/plugins/mpi/lam/lam.h

src/plugins/mpi/lam/mpi_lam.c

src/plugins/mpi/mpich1_p4/Makefile.in

src/plugins/mpi/mpich1_p4/mpich1_p4.c

src/plugins/mpi/mpich1_shmem/Makefile.in

src/plugins/mpi/mpich1_shmem/mpich1_shmem.c

src/plugins/mpi/mpichgm/Makefile.in

src/plugins/mpi/mpichgm/mpi_mpichgm.c

src/plugins/mpi/mpichgm/mpichgm.c

src/plugins/mpi/mpichgm/mpichgm.h

src/plugins/mpi/mpichmx/Makefile.in

src/plugins/mpi/mpichmx/mpi_mpichmx.c

src/plugins/mpi/mpichmx/mpichmx.c

src/plugins/mpi/mpichmx/mpichmx.h

src/plugins/mpi/mvapich/Makefile.in

src/plugins/mpi/mvapich/mpi_mvapich.c

src/plugins/mpi/mvapich/mvapich.c

src/plugins/mpi/mvapich/mvapich.h

src/plugins/mpi/none/Makefile.in

src/plugins/mpi/none/mpi_none.c

src/plugins/mpi/openmpi/Makefile.in

src/plugins/mpi/openmpi/mpi_openmpi.c

src/plugins/proctrack/Makefile.in

src/plugins/proctrack/aix/Makefile.in

src/plugins/proctrack/aix/proctrack_aix.c

src/plugins/proctrack/linuxproc/Makefile.in

src/plugins/proctrack/linuxproc/kill_tree.c

src/plugins/proctrack/linuxproc/kill_tree.h

src/plugins/proctrack/linuxproc/proctrack_linuxproc.c

src/plugins/proctrack/pgid/Makefile.in

src/plugins/proctrack/pgid/proctrack_pgid.c

src/plugins/proctrack/rms/Makefile.in

src/plugins/proctrack/rms/proctrack_rms.c

src/plugins/proctrack/sgi_job/Makefile.in

src/plugins/proctrack/sgi_job/proctrack_sgi_job.c

src/plugins/sched/Makefile.in

src/plugins/sched/backfill/Makefile.in

src/plugins/sched/backfill/backfill.c

src/plugins/sched/backfill/backfill.h

src/plugins/sched/backfill/backfill_wrapper.c

src/plugins/sched/builtin/Makefile.in

src/plugins/sched/builtin/builtin_wrapper.c

src/plugins/sched/gang/Makefile.in

src/plugins/sched/gang/gang.c

src/plugins/sched/gang/gang.h

src/plugins/sched/gang/sched_gang.c

src/plugins/sched/hold/Makefile.in

src/plugins/sched/hold/hold_wrapper.c

src/plugins/sched/wiki/Makefile.in

src/plugins/sched/wiki/cancel_job.c

src/plugins/sched/wiki/get_jobs.c

src/plugins/sched/wiki/get_nodes.c

src/plugins/sched/wiki/hostlist.c

src/plugins/sched/wiki/job_modify.c

src/plugins/sched/wiki/msg.c

src/plugins/sched/wiki/msg.h

src/plugins/sched/wiki/resume_job.c

src/plugins/sched/wiki/sched_wiki.c

src/plugins/sched/wiki/start_job.c

src/plugins/sched/wiki/suspend_job.c

src/plugins/sched/wiki2/Makefile.in

src/plugins/sched/wiki2/cancel_job.c

src/plugins/sched/wiki2/event.c

src/plugins/sched/wiki2/get_jobs.c

src/plugins/sched/wiki2/get_nodes.c

src/plugins/sched/wiki2/hostlist.c

src/plugins/sched/wiki2/initialize.c

src/plugins/sched/wiki2/job_add_task.c

src/plugins/sched/wiki2/job_modify.c

src/plugins/sched/wiki2/job_notify.c

src/plugins/sched/wiki2/job_release_task.c

src/plugins/sched/wiki2/job_requeue.c

src/plugins/sched/wiki2/job_signal.c

src/plugins/sched/wiki2/job_will_run.c

src/plugins/sched/wiki2/msg.c

src/plugins/sched/wiki2/msg.h

src/plugins/sched/wiki2/resume_job.c

src/plugins/sched/wiki2/sched_wiki.c

src/plugins/sched/wiki2/start_job.c

src/plugins/sched/wiki2/suspend_job.c

src/plugins/select/Makefile.in

src/plugins/select/bluegene/Makefile.in

src/plugins/select/bluegene/block_allocator/Makefile.am

src/plugins/select/bluegene/block_allocator/Makefile.in

src/plugins/select/bluegene/block_allocator/block_allocator.c

src/plugins/select/bluegene/block_allocator/block_allocator.h

src/plugins/select/bluegene/plugin/Makefile.am

src/plugins/select/bluegene/plugin/Makefile.in

src/plugins/select/bluegene/plugin/bg_job_place.c

src/plugins/select/bluegene/plugin/bg_job_place.h

src/plugins/select/bluegene/plugin/bg_job_run.c

src/plugins/select/bluegene/plugin/bg_job_run.h

src/plugins/select/bluegene/plugin/block_sys.c

src/plugins/select/bluegene/plugin/bluegene.c

src/plugins/select/bluegene/plugin/bluegene.h

src/plugins/select/bluegene/plugin/opts.c

src/plugins/select/bluegene/plugin/select_bluegene.c

src/plugins/select/bluegene/plugin/sfree.c

src/plugins/select/bluegene/plugin/sfree.h

src/plugins/select/bluegene/plugin/slurm_epilog.c

src/plugins/select/bluegene/plugin/slurm_prolog.c

src/plugins/select/bluegene/plugin/state_test.c

src/plugins/select/cons_res/Makefile.am

src/plugins/select/cons_res/Makefile.in

src/plugins/select/cons_res/dist_tasks.c

src/plugins/select/cons_res/dist_tasks.h

src/plugins/select/cons_res/select_cons_res.c

src/plugins/select/cons_res/select_cons_res.h

src/plugins/select/linear/Makefile.am

src/plugins/select/linear/Makefile.in

src/plugins/select/linear/select_linear.c

src/plugins/switch/Makefile.in

src/plugins/switch/elan/Makefile.in

src/plugins/switch/elan/qsw.c

src/plugins/switch/elan/qsw.h

src/plugins/switch/elan/switch_elan.c

src/plugins/switch/federation/Makefile.am

src/plugins/switch/federation/Makefile.in

src/plugins/switch/federation/federation.c

src/plugins/switch/federation/federation.h

src/plugins/switch/federation/federation_keys.h

src/plugins/switch/federation/switch_federation.c

src/plugins/switch/none/Makefile.am

src/plugins/switch/none/Makefile.in

src/plugins/switch/none/switch_none.c

src/plugins/task/Makefile.in

src/plugins/task/affinity/Makefile.am

src/plugins/task/affinity/Makefile.in

src/plugins/task/affinity/affinity.c

src/plugins/task/affinity/affinity.h

src/plugins/task/affinity/cpuset.c

src/plugins/task/affinity/dist_tasks.c

src/plugins/task/affinity/dist_tasks.h

src/plugins/task/affinity/numa.c

src/plugins/task/affinity/task_affinity.c

src/plugins/task/none/Makefile.am

src/plugins/task/none/Makefile.in

src/plugins/task/none/task_none.c

src/sacct/Makefile.am

src/sacct/Makefile.in

src/sacct/options.c

src/sacct/print.c

src/sacct/process.c

src/sacct/sacct.c

src/sacct/sacct.h

src/sacct/sacct_stat.c

src/salloc/Makefile.am

src/salloc/Makefile.in

src/salloc/opt.c

src/salloc/opt.h

src/salloc/salloc.c

src/salloc/salloc.h

src/sattach/Makefile.am

src/sattach/Makefile.in

src/sattach/attach.c

src/sattach/opt.c

src/sattach/opt.h

src/sattach/sattach.c

src/sbatch/Makefile.am

src/sbatch/Makefile.in

src/sbatch/opt.c

src/sbatch/opt.h

src/sbatch/sbatch.c

src/sbcast/Makefile.in

src/sbcast/agent.c

src/sbcast/opts.c

src/sbcast/sbcast.c

src/sbcast/sbcast.h

src/scancel/Makefile.in

src/scancel/opt.c

src/scancel/scancel.c

src/scancel/scancel.h

src/scontrol/Makefile.in

src/scontrol/info_job.c

src/scontrol/info_node.c

src/scontrol/info_part.c

src/scontrol/scontrol.c

src/scontrol/scontrol.h

src/scontrol/update_job.c

src/scontrol/update_node.c

src/scontrol/update_part.c

src/sinfo/Makefile.in

src/sinfo/opts.c

src/sinfo/print.c

src/sinfo/print.h

src/sinfo/sinfo.c

src/sinfo/sinfo.h

src/sinfo/sort.c

src/slurmctld/Makefile.am

src/slurmctld/Makefile.in

src/slurmctld/agent.c

src/slurmctld/agent.h

src/slurmctld/backup.c

src/slurmctld/controller.c

src/slurmctld/job_mgr.c

src/slurmctld/job_scheduler.c

src/slurmctld/locks.c

src/slurmctld/locks.h

src/slurmctld/node_mgr.c

src/slurmctld/node_scheduler.c

src/slurmctld/node_scheduler.h

src/slurmctld/partition_mgr.c

src/slurmctld/ping_nodes.c

src/slurmctld/ping_nodes.h

src/slurmctld/power_save.c

src/slurmctld/proc_req.c

src/slurmctld/proc_req.h

src/slurmctld/read_config.c

src/slurmctld/read_config.h

src/slurmctld/sched_plugin.c

src/slurmctld/sched_plugin.h

src/slurmctld/slurmctld.h

src/slurmctld/srun_comm.c

src/slurmctld/srun_comm.h

src/slurmctld/state_save.c

src/slurmctld/state_save.h

src/slurmctld/step_mgr.c

src/slurmctld/trigger_mgr.c

src/slurmctld/trigger_mgr.h

src/slurmd/Makefile.in

src/slurmd/common/proctrack.c

src/slurmd/common/proctrack.h

src/slurmd/common/reverse_tree.h

src/slurmd/common/run_script.c

src/slurmd/common/run_script.h

src/slurmd/common/setproctitle.c

src/slurmd/common/setproctitle.h

src/slurmd/common/slurmstepd_init.c

src/slurmd/common/slurmstepd_init.h

src/slurmd/common/task_plugin.c

src/slurmd/common/task_plugin.h

src/slurmd/slurmd/Makefile.am

src/slurmd/slurmd/Makefile.in

src/slurmd/slurmd/get_mach_stat.c

src/slurmd/slurmd/get_mach_stat.h

src/slurmd/slurmd/read_proc.c

src/slurmd/slurmd/req.c

src/slurmd/slurmd/req.h

src/slurmd/slurmd/reverse_tree_math.c

src/slurmd/slurmd/reverse_tree_math.h

src/slurmd/slurmd/slurmd.c

src/slurmd/slurmd/slurmd.h

src/slurmd/slurmd/xcpu.c

src/slurmd/slurmd/xcpu.h

src/slurmd/slurmstepd/Makefile.am

src/slurmd/slurmstepd/Makefile.in

src/slurmd/slurmstepd/fname.c

src/slurmd/slurmstepd/fname.h

src/slurmd/slurmstepd/io.c

src/slurmd/slurmstepd/io.h

src/slurmd/slurmstepd/mgr.c

src/slurmd/slurmstepd/mgr.h

src/slurmd/slurmstepd/multi_prog.c

src/slurmd/slurmstepd/multi_prog.h

src/slurmd/slurmstepd/pam_ses.c

src/slurmd/slurmstepd/pam_ses.h

src/slurmd/slurmstepd/pdebug.c

src/slurmd/slurmstepd/pdebug.h

src/slurmd/slurmstepd/req.c

src/slurmd/slurmstepd/req.h

src/slurmd/slurmstepd/slurmstepd.c

src/slurmd/slurmstepd/slurmstepd.h

src/slurmd/slurmstepd/slurmstepd_job.c

src/slurmd/slurmstepd/slurmstepd_job.h

src/slurmd/slurmstepd/step_terminate_monitor.c

src/slurmd/slurmstepd/step_terminate_monitor.h

src/slurmd/slurmstepd/task.c

src/slurmd/slurmstepd/task.h

src/slurmd/slurmstepd/ulimits.c

src/slurmd/slurmstepd/ulimits.h

src/smap/Makefile.am

src/smap/Makefile.in

src/smap/configure_functions.c

src/smap/grid_functions.c

src/smap/job_functions.c

src/smap/opts.c

src/smap/partition_functions.c

src/smap/smap.c

src/smap/smap.h

src/squeue/Makefile.in

src/squeue/opts.c

src/squeue/print.c

src/squeue/print.h

src/squeue/sort.c

src/squeue/squeue.c

src/squeue/squeue.h

src/srun/Makefile.am

src/srun/Makefile.in

src/srun/allocate.c

src/srun/allocate.h

src/srun/core-format.c

src/srun/core-format.h

src/srun/fname.c

src/srun/fname.h

src/srun/multi_prog.c

src/srun/multi_prog.h

src/srun/opt.c

src/srun/opt.h

src/srun/srun.c

src/srun/srun.h

src/srun/srun_job.c

src/srun/srun_job.h

src/strigger/Makefile.in

src/strigger/opts.c

src/strigger/strigger.c

src/strigger/strigger.h

src/sview/Makefile.am

src/sview/Makefile.in

src/sview/admin_info.c

src/sview/block_info.c

src/sview/common.c

src/sview/grid.c

src/sview/job_info.c

src/sview/node_info.c

src/sview/part_info.c

src/sview/popups.c

src/sview/submit_info.c

src/sview/sview.c

src/sview/sview.h

testsuite/Makefile.in

testsuite/expect/Makefile.am

testsuite/expect/Makefile.in

testsuite/expect/README

testsuite/expect/globals

testsuite/expect/pkill

testsuite/expect/regression

testsuite/expect/regression.py

testsuite/expect/test1.1

testsuite/expect/test1.10

testsuite/expect/test1.11

testsuite/expect/test1.12

testsuite/expect/test1.13

testsuite/expect/test1.14

testsuite/expect/test1.15

testsuite/expect/test1.16

testsuite/expect/test1.17

testsuite/expect/test1.18

testsuite/expect/test1.19

testsuite/expect/test1.2

testsuite/expect/test1.20

testsuite/expect/test1.21

testsuite/expect/test1.22

testsuite/expect/test1.23

testsuite/expect/test1.24

testsuite/expect/test1.25

testsuite/expect/test1.26

testsuite/expect/test1.27

testsuite/expect/test1.28

testsuite/expect/test1.29

testsuite/expect/test1.29.prog.c

testsuite/expect/test1.3

testsuite/expect/test1.30

testsuite/expect/test1.31

testsuite/expect/test1.32

testsuite/expect/test1.32.prog.c

testsuite/expect/test1.33

testsuite/expect/test1.35

testsuite/expect/test1.36

testsuite/expect/test1.38

testsuite/expect/test1.39

testsuite/expect/test1.39.prog.c

testsuite/expect/test1.4

testsuite/expect/test1.41

testsuite/expect/test1.42

testsuite/expect/test1.43

testsuite/expect/test1.44

testsuite/expect/test1.46

testsuite/expect/test1.48

testsuite/expect/test1.49

testsuite/expect/test1.5

testsuite/expect/test1.50

testsuite/expect/test1.51

testsuite/expect/test1.52

testsuite/expect/test1.54

testsuite/expect/test1.55

testsuite/expect/test1.56

testsuite/expect/test1.57

testsuite/expect/test1.58

testsuite/expect/test1.59

testsuite/expect/test1.6

testsuite/expect/test1.7

testsuite/expect/test1.8

testsuite/expect/test1.80

testsuite/expect/test1.81

testsuite/expect/test1.82

testsuite/expect/test1.83

testsuite/expect/test1.84

testsuite/expect/test1.86

testsuite/expect/test1.87

testsuite/expect/test1.88

testsuite/expect/test1.88.prog.c

testsuite/expect/test1.89

testsuite/expect/test1.89.prog.c

testsuite/expect/test1.9

testsuite/expect/test1.90

testsuite/expect/test1.90.prog.c

testsuite/expect/test1.91

testsuite/expect/test1.91.prog.c

testsuite/expect/test1.92

testsuite/expect/test10.1

testsuite/expect/test10.10

testsuite/expect/test10.11

testsuite/expect/test10.12

testsuite/expect/test10.13

testsuite/expect/test10.2

testsuite/expect/test10.3

testsuite/expect/test10.4

testsuite/expect/test10.5

testsuite/expect/test10.6

testsuite/expect/test10.7

testsuite/expect/test10.8

testsuite/expect/test10.9

testsuite/expect/test11.1

testsuite/expect/test11.2

testsuite/expect/test11.3

testsuite/expect/test11.4

testsuite/expect/test11.5

testsuite/expect/test11.6

testsuite/expect/test11.7

testsuite/expect/test12.1

testsuite/expect/test12.2

testsuite/expect/test12.2.prog.c

testsuite/expect/test13.1

testsuite/expect/test14.1

testsuite/expect/test14.2

testsuite/expect/test14.3

testsuite/expect/test14.4

testsuite/expect/test14.5

testsuite/expect/test14.6

testsuite/expect/test14.7

testsuite/expect/test14.8

testsuite/expect/test15.1

testsuite/expect/test15.10

testsuite/expect/test15.11

testsuite/expect/test15.12

testsuite/expect/test15.13

testsuite/expect/test15.14

testsuite/expect/test15.15

testsuite/expect/test15.16

testsuite/expect/test15.17

testsuite/expect/test15.18

testsuite/expect/test15.19

testsuite/expect/test15.2

testsuite/expect/test15.20

testsuite/expect/test15.21

testsuite/expect/test15.22

testsuite/expect/test15.23

testsuite/expect/test15.24

testsuite/expect/test15.3

testsuite/expect/test15.4

testsuite/expect/test15.5

testsuite/expect/test15.6

testsuite/expect/test15.7

testsuite/expect/test15.8

testsuite/expect/test15.9

testsuite/expect/test16.1

testsuite/expect/test16.2

testsuite/expect/test16.3

testsuite/expect/test16.4

testsuite/expect/test16.4.prog.c

testsuite/expect/test17.1

testsuite/expect/test17.10

testsuite/expect/test17.11

testsuite/expect/test17.12

testsuite/expect/test17.13

testsuite/expect/test17.14

testsuite/expect/test17.15

testsuite/expect/test17.15.prog.c

testsuite/expect/test17.16

testsuite/expect/test17.17

testsuite/expect/test17.18

testsuite/expect/test17.19

testsuite/expect/test17.2

testsuite/expect/test17.20

testsuite/expect/test17.21

testsuite/expect/test17.22

testsuite/expect/test17.23

testsuite/expect/test17.24

testsuite/expect/test17.25

testsuite/expect/test17.26

testsuite/expect/test17.27

testsuite/expect/test17.28

testsuite/expect/test17.29

testsuite/expect/test17.3

testsuite/expect/test17.31

testsuite/expect/test17.32

testsuite/expect/test17.4

testsuite/expect/test17.5

testsuite/expect/test17.6

testsuite/expect/test17.7

testsuite/expect/test17.8

testsuite/expect/test17.9

testsuite/expect/test19.1

testsuite/expect/test19.2

testsuite/expect/test19.3

testsuite/expect/test19.4

testsuite/expect/test19.5

testsuite/expect/test19.6

testsuite/expect/test19.7

testsuite/expect/test2.1

testsuite/expect/test2.10

testsuite/expect/test2.11

testsuite/expect/test2.2

testsuite/expect/test2.3

testsuite/expect/test2.4

testsuite/expect/test2.5

testsuite/expect/test2.6

testsuite/expect/test2.7

testsuite/expect/test2.8

testsuite/expect/test2.9

testsuite/expect/test20.1

testsuite/expect/test20.2

testsuite/expect/test20.3

testsuite/expect/test20.4

testsuite/expect/test3.1

testsuite/expect/test3.2

testsuite/expect/test3.3

testsuite/expect/test3.4

testsuite/expect/test3.5

testsuite/expect/test3.6

testsuite/expect/test3.7

testsuite/expect/test3.7.prog.c

testsuite/expect/test3.8

testsuite/expect/test3.9

testsuite/expect/test4.1

testsuite/expect/test4.10

testsuite/expect/test4.11

testsuite/expect/test4.2

testsuite/expect/test4.3

testsuite/expect/test4.4

testsuite/expect/test4.5

testsuite/expect/test4.6

testsuite/expect/test4.7

testsuite/expect/test4.8

testsuite/expect/test4.9

testsuite/expect/test5.1

testsuite/expect/test5.2

testsuite/expect/test5.3

testsuite/expect/test5.4

testsuite/expect/test5.5

testsuite/expect/test5.6

testsuite/expect/test5.7

testsuite/expect/test5.8

testsuite/expect/test6.1

testsuite/expect/test6.10

testsuite/expect/test6.11

testsuite/expect/test6.12

testsuite/expect/test6.13

testsuite/expect/test6.2

testsuite/expect/test6.3

testsuite/expect/test6.4

testsuite/expect/test6.5

testsuite/expect/test6.6

testsuite/expect/test6.7

testsuite/expect/test6.8

testsuite/expect/test6.9

testsuite/expect/test7.1

testsuite/expect/test7.10

testsuite/expect/test7.2

testsuite/expect/test7.2.prog.c

testsuite/expect/test7.3

testsuite/expect/test7.3.io.c

testsuite/expect/test7.3.prog.c

testsuite/expect/test7.4

testsuite/expect/test7.4.prog.c

testsuite/expect/test7.6

testsuite/expect/test7.6.prog.c

testsuite/expect/test7.7

testsuite/expect/test7.7.prog.c

testsuite/expect/test7.8

testsuite/expect/test7.8.prog.c

testsuite/expect/test7.9

testsuite/expect/test7.9.prog.c

testsuite/expect/test8.1

testsuite/expect/test8.2

testsuite/expect/test8.3

testsuite/expect/test8.4

testsuite/expect/test8.4.prog.c

testsuite/expect/test8.5

testsuite/expect/test8.6

testsuite/expect/test9.1

testsuite/expect/test9.2

testsuite/expect/test9.3

testsuite/expect/test9.4

testsuite/expect/test9.5

testsuite/expect/test9.6

testsuite/expect/test9.7

testsuite/expect/test9.7.bash

testsuite/expect/test9.8

testsuite/expect/usleep

testsuite/slurm_unit/Makefile.in

testsuite/slurm_unit/api/Makefile.in

testsuite/slurm_unit/api/manual/Makefile.in

testsuite/slurm_unit/api/manual/cancel-tst.c

testsuite/slurm_unit/api/manual/complete-tst.c

testsuite/slurm_unit/api/manual/job_info-tst.c

testsuite/slurm_unit/api/manual/node_info-tst.c

testsuite/slurm_unit/api/manual/partition_info-tst.c

testsuite/slurm_unit/api/manual/reconfigure-tst.c

testsuite/slurm_unit/api/manual/submit-tst.c

testsuite/slurm_unit/api/manual/update_config-tst.c

testsuite/slurm_unit/common/Makefile.in

testsuite/slurm_unit/common/pack-test.c

testsuite/slurm_unit/slurmctld/Makefile.in

testsuite/slurm_unit/slurmctld/security_2_1.py

testsuite/slurm_unit/slurmd/Makefile.in

Show diffs side-by-side

added added

removed removed

src/slurmd/slurmd/req.c

/*****************************************************************************\

* src/slurmd/slurmd/req.c - slurmd request handling

* $Id: req.c 13326 2008-02-21 20:37:56Z jette $

*****************************************************************************

* Produced at Lawrence Livermore National Laboratory (cf, DISCLAIMER).

* Written by Mark Grondona <mgrondona@llnl.gov>.

* UCRL-CODE-226842.

* LLNL-CODE-402394.

* This file is part of SLURM, a resource management program.

* For details, see <http://www.llnl.gov/linux/slurm/>.

#include <grp.h>

#include "src/common/hostlist.h"

#include "src/common/jobacct_common.h"

#include "src/common/log.h"

#include "src/common/macros.h"

#include "src/common/node_select.h"

#include "src/common/slurm_auth.h"

#include "src/common/slurm_cred.h"

#include "src/common/slurm_jobacct.h"

#include "src/common/slurm_jobacct_gather.h"

#include "src/common/slurm_protocol_defs.h"

#include "src/common/slurm_protocol_api.h"

#include "src/common/slurm_protocol_interface.h"

gid_t *gids;

} gids_t;

typedef struct {

uint32_t job_id;

uint32_t job_mem;

100

} job_mem_limits_t;

101

102

static int _abort_job(uint32_t job_id);

103

static int _abort_step(uint32_t job_id, uint32_t step_id);

104

static char ** _build_env(uint32_t jobid, uid_t uid, char *bg_part_id);

105

static void _delay_rpc(int host_inx, int host_cnt, int usec_per_rpc);

100

106

static void _destroy_env(char **env);

101

107

static bool _slurm_authorized_user(uid_t uid);

108

static void _job_limits_free(void *x);

109

static int _job_limits_match(void *x, void *key);

102

110

static bool _job_still_running(uint32_t job_id);

103

111

static int _kill_all_active_steps(uint32_t jobid, int sig, bool batch);

104

112

static int _terminate_all_steps(uint32_t jobid, bool batch);

105

113

static void _rpc_launch_tasks(slurm_msg_t *);

106

114

static void _rpc_batch_job(slurm_msg_t *);

107

115

static void _rpc_signal_tasks(slurm_msg_t *);

116

static void _rpc_checkpoint_tasks(slurm_msg_t *);

108

117

static void _rpc_terminate_tasks(slurm_msg_t *);

109

118

static void _rpc_timelimit(slurm_msg_t *);

110

119

static void _rpc_reattach_tasks(slurm_msg_t *);

117

126

static void _rpc_pid2jid(slurm_msg_t *msg);

118

127

static int _rpc_file_bcast(slurm_msg_t *msg);

119

128

static int _rpc_ping(slurm_msg_t *);

129

static int _rpc_health_check(slurm_msg_t *);

120

130

static int _rpc_step_complete(slurm_msg_t *msg);

121

131

static int _rpc_stat_jobacct(slurm_msg_t *msg);

122

132

static int _rpc_daemon_status(slurm_msg_t *msg);

144

154

static time_t booted = 0;

145

155

static time_t last_slurmctld_msg = 0;

146

156

157

static pthread_mutex_t job_limits_mutex = PTHREAD_MUTEX_INITIALIZER;

158

static List job_limits_list = NULL;

159

static bool job_limits_loaded = false;

160

161

/* NUM_PARALLEL_SUSPEND controls the number of jobs suspended/resumed

162

* at one time as well as the number of jobsteps per job that can be

163

* suspended at one time */

164

#define NUM_PARALLEL_SUSPEND 8

165

static pthread_mutex_t suspend_mutex = PTHREAD_MUTEX_INITIALIZER;

166

static uint32_t job_suspend_array[NUM_PARALLEL_SUSPEND];

167

static int job_suspend_size = 0;

168

147

169

void

148

170

slurmd_req(slurm_msg_t *msg)

149

171

{

156

178

list_destroy(waiters);

157

179

waiters = NULL;

158

180

}

181

slurm_mutex_lock(&job_limits_mutex);

182

if (job_limits_list) {

183

list_destroy(job_limits_list);

184

job_limits_list = NULL;

185

job_limits_loaded = false;

186

}

187

slurm_mutex_unlock(&job_limits_mutex);

159

188

return;

160

189

}

161

190

180

209

_rpc_signal_tasks(msg);

181

210

slurm_free_kill_tasks_msg(msg->data);

182

211

break;

212

case REQUEST_CHECKPOINT_TASKS:

213

debug2("Processing RPC: REQUEST_CHECKPOINT_TASKS");

214

_rpc_checkpoint_tasks(msg);

215

slurm_free_checkpoint_tasks_msg(msg->data);

216

break;

183

217

case REQUEST_TERMINATE_TASKS:

184

218

debug2("Processing RPC: REQUEST_TERMINATE_TASKS");

185

219

_rpc_terminate_tasks(msg);

240

274

last_slurmctld_msg = time(NULL);

241

275

/* No body to free */

242

276

break;

277

case REQUEST_HEALTH_CHECK:

278

_rpc_health_check(msg);

279

last_slurmctld_msg = time(NULL);

280

/* No body to free */

281

break;

243

282

case REQUEST_JOB_ID:

244

283

_rpc_pid2jid(msg);

245

284

slurm_free_job_id_request_msg(msg->data);

561

600

562

601

* The job(step) credential is the only place to get a definitive

563

602

* list of the nodes allocated to a job step. We need to return

564

* a hostset_t of the nodes.

565

566

* FIXME - Rewrite this to only take a slurm_cred_t and only return a

567

* slurm_cred_arg_t. The other parameters, jobid, stepid, etc.

568

* should be checked one caller layer higher.

603

* a hostset_t of the nodes. Validate the incoming RPC, updating

604

* job_mem and task_mem as needed.

569

605

570

606

static int

571

_check_job_credential(slurm_cred_t cred, uint32_t jobid,

572

uint32_t stepid, uid_t uid, int tasks_to_launch,

573

hostset_t *step_hset)

607

_check_job_credential(launch_tasks_request_msg_t *req, uid_t uid,

608

int tasks_to_launch, hostset_t *step_hset)

574

609

{

575

610

slurm_cred_arg_t arg;

576

611

hostset_t hset = NULL;

577

612

bool user_ok = _slurm_authorized_user(uid);

578

613

int host_index = -1;

579

614

int rc;

615

slurm_cred_t cred = req->cred;

616

uint32_t jobid = req->job_id;

617

uint32_t stepid = req->job_step_id;

580

618

581

619

582

620

* First call slurm_cred_verify() so that all valid

591

629

}

592

630

}

593

631

632

/* Overwrite any memory limits in the RPC with

633

* contents of the credential */

634

req->job_mem = arg.job_mem;

635

req->task_mem = arg.task_mem;

636

594

637

595

638

* If uid is the slurm user id or root, do not bother

596

639

* performing validity check of the credential

689

732

char host[MAXHOSTNAMELEN];

690

733

uid_t req_uid;

691

734

launch_tasks_request_msg_t *req = msg->data;

692

uint32_t jobid = req->job_id;

693

uint32_t stepid = req->job_step_id;

694

735

bool super_user = false;

695

736

bool first_job_run;

696

737

slurm_addr self;

697

738

slurm_addr *cli = &msg->orig_addr;

698

739

socklen_t adlen;

699

740

hostset_t step_hset = NULL;

741

job_mem_limits_t *job_limits_ptr;

700

742

int nodeid = nodelist_find(req->complete_nodelist, conf->node_name);

701

743

702

req_uid = g_slurm_auth_get_uid(msg->auth_cred);

744

req_uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

703

745

memcpy(&req->orig_addr, &msg->orig_addr, sizeof(slurm_addr));

704

746

705

slurmd_launch_request(jobid, req, nodeid);

747

slurmd_launch_request(req->job_id, req, nodeid);

706

748

707

749

super_user = _slurm_authorized_user(req_uid);

708

750

718

760

req->job_step_id, req->uid, req->gid, host, port);

719

761

720

762

first_job_run = !slurm_cred_jobid_cached(conf->vctx, req->job_id);

721

if (_check_job_credential(req->cred, jobid, stepid, req_uid,

722

req->tasks_to_launch[nodeid],

763

if (_check_job_credential(req, req_uid, req->tasks_to_launch[nodeid],

723

764

&step_hset) < 0) {

724

765

errnum = errno;

725

766

error("Invalid job credential from %ld@%s: %m",

726

767

(long) req_uid, host);

727

768

goto done;

728

769

}

729

770

730

771

#ifndef HAVE_FRONT_END

731

772

if (first_job_run) {

732

if (_run_prolog(req->job_id, req->uid, NULL) != 0) {

733

error("[job %u] prolog failed", req->job_id);

773

int rc;

774

rc = _run_prolog(req->job_id, req->uid, NULL);

775

if (rc) {

776

int term_sig, exit_status;

777

if (WIFSIGNALED(rc)) {

778

exit_status = 0;

779

term_sig = WTERMSIG(rc);

780

} else {

781

exit_status = WEXITSTATUS(rc);

782

term_sig = 0;

783

}

784

error("[job %u] prolog failed status=%d:%d",

785

req->job_id, exit_status, term_sig);

734

786

errnum = ESLURMD_PROLOG_FAILED;

735

787

goto done;

736

788

}

737

789

}

738

790

#endif

791

792

if (req->job_mem) {

793

slurm_mutex_lock(&job_limits_mutex);

794

if (!job_limits_list)

795

job_limits_list = list_create(_job_limits_free);

796

job_limits_ptr = list_find_first (job_limits_list,

797

_job_limits_match,

798

&req->job_id);

799

if (!job_limits_ptr) {

800

//info("AddLim job:%u mem:%u",req->job_id,req->job_mem);

801

job_limits_ptr = xmalloc(sizeof(job_mem_limits_t));

802

job_limits_ptr->job_id = req->job_id;

803

list_append(job_limits_list, job_limits_ptr);

804

}

805

job_limits_ptr->job_mem = req->job_mem; /* reset limit */

806

slurm_mutex_unlock(&job_limits_mutex);

807

}

808

739

809

adlen = sizeof(self);

740

810

_slurm_getsockname(msg->conn_fd, (struct sockaddr *)&self, &adlen);

741

811

750

820

751

821

if (slurm_send_rc_msg(msg, errnum) < 0) {

752

822

753

error("launch_tasks: unable to send return code: %m");

823

error("_rpc_launch_tasks: unable to send return code: %m");

754

824

755

825

756

826

* Rewind credential so that srun may perform retry

806

876

batch_job_launch_msg_t *req = (batch_job_launch_msg_t *)msg->data;

807

877

bool first_job_run = true;

808

878

int rc = SLURM_SUCCESS;

809

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred);

879

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

810

880

char *bg_part_id = NULL;

811

881

bool replied = false;

812

882

slurm_addr *cli = &msg->orig_addr;

851

921

852

922

rc = _run_prolog(req->job_id, req->uid, bg_part_id);

853

923

xfree(bg_part_id);

854

if (rc != 0) {

855

error("[job %u] prolog failed", req->job_id);

924

if (rc) {

925

int term_sig, exit_status;

926

if (WIFSIGNALED(rc)) {

927

exit_status = 0;

928

term_sig = WTERMSIG(rc);

929

} else {

930

exit_status = WEXITSTATUS(rc);

931

term_sig = 0;

932

}

933

error("[job %u] prolog failed status=%d:%d",

934

req->job_id, exit_status, term_sig);

856

935

_prolog_error(req, rc);

857

936

rc = ESLURMD_PROLOG_FAILED;

858

937

goto done;

934

1013

resp.range_first = 0;

935

1014

resp.range_last = 0;

936

1015

resp.step_rc = 1;

937

resp.jobacct = jobacct_g_alloc(NULL);

1016

resp.jobacct = jobacct_gather_g_create(NULL);

938

1017

resp_msg.msg_type = REQUEST_STEP_COMPLETE;

939

1018

resp_msg.data = &resp;

940

1019

return slurm_send_recv_controller_rc_msg(&resp_msg, &rc);

943

1022

static void

944

1023

_rpc_reconfig(slurm_msg_t *msg)

945

1024

{

946

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred);

1025

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

947

1026

948

1027

if (!_slurm_authorized_user(req_uid))

949

1028

error("Security violation, reconfig RPC from uid %u",

957

1036

static void

958

1037

_rpc_shutdown(slurm_msg_t *msg)

959

1038

{

960

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred);

1039

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

961

1040

962

1041

forward_wait(msg);

963

1042

if (!_slurm_authorized_user(req_uid))

971

1050

/* Never return a message, slurmctld does not expect one */

972

1051

}

973

1052

1053

static void _job_limits_free(void *x)

1054

{

1055

xfree(x);

1056

}

1057

1058

1059

static int _job_limits_match(void *x, void *key)

1060

{

1061

job_mem_limits_t *job_limits_ptr = (job_mem_limits_t *) x;

1062

uint32_t *job_id = (uint32_t *) key;

1063

if (job_limits_ptr->job_id == *job_id)

1064

return 1;

1065

return 0;

1066

}

1067

1068

/* Call only with job_limits_mutex locked */

1069

static void

1070

_load_job_limits(void)

1071

{

1072

List steps;

1073

ListIterator step_iter;

1074

step_loc_t *stepd;

1075

int fd;

1076

job_mem_limits_t *job_limits_ptr;

1077

slurmstepd_info_t *stepd_info_ptr;

1078

1079

if (!job_limits_list)

1080

job_limits_list = list_create(_job_limits_free);

1081

job_limits_loaded = true;

1082

1083

steps = stepd_available(conf->spooldir, conf->node_name);

1084

step_iter = list_iterator_create(steps);

1085

while ((stepd = list_next(step_iter))) {

1086

job_limits_ptr = list_find_first(job_limits_list,

1087

_job_limits_match,

1088

&stepd->jobid);

1089

if (job_limits_ptr) /* already processed */

1090

continue;

1091

fd = stepd_connect(stepd->directory, stepd->nodename,

1092

stepd->jobid, stepd->stepid);

1093

if (fd == -1)

1094

continue; /* step completed */

1095

stepd_info_ptr = stepd_get_info(fd);

1096

if (stepd_info_ptr && stepd_info_ptr->job_mem_limit) {

1097

/* create entry for this job */

1098

job_limits_ptr = xmalloc(sizeof(job_mem_limits_t));

1099

job_limits_ptr->job_id = stepd->jobid;

1100

job_limits_ptr->job_mem = stepd_info_ptr->job_mem_limit;

1101

debug("RecLim job:%u mem:%u",

1102

stepd->jobid, stepd_info_ptr->job_mem_limit);

1103

list_append(job_limits_list, job_limits_ptr);

1104

}

1105

xfree(stepd_info_ptr);

1106

close(fd);

1107

}

1108

list_iterator_destroy(step_iter);

1109

list_destroy(steps);

1110

}

1111

1112

static void

1113

_enforce_job_mem_limit(void)

1114

{

1115

List steps;

1116

ListIterator step_iter, job_limits_iter;

1117

job_mem_limits_t *job_limits_ptr;

1118

step_loc_t *stepd;

1119

int fd, i, job_inx, job_cnt = 0;

1120

uint32_t step_rss;

1121

stat_jobacct_msg_t acct_req;

1122

stat_jobacct_msg_t *resp = NULL;

1123

struct job_mem_info {

1124

uint32_t job_id;

1125

uint32_t mem_limit; /* MB */

1126

uint32_t mem_used; /* KB */

1127

};

1128

struct job_mem_info *job_mem_info_ptr = NULL;

1129

slurm_msg_t msg;

1130

job_notify_msg_t notify_req;

1131

job_step_kill_msg_t kill_req;

1132

1133

slurm_mutex_lock(&job_limits_mutex);

1134

if (!job_limits_loaded)

1135

_load_job_limits();

1136

if (list_count(job_limits_list) == 0) {

1137

slurm_mutex_unlock(&job_limits_mutex);

1138

return;

1139

}

1140

1141

job_mem_info_ptr = xmalloc((list_count(job_limits_list) + 1) *

1142

sizeof(struct job_mem_info));

1143

job_cnt = 0;

1144

job_limits_iter = list_iterator_create(job_limits_list);

1145

while ((job_limits_ptr = list_next(job_limits_iter))) {

1146

job_mem_info_ptr[job_cnt].job_id = job_limits_ptr->job_id;

1147

job_mem_info_ptr[job_cnt].mem_limit = job_limits_ptr->job_mem;

1148

job_cnt++;

1149

}

1150

list_iterator_destroy(job_limits_iter);

1151

slurm_mutex_unlock(&job_limits_mutex);

1152

1153

steps = stepd_available(conf->spooldir, conf->node_name);

1154

step_iter = list_iterator_create(steps);

1155

while ((stepd = list_next(step_iter))) {

1156

for (job_inx=0; job_inx<job_cnt; job_inx++) {

1157

if (job_mem_info_ptr[job_inx].job_id == stepd->jobid)

1158

break;

1159

}

1160

if (job_inx >= job_cnt)

1161

continue; /* job not being tracked */

1162

1163

fd = stepd_connect(stepd->directory, stepd->nodename,

1164

stepd->jobid, stepd->stepid);

1165

if (fd == -1)

1166

continue; /* step completed */

1167

acct_req.job_id = stepd->jobid;

1168

acct_req.step_id = stepd->stepid;

1169

resp = xmalloc(sizeof(stat_jobacct_msg_t));

1170

if ((!stepd_stat_jobacct(fd, &acct_req, resp)) &&

1171

(resp->jobacct)) {

1172

/* resp->jobacct is NULL if account is disabled */

1173

jobacct_common_getinfo((struct jobacctinfo *)

1174

resp->jobacct,

1175

JOBACCT_DATA_TOT_RSS,

1176

&step_rss);

1177

//info("job %u.%u rss:%u",stepd->jobid, stepd->stepid, step_rss);

1178

step_rss = MAX(step_rss, 1);

1179

job_mem_info_ptr[job_inx].mem_used += step_rss;

1180

}

1181

slurm_free_stat_jobacct_msg(resp);

1182

close(fd);

1183

}

1184

list_iterator_destroy(step_iter);

1185

list_destroy(steps);

1186

1187

for (i=0; i<job_cnt; i++) {

1188

if ((job_mem_info_ptr[i].mem_limit == 0) ||

1189

(job_mem_info_ptr[i].mem_used == 0)) {

1190

/* no memory limit or no steps found, purge record */

1191

slurm_mutex_lock(&job_limits_mutex);

1192

list_delete_all(job_limits_list, _job_limits_match,

1193

&job_mem_info_ptr[i].job_id);

1194

slurm_mutex_unlock(&job_limits_mutex);

1195

break;

1196

}

1197

job_mem_info_ptr[i].mem_used /= 1024; /* KB to MB */

1198

if (job_mem_info_ptr[i].mem_used <=

1199

job_mem_info_ptr[i].mem_limit)

1200

continue;

1201

1202

info("Job %u exceeded memory limit (%u>%u), cancelling it",

1203

job_mem_info_ptr[i].job_id, job_mem_info_ptr[i].mem_used,

1204

job_mem_info_ptr[i].mem_limit);

1205

/* NOTE: Batch jobs may have no srun to get this message */

1206

slurm_msg_t_init(&msg);

1207

notify_req.job_id = job_mem_info_ptr[i].job_id;

1208

notify_req.job_step_id = NO_VAL;

1209

notify_req.message = "Exceeded job memory limit";

1210

msg.msg_type = REQUEST_JOB_NOTIFY;

1211

msg.data = &notify_req;

1212

slurm_send_only_controller_msg(&msg);

1213

1214

kill_req.job_id = job_mem_info_ptr[i].job_id;

1215

kill_req.job_step_id = NO_VAL;

1216

kill_req.signal = SIGKILL;

1217

kill_req.batch_flag = (uint16_t) 0;

1218

msg.msg_type = REQUEST_CANCEL_JOB_STEP;

1219

msg.data = &kill_req;

1220

slurm_send_only_controller_msg(&msg);

1221

}

1222

xfree(job_mem_info_ptr);

1223

}

1224

974

1225

static int

975

1226

_rpc_ping(slurm_msg_t *msg)

976

1227

{

977

1228

int rc = SLURM_SUCCESS;

978

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred);

979

980

if (!_slurm_authorized_user(req_uid)) {

981

error("Security violation, ping RPC from uid %u",

982

(unsigned int) req_uid);

983

rc = ESLURM_USER_ID_MISSING; /* or bad in this case */

984

}

985

986

/* Return result. If the reply can't be sent this indicates that

987

* 1. The network is broken OR

988

* 2. slurmctld has died OR

989

* 3. slurmd was paged out due to full memory

990

* If the reply request fails, we send an registration message to

991

* slurmctld in hopes of avoiding having the node set DOWN due to

992

* slurmd paging and not being able to respond in a timely fashion. */

993

if (slurm_send_rc_msg(msg, rc) < 0) {

994

error("Error responding to ping: %m");

995

send_registration_msg(SLURM_SUCCESS, false);

996

}

1229

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

1230

1231

if (!_slurm_authorized_user(req_uid)) {

1232

error("Security violation, ping RPC from uid %u",

1233

(unsigned int) req_uid);

1234

rc = ESLURM_USER_ID_MISSING; /* or bad in this case */

1235

}

1236

1237

/* Return result. If the reply can't be sent this indicates that

1238

* 1. The network is broken OR

1239

* 2. slurmctld has died OR

1240

* 3. slurmd was paged out due to full memory

1241

* If the reply request fails, we send an registration message to

1242

* slurmctld in hopes of avoiding having the node set DOWN due to

1243

* slurmd paging and not being able to respond in a timely fashion. */

1244

if (slurm_send_rc_msg(msg, rc) < 0) {

1245

error("Error responding to ping: %m");

1246

send_registration_msg(SLURM_SUCCESS, false);

1247

}

1248

1249

/* Take this opportunity to enforce any job memory limits */

1250

_enforce_job_mem_limit();

1251

return rc;

1252

}

1253

1254

static int

1255

_rpc_health_check(slurm_msg_t *msg)

1256

{

1257

int rc = SLURM_SUCCESS;

1258

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

1259

1260

if (!_slurm_authorized_user(req_uid)) {

1261

error("Security violation, ping RPC from uid %u",

1262

(unsigned int) req_uid);

1263

rc = ESLURM_USER_ID_MISSING; /* or bad in this case */

1264

}

1265

1266

/* Return result. If the reply can't be sent this indicates that

1267

* 1. The network is broken OR

1268

* 2. slurmctld has died OR

1269

* 3. slurmd was paged out due to full memory

1270

* If the reply request fails, we send an registration message to

1271

* slurmctld in hopes of avoiding having the node set DOWN due to

1272

* slurmd paging and not being able to respond in a timely fashion. */

1273

if (slurm_send_rc_msg(msg, rc) < 0) {

1274

error("Error responding to ping: %m");

1275

send_registration_msg(SLURM_SUCCESS, false);

1276

}

1277

1278

if ((rc == SLURM_SUCCESS) && (conf->health_check_program)) {

1279

char *env[1] = { NULL };

1280

rc = run_script("health_check", conf->health_check_program,

1281

0, 60, env);

1282

}

1283

1284

/* Take this opportunity to enforce any job memory limits */

1285

_enforce_job_mem_limit();

997

1286

return rc;

998

1287

}

999

1288

1002

1291

{

1003

1292

int fd;

1004

1293

int rc = SLURM_SUCCESS;

1005

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred);

1294

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

1006

1295

kill_tasks_msg_t *req = (kill_tasks_msg_t *) msg->data;

1007

1296

slurmstepd_info_t *step;

1008

1297

1064

1353

}

1065

1354

1066

1355

static void

1356

_rpc_checkpoint_tasks(slurm_msg_t *msg)

1357

{

1358

int fd;

1359

int rc = SLURM_SUCCESS;

1360

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

1361

checkpoint_tasks_msg_t *req = (checkpoint_tasks_msg_t *) msg->data;

1362

slurmstepd_info_t *step;

1363

1364

fd = stepd_connect(conf->spooldir, conf->node_name,

1365

req->job_id, req->job_step_id);

1366

if (fd == -1) {

1367

debug("checkpoint for nonexistant %u.%u stepd_connect failed: %m",

1368

req->job_id, req->job_step_id);

1369

rc = ESLURM_INVALID_JOB_ID;

1370

goto done;

1371

}

1372

if ((step = stepd_get_info(fd)) == NULL) {

1373

debug("checkpoint for nonexistent job %u.%u requested",

1374

req->job_id, req->job_step_id);

1375

rc = ESLURM_INVALID_JOB_ID;

1376

goto done2;

1377

}

1378

1379

if ((req_uid != step->uid) && (!_slurm_authorized_user(req_uid))) {

1380

debug("checkpoint req from uid %ld for job %u.%u owned by uid %ld",

1381

(long) req_uid, req->job_id, req->job_step_id,

1382

(long) step->uid);

1383

rc = ESLURM_USER_ID_MISSING; /* or bad in this case */

1384

goto done3;

1385

}

1386

1387

rc = stepd_checkpoint(fd, req->signal, req->timestamp);

1388

if (rc == -1)

1389

rc = ESLURMD_JOB_NOTRUNNING;

1390

1391

done3:

1392

xfree(step);

1393

done2:

1394

close(fd);

1395

done:

1396

slurm_send_rc_msg(msg, rc);

1397

}

1398

1399

static void

1067

1400

_rpc_terminate_tasks(slurm_msg_t *msg)

1068

1401

{

1069

1402

kill_tasks_msg_t *req = (kill_tasks_msg_t *) msg->data;

1088

1421

goto done2;

1089

1422

}

1090

1423

1091

req_uid = g_slurm_auth_get_uid(msg->auth_cred);

1424

req_uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

1092

1425

if ((req_uid != step->uid) && (!_slurm_authorized_user(req_uid))) {

1093

1426

debug("kill req from uid %ld for job %u.%u owned by uid %ld",

1094

1427

(long) req_uid, req->job_id, req->job_step_id,

1127

1460

goto done;

1128

1461

}

1129

1462

1130

/* step completionmessages are only allowed from other slurmstepd,

1463

/* step completion messages are only allowed from other slurmstepd,

1131

1464

so only root or SlurmUser is allowed here */

1132

req_uid = g_slurm_auth_get_uid(msg->auth_cred);

1465

req_uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

1133

1466

if (!_slurm_authorized_user(req_uid)) {

1134

1467

debug("step completion from uid %ld for job %u.%u",

1135

1468

(long) req_uid, req->job_id, req->job_step_id);

1238

1571

debug3("Entering _rpc_stat_jobacct");

1239

1572

/* step completion messages are only allowed from other slurmstepd,

1240

1573

so only root or SlurmUser is allowed here */

1241

req_uid = g_slurm_auth_get_uid(msg->auth_cred);

1574

req_uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

1242

1575

1243

1576

job_uid = _get_job_uid(req->job_id);

1244

1577

if (job_uid < 0) {

1279

1612

1280

1613

}

1281

1614

if (stepd_stat_jobacct(fd, req, resp) == SLURM_ERROR) {

1282

debug("kill for nonexistent job %u.%u requested",

1615

debug("accounting for nonexistent job %u.%u requested",

1283

1616

req->job_id, req->step_id);

1284

1617

}

1285

1618

close(fd);

1296

1629

1297

1630

* For the specified job_id: reply to slurmctld,

1298

1631

* sleep(configured kill_wait), then send SIGKILL

1299

* FIXME! - Perhaps we should send SIGXCPU first?

1300

1632

1301

1633

static void

1302

1634

_rpc_timelimit(slurm_msg_t *msg)

1303

1635

{

1304

uid_t uid = g_slurm_auth_get_uid(msg->auth_cred);

1636

uid_t uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

1305

1637

kill_job_msg_t *req = msg->data;

1306

1638

int nsteps;

1307

1639

1323

1655

_kill_all_active_steps(req->job_id, SIGTERM, false);

1324

1656

verbose( "Job %u: timeout: sent SIGTERM to %d active steps",

1325

1657

req->job_id, nsteps );

1658

_kill_all_active_steps(req->job_id, SIGXCPU, true);

1326

1659

1327

1660

/* Revoke credential, send SIGKILL, run epilog, etc. */

1328

1661

_rpc_terminate_job(msg);

1378

1711

_rpc_file_bcast(slurm_msg_t *msg)

1379

1712

{

1380

1713

file_bcast_msg_t *req = msg->data;

1381

int i, fd, flags, offset, inx, rc;

1382

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred);

1383

uid_t req_gid = g_slurm_auth_get_gid(msg->auth_cred);

1714

int fd, flags, offset, inx, rc;

1715

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

1716

uid_t req_gid = g_slurm_auth_get_gid(msg->auth_cred, NULL);

1384

1717

pid_t child;

1385

1718

1386

1719

#if 0

1433

1766

exit(errno);

1434

1767

}

1435

1768

1436

for (i=0; i<FILE_BLOCKS; i++) {

1437

offset = 0;

1438

while (req->block_len[i] - offset) {

1439

inx = write(fd, &req->block[i][offset],

1440

(req->block_len[i] - offset));

1441

if (inx == -1) {

1442

if ((errno == EINTR) || (errno == EAGAIN))

1443

continue;

1444

error("sbcast: uid:%u can't write `%s`: %s",

1445

req_uid, req->fname, strerror(errno));

1446

close(fd);

1447

exit(errno);

1448

}

1449

offset += inx;

1769

offset = 0;

1770

while (req->block_len - offset) {

1771

inx = write(fd, &req->block[offset], (req->block_len - offset));

1772

if (inx == -1) {

1773

if ((errno == EINTR) || (errno == EAGAIN))

1774

continue;

1775

error("sbcast: uid:%u can't write `%s`: %s",

1776

req_uid, req->fname, strerror(errno));

1777

close(fd);

1778

exit(errno);

1450

1779

}

1780

offset += inx;

1451

1781

}

1452

1782

if (req->last_block && fchmod(fd, (req->modes & 0777))) {

1453

1783

error("sbcast: uid:%u can't chmod `%s`: %s",

1508

1838

nodeid = step->nodeid;

1509

1839

debug2("_rpc_reattach_tasks: nodeid %d in the job step", nodeid);

1510

1840

1511

req_uid = g_slurm_auth_get_uid(msg->auth_cred);

1841

req_uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

1512

1842

if ((req_uid != step->uid) && (!_slurm_authorized_user(req_uid))) {

1513

1843

error("uid %ld attempt to attach to job %u.%u owned by %ld",

1514

1844

(long) req_uid, req->job_id, req->job_step_id,

1852

2182

_rpc_signal_job(slurm_msg_t *msg)

1853

2183

{

1854

2184

signal_job_msg_t *req = msg->data;

1855

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred);

2185

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

1856

2186

long job_uid;

1857

2187

List steps;

1858

2188

ListIterator i;

1951

2281

}

1952

2282

}

1953

2283

2284

/* if a lock is granted to the job then return 1; else return 0 if

2285

* the lock for the job is already taken or there's no more locks */

2286

static int

2287

_get_suspend_job_lock(uint32_t jobid)

2288

{

2289

int i, spot = -1;

2290

pthread_mutex_lock(&suspend_mutex);

2291

2292

for (i = 0; i < job_suspend_size; i++) {

2293

if (job_suspend_array[i] == -1) {

2294

spot = i;

2295

continue;

2296

}

2297

if (job_suspend_array[i] == jobid) {

2298

/* another thread already has the lock */

2299

pthread_mutex_unlock(&suspend_mutex);

2300

return 0;

2301

}

2302

}

2303

i = 0;

2304

if (spot != -1) {

2305

/* nobody has the lock and here's an available used lock */

2306

job_suspend_array[spot] = jobid;

2307

i = 1;

2308

} else if (job_suspend_size < NUM_PARALLEL_SUSPEND) {

2309

/* a new lock is available */

2310

job_suspend_array[job_suspend_size++] = jobid;

2311

i = 1;

2312

}

2313

pthread_mutex_unlock(&suspend_mutex);

2314

return i;

2315

}

2316

2317

static void

2318

_unlock_suspend_job(uint32_t jobid)

2319

{

2320

int i;

2321

pthread_mutex_lock(&suspend_mutex);

2322

for (i = 0; i < job_suspend_size; i++) {

2323

if (job_suspend_array[i] == jobid)

2324

job_suspend_array[i] = -1;

2325

}

2326

pthread_mutex_unlock(&suspend_mutex);

2327

}

2328

1954

2329

1955

2330

* Send a job suspend/resume request through the appropriate slurmstepds for

1956

2331

* each job step belonging to a given job allocation.

1959

2334

_rpc_suspend_job(slurm_msg_t *msg)

1960

2335

{

1961

2336

suspend_msg_t *req = msg->data;

1962

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred);

1963

long job_uid;

2337

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

1964

2338

List steps;

1965

2339

ListIterator i;

1966

2340

step_loc_t *stepd;

1967

2341

int step_cnt = 0;

1968

int fd, rc = SLURM_SUCCESS;

2342

int first_time, rc = SLURM_SUCCESS;

1969

2343

1970

2344

if (req->op != SUSPEND_JOB && req->op != RESUME_JOB) {

1971

2345

error("REQUEST_SUSPEND: bad op code %u", req->op);

1972

2346

rc = ESLURM_NOT_SUPPORTED;

1973

goto fini;

1974

2347

}

1975

debug("_rpc_suspend_job jobid=%u uid=%d",

1976

req->job_id, req_uid);

1977

job_uid = _get_job_uid(req->job_id);

1978

if (job_uid < 0)

1979

goto no_job;

2348

1980

2349

1981

2350

* check that requesting user ID is the SLURM UID or root

1982

2351

1983

2352

if (!_slurm_authorized_user(req_uid)) {

1984

error("Security violation: signal_job(%u) from uid %ld",

2353

error("Security violation: suspend_job(%u) from uid %ld",

1985

2354

req->job_id, (long) req_uid);

1986

2355

rc = ESLURM_USER_ID_MISSING;

1987

goto fini;

1988

}

2356

}

2357

2358

/* send a response now, which will include any errors

2359

* detected with the request */

2360

if (msg->conn_fd >= 0) {

2361

slurm_send_rc_msg(msg, rc);

2362

if (slurm_close_accepted_conn(msg->conn_fd) < 0)

2363

error ("_rpc_suspend_job: close(%d): %m", msg->conn_fd);

2364

msg->conn_fd = -1;

2365

}

2366

if (rc != SLURM_SUCCESS)

2367

return;

2368

2369

/* now we can focus on performing the requested action,

2370

* which could take a few seconds to complete */

2371

debug("_rpc_suspend_job jobid=%u uid=%d action=%s", req->job_id,

2372

req_uid, req->op == SUSPEND_JOB ? "suspend" : "resume");

2373

2374

/* Try to get a thread lock for this job. If the lock

2375

* is not available then sleep and try again */

2376

first_time = 1;

2377

while (!_get_suspend_job_lock(req->job_id)) {

2378

first_time = 0;

2379

debug3("suspend lock sleep for %u", req->job_id);

2380

sleep(1);

2381

}

2382

2383

/* If suspending and you got the lock on the first try then

2384

* sleep for 1 second to give any launch requests a chance

2385

* to get started and avoid a race condition that would

2386

* effectively cause the suspend request to get ignored

2387

* because "there's no job to suspend" */

2388

if (first_time && req->op == SUSPEND_JOB) {

2389

debug3("suspend first sleep for %u", req->job_id);

2390

sleep(1);

2391

}

2392

2393

/* Release or reclaim resources bound to these tasks (task affinity) */

2394

if (req->op == SUSPEND_JOB)

2395

(void) slurmd_suspend_job(req->job_id);

2396

else

2397

(void) slurmd_resume_job(req->job_id);

1989

2398

1990

2399

1991

2400

* Loop through all job steps and call stepd_suspend or stepd_resume

1992

* as appropriate.

2401

* as appropriate. Since the "suspend" action contains a 'sleep 1',

2402

* suspend multiple jobsteps in parallel.

1993

2403

1994

2404

steps = stepd_available(conf->spooldir, conf->node_name);

1995

2405

i = list_iterator_create(steps);

1996

while ((stepd = list_next(i))) {

1997

if (stepd->jobid != req->job_id) {

1998

/* multiple jobs expected on shared nodes */

1999

debug3("Step from other job: jobid=%u (this jobid=%u)",

2000

stepd->jobid, req->job_id);

2001

continue;

2002

}

2003

step_cnt++;

2004

2005

fd = stepd_connect(stepd->directory, stepd->nodename,

2006

stepd->jobid, stepd->stepid);

2007

if (fd == -1) {

2008

debug3("Unable to connect to step %u.%u",

2009

stepd->jobid, stepd->stepid);

2010

continue;

2011

}

2406

2407

while (1) {

2408

int x, fdi, fd[NUM_PARALLEL_SUSPEND];

2409

fdi = 0;

2410

while ((stepd = list_next(i))) {

2411

if (stepd->jobid != req->job_id) {

2412

/* multiple jobs expected on shared nodes */

2413

debug3("Step from other job: jobid=%u (this jobid=%u)",

2414

stepd->jobid, req->job_id);

2415

continue;

2416

}

2417

step_cnt++;

2418

2419

fd[fdi] = stepd_connect(stepd->directory,

2420

stepd->nodename, stepd->jobid,

2421

stepd->stepid);

2422

if (fd[fdi] == -1) {

2423

debug3("Unable to connect to step %u.%u",

2424

stepd->jobid, stepd->stepid);

2425

continue;

2426

}

2427

2428

2429

fdi++;

2430

if (fdi >= NUM_PARALLEL_SUSPEND)

2431

break;

2432

}

2433

/* check for open connections */

2434

if (fdi == 0)

2435

break;

2012

2436

2013

2437

if (req->op == SUSPEND_JOB) {

2014

debug2("Suspending job step %u.%u",

2015

stepd->jobid, stepd->stepid);

2016

if (stepd_suspend(fd) < 0)

2017

debug(" suspend failed: %m", stepd->jobid);

2438

stepd_suspend(fd, fdi, req->job_id);

2018

2439

} else {

2019

debug2("Resuming job step %u.%u",

2020

stepd->jobid, stepd->stepid);

2021

if (stepd_resume(fd) < 0)

2022

debug(" resume failed: %m", stepd->jobid);

2440

/* "resume" remains a serial action (for now) */

2441

for (x = 0; x < fdi; x++) {

2442

debug2("Resuming job %u (cached step count %d)",

2443

req->job_id, x);

2444

if (stepd_resume(fd[x]) < 0)

2445

debug(" resume failed: %m");

2446

}

2023

2447

}

2448

for (x = 0; x < fdi; x++)

2449

/* fd may have been closed by stepd_suspend */

2450

if (fd[x] != -1)

2451

close(fd[x]);

2024

2452

2025

close(fd);

2453

/* check for no more jobs */

2454

if (fdi < NUM_PARALLEL_SUSPEND)

2455

break;

2026

2456

}

2027

2457

list_iterator_destroy(i);

2028

2458

list_destroy(steps);

2459

_unlock_suspend_job(req->job_id);

2029

2460

2030

no_job:

2031

2461

if (step_cnt == 0) {

2032

2462

debug2("No steps in jobid %u to suspend/resume",

2033

2463

req->job_id);

2034

2464

}

2035

2036

2037

* At this point, if connection still open, we send controller

2038

* a reply.

2039

2040

fini: if (msg->conn_fd >= 0) {

2041

slurm_send_rc_msg(msg, rc);

2042

if (slurm_close_accepted_conn(msg->conn_fd) < 0)

2043

error ("_rpc_signal_job: close(%d): %m", msg->conn_fd);

2044

msg->conn_fd = -1;

2045

}

2046

2465

}

2047

2466

2048

2467

static void

2050

2469

{

2051

2470

int rc = SLURM_SUCCESS;

2052

2471

kill_job_msg_t *req = msg->data;

2053

uid_t uid = g_slurm_auth_get_uid(msg->auth_cred);

2472

uid_t uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

2054

2473

int nsteps = 0;

2055

2474

int delay;

2056

2475

char *bg_part_id = NULL;

2476

uint16_t base_job_state = req->job_state & (~JOB_COMPLETING);

2057

2477

slurm_ctl_conf_t *cf;

2058

2478

2059

2479

debug("_rpc_terminate_job, uid = %d", uid);

2095

2515

debug("credential for job %u revoked", req->job_id);

2096

2516

}

2097

2517

2518

if ((base_job_state == JOB_NODE_FAIL) ||

2519

(base_job_state == JOB_PENDING)) /* requeued */

2520

_kill_all_active_steps(req->job_id, SIG_NODE_FAIL, true);

2521

else if (base_job_state == JOB_FAILED)

2522

_kill_all_active_steps(req->job_id, SIG_FAILURE, true);

2523

2098

2524

2099

2525

* Tasks might be stopped (possibly by a debugger)

2100

2526

* so send SIGCONT first.

2178

2604

rc = _run_epilog(req->job_id, req->job_uid, bg_part_id);

2179

2605

xfree(bg_part_id);

2180

2606

2181

if (rc != 0) {

2182

error ("[job %u] epilog failed", req->job_id);

2607

if (rc) {

2608

int term_sig, exit_status;

2609

if (WIFSIGNALED(rc)) {

2610

exit_status = 0;

2611

term_sig = WTERMSIG(rc);

2612

} else {

2613

exit_status = WEXITSTATUS(rc);

2614

term_sig = 0;

2615

}

2616

error("[job %u] epilog failed status=%d:%d",

2617

req->job_id, exit_status, term_sig);

2183

2618

rc = ESLURMD_EPILOG_FAILED;

2184

2619

} else

2185

2620

debug("completed epilog for jobid %u", req->job_id);

2201

2636

int host_cnt, host_inx;

2202

2637

char *host;

2203

2638

hostset_t hosts;

2639

int epilog_msg_time;

2204

2640

2205

2641

hosts = hostset_create(req->nodes);

2206

2642

host_cnt = hostset_count(hosts);

2207

if (host_cnt <= 32)

2643

if (host_cnt <= 64)

2208

2644

goto fini;

2209

2645

if (conf->hostname == NULL)

2210

2646

goto fini; /* should never happen */

2219

2655

}

2220

2656

free(host);

2221

2657

}

2222

_delay_rpc(host_inx, host_cnt, 10000);

2658

epilog_msg_time = slurm_get_epilog_msg_time();

2659

_delay_rpc(host_inx, host_cnt, epilog_msg_time);

2223

2660

2224

2661

fini: hostset_destroy(hosts);

2225

2662

}

2354

2791

_rpc_update_time(slurm_msg_t *msg)

2355

2792

{

2356

2793

int rc = SLURM_SUCCESS;

2357

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred);

2794

uid_t req_uid = g_slurm_auth_get_uid(msg->auth_cred, NULL);

2358

2795

2359

2796

if ((req_uid != conf->slurm_user_id) && (req_uid != 0)) {

2360

2797

rc = ESLURM_USER_ID_MISSING;

Older »