关于父子进程信号传递、Shell进程退出等问题
我们通常都有这样的经历,用shell启动一个业务运行着,在终端界面上按下ctrl+c后,发现还有脚本启动的后台任务仍在运行。或者是出现另外一个方面的问题,本来希望进程安全在后台运行,退出了当前界面后,后台进程也跟着退了。关于这里第2个问题,之前有一篇博客讨论过:让进程在后台可靠运行的几种方法。今天我们探讨第1个问题,怎么让父进程(主shell脚本)退出时子进程(shell脚本中启动的所有后台任务)也退出。
我们知道当子进程退出时,父进程会收到子进程退出时发送的信号,进而做一些处理,如,父进程为守护进程的话,会重新拉起新的子进程。在shell中,我们一般使用wait命令来等待所有当前上下文中启动的后台任务。因此做如下实验脚本。
a1.sh是主脚本,在脚本里面使用后台运行的方式启动两个子任务:
root@shentar-home-nas:~# cat a1.sh #!/bin/bash bash b1.sh child1 & cpid="$!" bash b1.sh child2 & cpid2="$!" wait
b1.sh脚本用循环sleep模拟并行运行的子任务:
root@shentar-home-nas:~# cat b1.sh #!/bin/bash echo "$1 is starting" while : do sleep 1 done
执行a1.sh脚本后,效果如下:
root@shentar-home-nas:~# sh a1.sh
child2 is starting
child1 is starting
我们可以看到两个子任务并发启动。形成的进程树如下:
root 1591487 0.0 0.1 13996 8708 ? Ss 10:14 0:00 \_ sshd: root@pts/0 root 1592132 0.0 0.0 8556 5392 pts/0 Ss 10:14 0:00 | \_ -bash root 1597850 0.0 0.0 2608 544 pts/0 S+ 10:30 0:00 | \_ sh a1.sh root 1597851 0.0 0.0 7024 3432 pts/0 S+ 10:30 0:00 | \_ bash b1.sh child1 root 1598080 0.0 0.0 5476 596 pts/0 S+ 10:31 0:00 | | \_ sleep 1 root 1597852 0.0 0.0 7024 3436 pts/0 S+ 10:30 0:00 | \_ bash b1.sh child2 root 1598079 0.0 0.0 5476 592 pts/0 S+ 10:31 0:00 | \_ sleep 1
如果我们杀死a1.sh进程(1597850)这个进程,那么两个子进程会怎么样呢?会不会跟着一起退出?普通的shell程序退出的条件是有异常循环终止或者进程收到1、2、15等信号。这里父进程退出并不会给子进程发送信号。当然,有一种情况,当登录当前TTY的用户注销时,所有由当前终端启动的前后台进程都会收到SIGHUP信号,一般程序收到此信号即退出运行。但是普通的父子进程并不这么做。所以当a1.sh进程退出后,b1.sh的两个子进程不会跟着退出,会被进程ID为1的进程接管,成为孤子进程。那么,如果我们希望主脚本退出时,所有子进程都依次退出该怎么做呢?
应该在主进程里面捕获常见的退出信号,然后在信号处理流程里面给子进程发送退出信号。使用trap命令可以在shell脚本中捕捉信号,注意trap对于同一个信号可以在任何地方捕捉,最终运行的回调函数以最后一次为准。对a1.sh进行一些改造:
root@shentar-home-nas:~# cat a.sh #!/bin/bash bash c.sh child1 & cpid="$!" bash c.sh child2 & cpid2="$!" trap 'echo "get sigint"; kill -15 $cpid;wait $cpid; sleep 3;kill -15 $cpid2; wait $cpid2' 1 2 15 wait echo "all childs exited"
root@shentar-home-nas:~# cat c.sh #!/bin/bash trap 'echo "got sighup"' HUP trap 'echo "got sigint"' INT trap 'echo "got sigquit"' QUIT trap 'echo "got sigkill"' KILL trap 'echo "got sigterm"; echo "$1 exit";exit 0' TERM trap 'echo "got sigtstp"' TSTP trap 'echo "got sigconf"' CONT echo $1 while : do sleep 1 done
这样,当我们使用ctrl+c退出主进程时,就会发生触发两个子进程也都退出的过程。
root@shentar-home-nas:~# sh a.sh
child1
child2
^Cget sigint
got sigterm
child1 exit
got sigterm
child2 exit
all childs exited
通过捕获信号,我们还可以实现进程不响应ctrl+c或者TERM信号的实现,即可以达到程序安全的常驻内存运行的目的。nohup,disown等都是这个原理。