chiark / gitweb /
cgi-fcgi-interp: wip test program
[chiark-utils.git] / cprogs / cgi-fcgi-interp.c
index 1d88f50294997bc5cced3d4c3abc839bfa29cb79..f59640f4305eb86342d135462f7aa02e3a44e2c5 100644 (file)
  *         speedy, the specified number of servers is started
  *         right away.)  The default is 4.
  *
+ *  -c<interval>
+ *         Stale server check interval, in seconds.  The worker
+ *         process group will get a SIGTERM when it is no longer
+ *         needed to process new requests.  Ideally it would continue
+ *         to serve any existing requests.  The SIGTERM will arrive no
+ *         earlier than <interval> after the last request arrived at
+ *         the containing webserver.  Default is 300.
+ *
  *  -D
  *         Debug mode.  Do not actually run program.  Instead, print
  *         out what we would do.
@@ -68,7 +76,7 @@
  *   ~/.cgi-fcgi-interp/<node>/
  * and inside there uses these paths
  *   s<ident>
- *   g<inum>
+ *   l<ident>    used to lock around garbage collection
  *
  * If -M<ident> is not specified then an initial substricg of the
  * lowercase hex of the sha256 of the <script> (ie, our argv[1]) is
  *  - check for and maybe create <base>
  *  - stat and lstat the <script>
  *  - stat the socket and check its timestamp
- *       if it is too old, rename it to g<inum>.<pid> (where
- *       <inum> and <pid> are in decimal)
- *       and run garbage collection
- *  - run  cgi-fcgi -connect SOCKET SCRIPT
+ *       if it is too old, unlink it
+ *  - dup stderr, mark no cloexec
+ *  - run     cgi-fcgi -connect SOCKET       \
+ *                cgi-fcgi-interp \
+ *                --stage2 <was-stderr> <socket>      \
+ -c<check-interval>            \
+ *               \
+ *                <interp> <script>
+ *
+ * --stage2 does this:
+ *  - dup2 <was-stderr> to fd 2
+ *  - open /dev/null and expect fd 1 (and if not, close it)
+ *  - become a new process group
+ *  - lstat <socket> to find its inum, mtime
+ *  - fork/exec <interp> <script>
+ *  - periodically lstat <interp> and <script> and
+ *      if mtime is newer than our start time
+ *      kill process group (at second iteration)
  */
 
 #include "common.h"
 #include <sys/utsname.h>
 #include <sys/socket.h>
 #include <sys/un.h>
+#include <sys/file.h>
 #include <unistd.h>
+#include <fcntl.h>
 #include <pwd.h>
 #include <err.h>
-
+#include <time.h>
+#include <signal.h>
+#include <sys/wait.h>
+       
 #include <nettle/sha.h>
 
 #include "myopt.h"
 #define MINHEXHASH 33
 
 static const char *interp, *ident;
-static int numservers, debugmode;
+static int numservers=4, debugmode, stage2;
+static int check_interval=300;
 
 void diee(const char *m) {
   err(127, "error: %s failed", m);
@@ -159,11 +187,14 @@ static const struct cmdinfo cmdinfos[]= {
   { 0, 'g',   1, .sassignto= &ident           },
   { 0, 'M',   1, .call=of_iassign, .iassignto= &numservers      },
   { 0, 'D',   0, .iassignto= &debugmode, .arg= 1 },
+  { 0, 'c',   1, .call=of_iassign, .iassignto= &check_interval  },
+  { "--stage2",0, 0, .iassignto= &stage2, .arg= 1 },
   { 0 }
 };
 
 static uid_t us;
 static const char *run_base, *script, *socket_path;
+static int stderr_copy;
 
 static bool find_run_base_var_run(void) {
   struct stat stab;
@@ -307,24 +338,24 @@ static void find_socket_path(void) {
             ((tvp)->tv_sec cmp (uvp)->tv_sec))
 #endif /*timespeccmp*/
 
+
+
 static bool stab_isnewer(const struct stat *a, const struct stat *b) {
-  return 0;
+#ifdef st_mtime
+  return timespeccmp(&a->st_mtim, &b->st_mtim, >);
+#else
+  return a->st_mtime > &b->st_mtime;
+#endif
 }
 
-static bool check_garbage(void) {
-  struct stat sock_stab, script_stab;
+static bool check_garbage_vs(const struct stat *started) {
+  struct stat script_stab;
+  struct stat sock_stab;
   int r;
 
   r = lstat(script, &script_stab);
   if (r) err(127,"lstat script (%s)",script);
 
-  r = lstat(socket_path, &sock_stab);
-  if (r) {
-    if ((errno == ENOENT))
-      return 0; /* well, no garbage then */
-    err(127,"stat socket (%s)",socket_path);
-  }
-
   if (stab_isnewer(&script_stab, &sock_stab))
     return 1;
 
@@ -339,6 +370,53 @@ static bool check_garbage(void) {
   return 0;
 }
 
+static bool check_garbage(void) {
+  struct stat sock_stab;
+  int r;
+
+  r = lstat(socket_path, &sock_stab);
+  if (r) {
+    if ((errno == ENOENT))
+      return 0; /* well, no garbage then */
+    err(127,"stat socket (%s)",socket_path);
+  }
+
+  return check_garbage_vs(&sock_stab);
+}
+
+static void tidy_garbage(void) {
+  /* We lock l<ident> and re-check.  The effect of this is that each
+   * stale socket is removed only once.  So unless multiple updates to
+   * the script happen rapidly, we can't be racing with the cgi-fcgi
+   * (which is recreating the socket */
+  int lockfd = -1;
+  int r;
+
+  const char *lock_path = m_asprintf("%s/l%s",run_base,ident);
+
+  lockfd = open(lock_path, O_CREAT|O_RDWR, 0600);
+  if (lockfd<0) err(127,"create lock (%s)", lock_path);
+
+  r = flock(lockfd, LOCK_EX);
+  if (r) err(127,"lock lock (%s)", lock_path);
+
+  if (check_garbage()) {
+    r = unlink(socket_path);
+    if (r) {
+      if (!(errno == ENOENT))
+       err(127,"remove out-of-date socket (%s)", socket_path);
+    }
+  }
+
+  r = close(lockfd);
+  if (r) errx(127,"close lock (%s)", lock_path);
+}
+
+static void make_stderr_copy(void) {
+  stderr_copy = dup(2);
+  if (stderr_copy < 0) err(127,"dup stderr (for copy for stage2)");
+}
+
 static void shbang_opts(const char *const **argv_io,
                        const struct cmdinfo *cmdinfos) {
   myopt(argv_io, cmdinfos);
@@ -347,8 +425,35 @@ static void shbang_opts(const char *const **argv_io,
   if (!interp) errx(127,"need interpreter argument");
 }
 
+/* stage2 predeclarations */
+static void record_baseline_time(void);
+static void become_pgrp(void);
+static void setup_handlers(void);
+static void spawn_script(void);
+static void queue_alarm(void);
+static void await_something(void);
+
 int main(int argc, const char *const *argv) {
-  const char *smashedopt;
+  const char *smashedopt, *us;
+  int r;
+
+  us = argv[0];
+
+  if (argc>=4 && !strcmp(argv[1],"--stage2")) {
+    ++argv;
+    stage2 = 1;
+
+    int stderrfd = atoi(*++argv);
+    r = dup2(stderrfd, 2);
+    assert(r==2);
+
+    r = open("/dev/null",O_WRONLY);
+    if (r<0) err(127,"open /dev/null as stdout");
+    if (r>=3) close(r);
+    else if (r!=1) errx(127,"open /dev/null for stdout gave bad fd %d",r);
+
+    socket_path = *++argv;
+  }
 
   if (argc>=2 &&
       (smashedopt = argv[1]) &&
@@ -387,15 +492,168 @@ int main(int argc, const char *const *argv) {
   if (!script) errx(127,"need script argument");
   if (*argv) errx(127,"too many arguments");
 
-  find_socket_path();
+  if (!stage2) {
+    
+    find_socket_path();
+
+    bool isgarbage = check_garbage();
 
-  check_garbage();
+    if (debugmode) {
+      printf("socket: %s\n",socket_path);
+      printf("interp: %s\n",interp);
+      printf("script: %s\n",script);
+      printf("garbage: %d\n",isgarbage);
+      exit(0);
+    }
+
+    if (isgarbage)
+      tidy_garbage();
+
+    make_stderr_copy();
+
+    execlp("cgi-fcgi",
+          "cgi-fcti", "-connect", socket_path,
+          us, "--stage2",
+          m_asprintf("-c%d", check_interval),
+          m_asprintf("%d", stderr_copy), socket_path,
+          interp, script,
+          (char*)0);
+    err(127,"exec cgi-fcgi");
+    
+  } else { /*stage2*/
+
+    record_baseline_time();
+    become_pgrp();
+    setup_handlers();
+    spawn_script();
+    queue_alarm();
+    await_something();
+    abort();
 
-  if (debugmode) {
-    printf("socket: %s\n",socket_path);
-    printf("interp: %s\n",interp);
-    printf("script: %s\n",script);
   }
+}
 
-  exit(0);
+/* stage2 */
+
+/* It is most convenient to handle the recheck timeout, as well as
+ * child death, in signal handlers.  Our signals all block each other,
+ * and the main program has signals blocked except in sigsuspend, so
+ * we don't need to worry about async-signal-safety, or errno. */
+
+static struct stat baseline_time;
+static pid_t script_child, stage2_pgrp;
+static bool out_of_date;
+
+static void record_baseline_time(void) {
+#ifdef st_mtime
+  int r = clock_gettime(CLOCK_REALTIME, &baseline_time.st_mtim);
+  if (r) err(127,"(stage2) clock_gettime");
+#else
+  baseline_time.st_mtime = time(NULL);
+  if (baseline_time.st_mtime == (time_t)-1) err(127,"(stage2) time()");
+#endif
+}
+
+static void become_pgrp(void) {
+  int r;
+
+  stage2_pgrp = getpid();
+
+  r = setpgid(0,0);
+  if (r) err(127,"(stage2) setpgid");
+}
+
+static void atexit_handler(void) {
+  int r;
+
+  sighandler_t sigr = signal(SIGTERM,SIG_IGN);
+  if (sigr == SIG_ERR) warn("(stage2) signal(SIGTERM,SIG_IGN)");
+
+  r = killpg(stage2_pgrp,SIGTERM);
+  if (r) warn("(stage) killpg failed");
+}
+
+static void alarm_handler(int dummy) {
+  if (out_of_date)
+    /* second timeout */
+    exit(0); /* transfers control to atexit_handler */
+
+  out_of_date = check_garbage_vs(&baseline_time);
+  queue_alarm();
+}
+
+static void child_handler(int dummy) {
+  for (;;) {
+    int status;
+    pid_t got = waitpid(-1, &status, WNOHANG);
+    if (got == (pid_t)-1) err(127,"(stage2) waitpid");
+    if (got != script_child) {
+      warn("(stage2) waitpid got status %d for unknown child [%lu]",
+          status, (unsigned long)got);
+      continue;
+    }
+    if (WIFEXITED(status)) {
+      int v = WEXITSTATUS(status);
+      if (v) warn("program failed with error exit status %d", v);
+      exit(status);
+    } else if (WIFSIGNALED(status)) {
+      int s = WTERMSIG(status);
+      err(status & 0xff, "program died due to fatal signal %s%s",
+         strsignal(s), WCOREDUMP(status) ? " (core dumped" : "");
+    } else {
+      err(127, "program failed with crazy wait status %#x", status);
+    }
+  }
+  exit(127);
+}
+
+static void setup_handlers(void) {
+  struct sigaction sa;
+  int r;
+
+  r = atexit(atexit_handler);
+  if (r) err(127,"(stage2) atexit");
+
+  sigemptyset(&sa.sa_mask);
+  sigaddset(&sa.sa_mask, SIGALRM);
+  sigaddset(&sa.sa_mask, SIGCHLD);
+  sa.sa_flags = 0;
+
+  r = sigprocmask(SIG_BLOCK, &sa.sa_mask, 0);
+  if (r) err(127,"(stage2) sigprocmask(SIG_BLOCK,)");
+
+  sa.sa_handler = alarm_handler;
+  r = sigaction(SIGALRM, &sa, 0);
+  if (r) err(127,"(stage2) sigaction SIGALRM");
+
+  sa.sa_flags |= SA_NOCLDSTOP;
+  sa.sa_handler = child_handler;
+  r = sigaction(SIGCHLD, &sa, 0);
+  if (r) err(127,"(stage2) sigaction SIGCHLD");
+}
+
+static void spawn_script(void) {
+  script_child = fork();
+  if (script_child == (pid_t)-1) err(127,"(stage2) fork");
+  if (!script_child) {
+    execlp(interp,
+          interp, script, (char*)0);
+    err(127,"(stage2) exec interpreter (`%s', for `%s')\n",interp,script);
+  }
+}
+
+static void queue_alarm(void) {
+  alarm(check_interval);
+}
+
+static void await_something(void) {
+  int r;
+  sigset_t mask;
+  sigemptyset(&mask);
+
+  for (;;) {
+    r = sigsuspend(&mask);
+    assert(r==-1);
+    if (r != EINTR) err(127,"(stage2) sigsuspend");
+  }
 }