chiark / gitweb /
git-cache-proxy: wip housekeeping, before introduce new locking protocol
[chiark-utils.git] / scripts / git-cache-proxy
old mode 100644 (file)
new mode 100755 (executable)
index d8ef34d..12a4f52
@@ -1,10 +1,37 @@
-#!/usr/bin/perl
+#!/usr/bin/perl -w
 #
 # git caching proxy
-#
+
 # usage: run it on some port, and then clone or fetch
-#  git://<realhost>:<realport>/<real-git-url>
+#  "git://<realhost>:<realport>/<real-git-url>[ <options>]"
 # where <real-git-url> is http://<host>/... or git://<host>/...
+# and <options> is zero or more (whitespace-separated) of
+#    [<some-option>]      will be ignored if not recognised
+#    {<some-option>}      error if not recognised
+# options currently known:
+#    fetch=must           fail if the fetch/clone from upstream fails
+#    fetch=no             just use what is in the cache
+#    fetch=try            use what is in the cache if the fetch/clone fails
+#    timeout=<seconds>    length of time to allow for fetch/clone
+
+# git-cache-proxy is free software; you can redistribute it and/or
+# modify them under the terms of the GNU General Public License as
+# published by the Free Software Foundation; either version 3, or (at
+# your option) any later version.
+# 
+# git-cache-proxy is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+# General Public License for more details.
+# 
+# You should have received a copy of the GNU General Public License along
+# with this program; if not, consult the Free Software Foundation's
+# website at www.fsf.org, or the GNU Project website at www.gnu.org.
+# 
+# (Some code taken from userv-utils's git-daemon.in and git-service.in
+# which were written by Tony Finch <dot@dotat.at> and subsequently
+# heavily modified by Ian Jackson <ijackson@chiark.greenend.org.uk>
+# and were released under CC0 1.0.  The whole program is now GPLv3+.)
 
 use strict;
 use warnings;
@@ -12,11 +39,18 @@ use warnings;
 use POSIX;
 use Socket;
 use Sys::Syslog;
+use Fcntl qw(:flock SEEK_SET);
+use File::Path qw(remove_tree);
 
 our $us = 'git-cache-proxy';
+
+#---------- error handling and logging ----------
+
+# This is a bit fiddly, because we want to catch errors sent to stderr
+# and dump them to syslog if we can, but only if we are running as an
+# inetd service.
+
 our $log; # filehandle (ref), or "1" meaning syslog
-our $fetchtimeout = 1800;
-our $maxfetchtimeout = 3600;
 
 sub ntoa {
     my $sockaddr = shift;
@@ -26,8 +60,8 @@ sub ntoa {
     return ("[$addr]:$port",$addr,$port);
 }
 
-our ($client,$client_addr,$client_port) = ntoa getpeername STDIN;
-our ($server,$server_addr,$server_port) = ntoa getsockname STDIN;
+our ($client) = ntoa getpeername STDIN;
+our ($server) = ntoa getsockname STDIN;
 
 sub ensurelog () {
     return if $log;
@@ -35,8 +69,12 @@ sub ensurelog () {
     $log = 1;
 }
 
-sub log ($) {
+sub logm ($$) {
     my ($pri, $msg) = @_;
+    if ($client eq '(local)') {
+       print STDERR "$us: $pri: $msg\n" or die $!;
+       exit 1;
+    }
     ensurelog();
     my $mainmsg = sprintf "%s-%s: %s", $server, $client, $msg;
     if (ref $log) {
@@ -51,22 +89,48 @@ sub log ($) {
     }
 }
 
+if ($client ne '(local)') {
+    open STDERR, ">/dev/null" or exit 255;
+    open TEMPERR, "+>", undef or exit 255;
+    open STDERR, ">&TEMPERR" or exit 255;
+}
+
+END {
+    if ($client ne '(local)') {
+       if ($?) { logm 'crit', "crashing ($?)"; }
+       seek TEMPERR, 0, SEEK_SET;
+       while (<TEMPERR>) {
+           chomp;
+           logm 'crit', $_;
+       }
+    }
+    exit $?;
+}
+
 sub fail ($) {
     my ($msg) = @_;
-    log 'error', $msg;
-    exit 1;
+    logm 'err', $msg;
+    exit 0;
 }
 
 sub gitfail ($) {
     my ($msg) = @_;
-    log 'warning', $msg;
+    close LOCK;
+    alarm 60;
+    logm 'notice', $msg;
     my $gitmsg = "ERR $us: $msg";
     $gitmsg = substr($gitmsg,0,65535); # just in case
     printf "%04x%s", length($gitmsg)+4, $gitmsg;
     flush STDOUT;
-    exit 1;
+    exit 0;
 }
 
+#---------- argument parsing ----------
+
+our $housekeepingthreshdays = 1;
+our $treeexpiredays = 21;
+our $fetchtimeout = 1800;
+our $maxfetchtimeout = 3600;
 our $cachedir = '/var/cache/git-cache-proxy';
 
 for (;;) {
@@ -91,140 +155,248 @@ for (;;) {
 
 !@ARGV or fail "bad usage: no non-option arguments permitted";
 
-chdir $cachedir or fail "chdir $cachedir: $!";
+#---------- main program ----------
 
-our ($service,$specpath,$spechost);
+chdir $cachedir or fail "chdir $cachedir: $!";
 
-$SIG{ALRM} = sub { fail "timeout" };
-alarm 30;
+our ($service,$specpath,$spechost,$subdir);
+our ($tmpd,$gitd,$lock);
+our ($fetch,$url);
 
 sub xread {
     my $length = shift;
     my $buffer = "";
     while ($length > length $buffer) {
         my $ret = sysread STDIN, $buffer, $length, length $buffer;
-        fail "Expected $length bytes, got ".length $buffer
+        fail "expected $length bytes, got ".length $buffer
                             if defined $ret and $ret == 0;
         fail "read: $!" if not defined $ret and $! != EINTR and $! != EAGAIN;
     }
     return $buffer;
 }
-my $hex_len = xread 4;
-fail "Bad hex in packet length" unless $hex_len =~ m|^[0-9a-fA-F]{4}$|;
-my $line = xread -4 + hex $hex_len;
-unless (($service,$specpath,$spechost) = $line =~
-        m|^(git-[a-z-]+) /*([!-~]+)\0host=([!-~]+)\0$|) {
-    $line =~ s|[^ -~]+| |g;
-    fail "Could not parse \"$line\""
-}
 
-alarm 0;
-
-$service eq 'git-upload-pack'
-    or gitfail "unknown/unsupported service `$service'";
-
-my $fetch = 2; # 0:don't; 1:try; 2:force
-my $url = $specpath;
-
-while ($url =~ s#^(\[)([^][{}])+\]## ||
-       $url =~ s#^(\{)([^][{}])+\}##) {
-    $_ = $2;
-    my $must = $1 eq '{';
-    if (m/^relaxed$/) {
-       $fetch = 1;
-    } elsif (m/^nofetch$/) {
-       $fetch = 0;
-    } elsif (m/^timeout=(\d+)$/) {
-       $fetchtimeout = $1 <= $maxfetchtimeout ? $1 : $maxfetchtimeout;
-    } elsif ($must) {
-       gitfail "unknown/unsupported option `$_'";
-    }
+sub servinfo ($) {
+    my ($msg) = @_;
+    logm 'info', "service `$specpath': $msg";
 }
 
-$url =~ m{^(?:https?|git)://[-.0-9a-z]+/}
-    or gitfail "unknown/unsupported url scheme or format `$url'";
-
-our $subdir = $url;
-$subdir =~ s|\\|\\\\|g;
-$subdir =~ s|,|\\,|g;
-$subdir =~ s|/|,|g;
-
-log 'info', "$specpath locking";
-
-my $tmpd= "$subdir\\.tmp";
-my $gitd= "$subdir\\.git";
-my $lock = "$subdir\\.lock";
+sub readcommand () {
+    $SIG{ALRM} = sub { fail "timeout" };
+    alarm 30;
+
+    my $hex_len = xread 4;
+    fail "Bad hex in packet length" unless $hex_len =~ m|^[0-9a-fA-F]{4}$|;
+    my $line = xread -4 + hex $hex_len;
+    unless (($service,$specpath,$spechost) = $line =~
+           m|^(git-[a-z-]+) /*([!-~ ]+)\0host=([!-~]+)\0$|) {
+       $line =~ s|[^ -~]+| |g;
+       gitfail "unknown/unsupported instruction `$line'"
+    }
 
-open LOCK, "+>", $lock or fail "open/create $lock: $!";
-flock LOCK, LOCK_EX or fail "lock $lock: $!";
+    alarm 0;
+
+    $service eq 'git-upload-pack'
+       or gitfail "unknown/unsupported service `$service'";
+
+    $fetch = 2; # 0:don't; 1:try; 2:force
+    $url = $specpath;
+
+    while ($url =~ s#\s+(\[)([^][{}]+)\]$## ||
+          $url =~ s#\s+(\{)([^][{}]+)\}$##) {
+       $_ = $2;
+       my $must = $1 eq '{';
+       if (m/^fetch=try$/) {
+           $fetch = 1;
+       } elsif (m/^fetch=no$/) {
+           $fetch = 0;
+       } elsif (m/^fetch=must$/) {
+           $fetch = 2; # the default
+       } elsif (m/^timeout=(\d+)$/) {
+           $fetchtimeout = $1 <= $maxfetchtimeout ? $1 : $maxfetchtimeout;
+       } elsif ($must) {
+           gitfail "unknown/unsupported option `$_'";
+       }
+    }
 
-$exists = stat $gitd;
-$exists or $!==ENOENT or FAIL "stat $gitd: $!";
+    $url =~ m{^(?:https?|git)://[-.0-9a-z]+/}
+        or gitfail "unknown/unsupported url scheme or format `$url'";
 
-if ($fetch) {
+    $subdir = $url;
+    $subdir =~ s|\\|\\\\|g;
+    $subdir =~ s|,|\\,|g;
+    $subdir =~ s|/|,|g;
 
-    our @cmd;
+    $tmpd= "$subdir\\.tmp";
+    $gitd= "$subdir\\.git";
+    $lock = "$subdir\\.lock";
 
-    if (!$exists) {
-       system qw(rm -rf --), $tmpd;
-       @cmd = qw(git clone -q --mirror), $url;
-       log 'info', "$specpath cloning";
-    } else {
-       @cmd = qw(git remote update --prune), $url;
-       log 'info', "$specpath fetching";
-    }
-
-    my $child = open P, "-|";
-    defined $child or fail "fork: $!";
-    if (!$child) {
-       if ($exists) {
-           chdir $gitd or fail "chdir $gitd: $!";
-       }
-       setpgrp or fail "setpgrp: $!";
-       open STDERR, ">&STDOUT" or fail "redirect stderr: $!";
-       exec @cmd or fail "exec $cmd[0]: $!";
-    }
+    servinfo "locking";
+}
 
-    local $SIG{ALARM} = sub {
-       kill 9, -$child;
-       
-       } or log 'crit', 
-    };
+sub clonefetch () {
+    open LOCK, "+>", $lock or fail "open/create $lock: $!";
+    flock LOCK, LOCK_EX or fail "lock exclusive $lock: $!";
 
-    alarm($fetchtimeout);
-    
+    my $exists = stat $gitd;
+    $exists or $!==ENOENT or fail "stat $gitd: $!";
 
-printf STDERR "%s [$$] %s %s\n",
-    strftime("%Y-%m-%d %H:%M:%S %Z", localtime), $server, $client;
+    our $fetchfail = '';
 
+    if ($fetch) {
 
+       our @cmd;
 
+       if (!$exists) {
+           system qw(rm -rf --), $tmpd;
+           @cmd = (qw(git clone -q --mirror), $url, $tmpd);
+           servinfo "cloning";
+       } else {
+           @cmd = (qw(git remote update --prune));
+           servinfo "fetching";
+       }
+       my $cmd = "@cmd[0..1]";
+
+       my $child = open FETCHERR, "-|";
+       defined $child or fail "fork: $!";
+       if (!$child) {
+           if ($exists) {
+               chdir $gitd or fail "chdir $gitd: $!";
+           }
+           setpgrp or fail "setpgrp: $!";
+           open STDERR, ">&STDOUT" or fail "redirect stderr: $!";
+           exec @cmd or fail "exec $cmd[0]: $!";
+       }
 
+       my $fetcherr = '';
+       my $timedout = 0;
+       {
+           local $SIG{ALRM} = sub {
+               servinfo "fetch/clone timeout";
+               $timedout=1; kill 9, -$child;
+           };
+           alarm($fetchtimeout);
+           $!=0; { local $/=undef; $fetcherr = <FETCHERR>; }
+           !FETCHERR->error or fail "read pipe from fetch/clone: $!";
+           alarm(10);
+       }
 
-$service eq '
+       kill -9, $child or fail "kill fetch/clone: $!";
+       $!=0; $?=0; if (!close FETCHERR) {
+           fail "reap fetch/clone: $!" if $!;
+           my $fetchfail =
+               !($? & 255) ? "$cmd died with error exit code ".($? >> 8) :
+               $? != 9 ? "$cmd died due to fatal signa, status $?" :
+               $timedout ? "$cmd timed out (${fetchtimeout}s)" :
+               "$cmd died due to unexpected SIGKILL";
+           if (length $fetcherr) {
+               $fetchfail .= "\n$fetcherr";
+               $fetchfail =~ s/\n$//;
+               $fetchfail =~ s{\n}{ // }g;
+           }
+           if ($fetch >= 2) {
+               gitfail $fetchfail;
+           } else {
+               servinfo "fetch/clone failed: $fetchfail";
+           }
+       }
 
-@@READ_URLMAP@@
+       if (!$exists) {
+           rename $tmpd, $gitd or fail "rename fresh $tmpd to $gitd: $!";
+           $exists = 1;
+       }
+    } else {
+       $fetchfail = 'not attempted';
+    }
 
-fail "No global mapping for $uri" unless defined $serve_user;
+    if (!$exists) {
+       gitfail "no cached data, and not cloned: $fetchfail";
+    }
 
-my ($hn,$ha,$at,$naddrs,@addrs) = gethostbyname $spechost;
-fail "hostname/address mismatch ($spechost $server_addr)" unless grep {
-    $server_addr eq inet_ntoa $_
-    } @addrs;
+    servinfo "sharing";
+    flock LOCK, LOCK_UN or fail "unlock $lock: $!";
+    flock LOCK, LOCK_SH or fail "lock shared $lock: $!";
+    # actually, just relocking as shared would have the same semantics
+    # but it's best to be explicit
 
-our @opts;
+    if (chdir $gitd) {
+       return 1;
+    }
+    $!==ENOENT or fail "chdir $gitd: $!";
 
-push @opts, "-D$_=${$::{$_}}"
-    for qw(service specpath spechost
-          client client_addr client_port
-          server server_addr server_port);
+    # Well, err, someone must have taken the lock in between
+    # and garbage collected it.  How annoying.
+    return 0;
+}
 
-fail "no user $serve_user" unless getpwnam($serve_user);
+sub housekeeping () {
+    foreach $lock (<[a-z]*\\.lock>) {
+       if (!lstat $lock) {
+           $! == ENOENT or fail "housekeeping: $lock: stat: $!";
+           next;
+       }
+       if (-M _ <= $treeexpiredays) {
+           logm 'debug', "housekeeping: $lock: not too old";
+           next;
+       }
+       my $subdir = $lock;  $subdir =~ s/\\.lock$//;
+       my $ok = 1;
+       foreach my $suffix (qw(tmp git)) {
+           my $dir = "${subdir}\\.$suffix";
+           my $errs;
+           remove_tree($dir, { safe=>1, error=>\$errs });
+           $ok = 0 if @$errs;
+           foreach my $err (@$errs) {
+               logm 'warning', "problem deleting: $err[0]: $err[1]";
+           }
+       }
+       if ($ok) {
+           
+
+sub housekeepingcheck ($$) {
+    my ($dofork, $force) = @_;
+    open HLOCK, "+>", "Housekeeping.lock" 
+       or fail "open/create Housekeeping.lock: $!";
+    if (!$force) {
+       if (flock HLOCK, LOCK_EX|LOCK_NB) {
+           logm 'debug', "housekeeping lock taken, not running";
+           close HLOCK;
+           return 0;
+       }
+    }
+    if ($force) {
+       logm 'info', "housekeeping forced";
+    } elsif (!lstat "Housekeeping.stamp") {
+       $! == ENOENT or fail "stat housekeeping.stamp: $!";
+       logm 'info', "housekeeping stamp missing, will run";
+    } elsif (-M _ <= $housekeepingthreshdays) {
+       logm 'debug', "housekeeping done recently";
+       close HLOCK;
+       return 0;
+    }
+    if ($dofork) {
+       my $child = fork;
+       defined $child or fail "fork for housekeeping: $!";
+       if (!$child) {
+           housekeeping();
+           exit 0;
+       }
+       return 1;
+    } else {
+       housekeeping();
+       return 1;
+    }
+}
 
-syslog 'notice', "$client $service $uri $serve_user";
+sub runcommand () {
+    servinfo "servicing";
+    exec qw(git-upload-pack --strict --timeout=1000 .)
+       or fail "exec git-upload-pack: $!";
+}
 
-my @cmd = ('userv', '-t300', @opts, $serve_user, $service);
-no warnings; # suppress errors to stderr
-exec @cmd or fail "exec userv: $!";
+sub daemonservice () {
+    readcommand();
+    while (!clonefetch()) { }
+    runcommand();
+}
 
-# end
+daemonservice();