chiark / gitweb /
wordlist generator
[d.git] / service
diff --git a/service b/service
index 2774f49073ac91c58dd3f2a921e8741554d980ab..5b997bd1bf15fcf280ffd39fbe31d2a132824fe3 100755 (executable)
--- a/service
+++ b/service
@@ -2,12 +2,19 @@
 our $usage1 = <<'END';
 usage: ../fyvzl [<options>] <database-file> <action> <arg>...
 options
-  -l<minrandlength>   (for create/choose, number of letters)
   -m<maxperuser>
   -d<dom>
   -q<qualdom>
   -C     (show comments in output)
   -h     (display help)
+options for alphanum generation
+  -l<minrandlength>   (for create/choose alphanum, minimum randlength)
+options for wordlist generation
+  -Wf<wordlist>       (switches generation method to wordlist)
+  -WF<min-word-list-len>             } (for wordlist generation
+  -Wl<min-num-words>                 }   method only)
+  -WL<min-max-mean-word-len>         }
+  -Wd<permitted-delimiter-chars>     } (first char is default; comma = none)
 END
 our $usage2 = <<'END';
 actions
@@ -25,7 +32,19 @@ privileged actions
   insert-exact <addr> <user> <redirect> <comment>
   donate <addr> <user>
   enable-user|disable-user <user>
+default generation method is alphanum
 END
+our %usage_genopts = (
+'alphanum' => <<END,
+  -l<randlength>      (number of letters+digits)
+END
+'wordlist' => <<END,
+  -l<num-words>       (number of words in output)
+  -d<delim-char>      (delimiter character, "," means none)
+  -F<max-dict-size>   (pick from up to <dictsize> different words, 0 means all)
+  -m<max-addr-len>    (restrict total length of generated addrs, 0 = unlimited)
+END
+);
 #/
 
 use strict;
@@ -33,10 +52,6 @@ use strict;
 use DBI;
 use POSIX;
 
-our $minrandlength = 6;
-our $randlength;
-our $maxrandlength = 50;
-
 our $maxperuser = 10000;
 our $qualdom;
 our $dbh;
@@ -46,6 +61,27 @@ our $priv;
 our $showcomment;
 our $genmethod = 'alphanum';
 
+# for alphanum
+#   options
+our $minrandlength = 6;
+our $maxrandlength = 100;
+#   genopts
+our $randlength;
+
+# for wordlist
+#   options
+our $wordlist;
+our $minwordlistlen = 1000;
+our $minmaxmeanwordlen = 6.2;
+our $minnumwords = 3;
+our $maxnumwords = 10;
+our $worddelims = '.-_,';
+#   genopts
+our $numwords;
+our $worddelim;
+our $wordlistlen = 3000;
+our $maxdomainlen = 40;
+
 sub nextarg () {
     die "too few arguments\n" unless @ARGV;
     my $v = shift @ARGV;
@@ -198,7 +234,7 @@ sub prepare_create () {
 sub genopt_alphanum {
     local ($_) = @_;
     if (m/^-l(\d+)$/) {
-       $randlength = $1;
+       $randlength = 0+$1;
        die "length out of range $minrandlength..$maxrandlength\n"
            unless ($minrandlength<=$randlength &&
                    $randlength<=$maxrandlength);
@@ -211,6 +247,57 @@ sub gendefaults_alphanum {
     $randlength ||= $minrandlength;
 }
 
+sub gen_local_part_wordlist {
+    my @cmd = (qw(random-word), "-f$wordlist","-n$numwords");
+    push @cmd, "-F$wordlistlen" if $wordlistlen < 1e9;
+    for (;;) {
+       open P, "-|", @cmd or die $!;
+       my $s = <P>;
+       $!=0; $?=0; close P or die "$? $!";
+       chomp $s or die;
+       $s =~ s/ /$worddelim/g;
+       my $efflen = length $s;
+       $efflen += 1 + length($dom) if defined $dom;
+       return $s if $efflen <= $maxdomainlen;
+    }
+}
+
+sub genopt_wordlist {
+    local ($_) = @_;
+    if (m/^-l(\d+)$/) {
+       $numwords = $1;
+       die "length out of range $minnumwords..$maxnumwords\n"
+           unless ($minnumwords<=$numwords &&
+                   $numwords<=$maxnumwords);
+    } elsif (m/^-d(.)$/) {
+       $worddelim = $1;
+       die "word delimiter must be one of \`$worddelims'\n"
+           unless grep { $worddelim eq $_ } split //, $worddelims;
+    } elsif (m/^-F(\d+)$/) {
+       $wordlistlen = $1 ? 0+$1 : 1e9;
+       die "requested dictionary size too small\n"
+           unless $wordlistlen >= $minwordlistlen;
+    } elsif (m/^-m(\d+)$/) {
+       $maxdomainlen = $1 ? 0+$1 : 1e9;
+    } else {
+       die "unknown wordlist generation option\n";
+    }
+}
+
+sub gendefaults_wordlist {
+    $numwords ||= $minnumwords;
+    $worddelim = substr($worddelims,0,1) unless defined $worddelim;
+    $worddelim = '' if $worddelim eq ',';
+    my $expectedmindomlen =
+       (defined $dom ? (1 + length $dom) : 0) # @domain.name
+       + $minmaxmeanwordlen * $numwords # some words
+       + (length $worddelim) * ($numwords-1); # delimiters
+    die "assuming lowest reasonable mean word length $minmaxmeanwordlen".
+       " addrs would be $expectedmindomlen long but".
+       " your maximum length specified $maxdomainlen\n"
+       if $expectedmindomlen > $maxdomainlen;
+}
+
 sub genopts {
     while (@ARGV && $ARGV[0] =~ m/^-/) {
        my $arg = shift @ARGV;
@@ -383,6 +470,8 @@ sub action_disable_user {
 
 sub action_list_actions {
     print $usage2 or die $!;
+    print "genopts\n" or die $!;
+    print $usage_genopts{$genmethod} or die $!;
 }
 
 while (@ARGV) {
@@ -399,10 +488,23 @@ while (@ARGV) {
            $dom = $1;
        } elsif (s/^-q(\S+)$//) {
            $qualdom = $1;
+       } elsif (s/^-Wf(\S+)$//) {
+           $wordlist = $1;
+           $genmethod = 'wordlist';
+       } elsif (s/^-WF(\d+)$//) {
+           $minwordlistlen = $1;
+       } elsif (s/^-Wl(\d+)$//) {
+           $minnumwords = $1;
+       } elsif (s/^-WL([0-9.]+)$//) {
+           $minmaxmeanwordlen = $1;
        } elsif (s/^-C/-/) {
            $showcomment = 1;
        } elsif (s/^-h/-/) {
            print $usage1.$usage2.$usage3 or die $!;
+           foreach my $meth (qw(alphanum wordlist)) {
+               print "genopts for $meth generation method\n" or die $!;
+               print $usage_genopts{$meth} or die $!;
+           }
            exit 0;
        } else {
            die "unknown option \`$_'\n";