chiark / gitweb /
wordlist generator
[d.git] / service
diff --git a/service b/service
index aefff42ea2e47c720d2aa0373c5091cf23ba8174..5b997bd1bf15fcf280ffd39fbe31d2a132824fe3 100755 (executable)
--- a/service
+++ b/service
@@ -2,12 +2,19 @@
 our $usage1 = <<'END';
 usage: ../fyvzl [<options>] <database-file> <action> <arg>...
 options
-  -l<minrandlength>   (for create/choose, minimum randlength)
   -m<maxperuser>
   -d<dom>
   -q<qualdom>
   -C     (show comments in output)
   -h     (display help)
+options for alphanum generation
+  -l<minrandlength>   (for create/choose alphanum, minimum randlength)
+options for wordlist generation
+  -Wf<wordlist>       (switches generation method to wordlist)
+  -WF<min-word-list-len>             } (for wordlist generation
+  -Wl<min-num-words>                 }   method only)
+  -WL<min-max-mean-word-len>         }
+  -Wd<permitted-delimiter-chars>     } (first char is default; comma = none)
 END
 our $usage2 = <<'END';
 actions
@@ -29,7 +36,13 @@ default generation method is alphanum
 END
 our %usage_genopts = (
 'alphanum' => <<END,
-  -l<randlength>     (number of letters+digits)
+  -l<randlength>      (number of letters+digits)
+END
+'wordlist' => <<END,
+  -l<num-words>       (number of words in output)
+  -d<delim-char>      (delimiter character, "," means none)
+  -F<max-dict-size>   (pick from up to <dictsize> different words, 0 means all)
+  -m<max-addr-len>    (restrict total length of generated addrs, 0 = unlimited)
 END
 );
 #/
@@ -39,10 +52,6 @@ use strict;
 use DBI;
 use POSIX;
 
-our $minrandlength = 6;
-our $randlength;
-our $maxrandlength = 50;
-
 our $maxperuser = 10000;
 our $qualdom;
 our $dbh;
@@ -52,6 +61,27 @@ our $priv;
 our $showcomment;
 our $genmethod = 'alphanum';
 
+# for alphanum
+#   options
+our $minrandlength = 6;
+our $maxrandlength = 100;
+#   genopts
+our $randlength;
+
+# for wordlist
+#   options
+our $wordlist;
+our $minwordlistlen = 1000;
+our $minmaxmeanwordlen = 6.2;
+our $minnumwords = 3;
+our $maxnumwords = 10;
+our $worddelims = '.-_,';
+#   genopts
+our $numwords;
+our $worddelim;
+our $wordlistlen = 3000;
+our $maxdomainlen = 40;
+
 sub nextarg () {
     die "too few arguments\n" unless @ARGV;
     my $v = shift @ARGV;
@@ -204,7 +234,7 @@ sub prepare_create () {
 sub genopt_alphanum {
     local ($_) = @_;
     if (m/^-l(\d+)$/) {
-       $randlength = $1;
+       $randlength = 0+$1;
        die "length out of range $minrandlength..$maxrandlength\n"
            unless ($minrandlength<=$randlength &&
                    $randlength<=$maxrandlength);
@@ -217,6 +247,57 @@ sub gendefaults_alphanum {
     $randlength ||= $minrandlength;
 }
 
+sub gen_local_part_wordlist {
+    my @cmd = (qw(random-word), "-f$wordlist","-n$numwords");
+    push @cmd, "-F$wordlistlen" if $wordlistlen < 1e9;
+    for (;;) {
+       open P, "-|", @cmd or die $!;
+       my $s = <P>;
+       $!=0; $?=0; close P or die "$? $!";
+       chomp $s or die;
+       $s =~ s/ /$worddelim/g;
+       my $efflen = length $s;
+       $efflen += 1 + length($dom) if defined $dom;
+       return $s if $efflen <= $maxdomainlen;
+    }
+}
+
+sub genopt_wordlist {
+    local ($_) = @_;
+    if (m/^-l(\d+)$/) {
+       $numwords = $1;
+       die "length out of range $minnumwords..$maxnumwords\n"
+           unless ($minnumwords<=$numwords &&
+                   $numwords<=$maxnumwords);
+    } elsif (m/^-d(.)$/) {
+       $worddelim = $1;
+       die "word delimiter must be one of \`$worddelims'\n"
+           unless grep { $worddelim eq $_ } split //, $worddelims;
+    } elsif (m/^-F(\d+)$/) {
+       $wordlistlen = $1 ? 0+$1 : 1e9;
+       die "requested dictionary size too small\n"
+           unless $wordlistlen >= $minwordlistlen;
+    } elsif (m/^-m(\d+)$/) {
+       $maxdomainlen = $1 ? 0+$1 : 1e9;
+    } else {
+       die "unknown wordlist generation option\n";
+    }
+}
+
+sub gendefaults_wordlist {
+    $numwords ||= $minnumwords;
+    $worddelim = substr($worddelims,0,1) unless defined $worddelim;
+    $worddelim = '' if $worddelim eq ',';
+    my $expectedmindomlen =
+       (defined $dom ? (1 + length $dom) : 0) # @domain.name
+       + $minmaxmeanwordlen * $numwords # some words
+       + (length $worddelim) * ($numwords-1); # delimiters
+    die "assuming lowest reasonable mean word length $minmaxmeanwordlen".
+       " addrs would be $expectedmindomlen long but".
+       " your maximum length specified $maxdomainlen\n"
+       if $expectedmindomlen > $maxdomainlen;
+}
+
 sub genopts {
     while (@ARGV && $ARGV[0] =~ m/^-/) {
        my $arg = shift @ARGV;
@@ -407,11 +488,20 @@ while (@ARGV) {
            $dom = $1;
        } elsif (s/^-q(\S+)$//) {
            $qualdom = $1;
+       } elsif (s/^-Wf(\S+)$//) {
+           $wordlist = $1;
+           $genmethod = 'wordlist';
+       } elsif (s/^-WF(\d+)$//) {
+           $minwordlistlen = $1;
+       } elsif (s/^-Wl(\d+)$//) {
+           $minnumwords = $1;
+       } elsif (s/^-WL([0-9.]+)$//) {
+           $minmaxmeanwordlen = $1;
        } elsif (s/^-C/-/) {
            $showcomment = 1;
        } elsif (s/^-h/-/) {
            print $usage1.$usage2.$usage3 or die $!;
-           foreach my $meth (qw(alphanum)) {
+           foreach my $meth (qw(alphanum wordlist)) {
                print "genopts for $meth generation method\n" or die $!;
                print $usage_genopts{$meth} or die $!;
            }