chiark / gitweb /
numbered-alias-sheet: introduce canonpaper, nfc
[evade-mail-usrlocal.git] / massage-lemmas
1 #!/usr/bin/perl -w
2 use strict;
3
4 our %allow_class =
5     ((map { $_=>1 } qw(v n a interjection conj pron prep
6                       modal infinitive-marker)),
7      (map { $_=>0 } qw(det adv)));
8
9 our %words;
10
11 while (<>) {
12     # frequency sort rank, frequency, word, word-class
13     m/^\d+ (\d+) (\S+) (\S+)$/ or die "$_ ?";
14     my ($freq,$word,$class) = ($1,$2,$3);
15     my $allow = $allow_class{$class};
16     if (!defined $allow) {
17         warn "$class ?";
18         $allow = $allow_class{$class} = 1;
19     }
20     next unless $allow;
21     $words{$word} += $freq;
22 }
23
24 our @words = sort { $words{$b} <=> $words{$a} } keys %words;
25 print $_,"\n" or die $! foreach @words;