chiark / gitweb /
Ignore size of connected component when assigning labels (some arches have no purchas...
[ypp-sc-tools.db-live.git] / yarrg / README.files
1 Files we use and update
2 -----------------------
3
4 The program reads and writes the following files:
5
6  * _pages.ppm.gz
7
8    Contains one or more images (as raw ppms, end-to-end) which are the
9    screenshots taken in the last run.  This is (over)written whenever
10    we take screenshots from the YPP client.  You can reprocess an
11    existing set of screenshots with the --same (aka --analyse-only)
12    option; in that case we just read the screenshots file.
13
14    You can specify a different file with --screenshot-file.
15
16    If you want to display the contents of this file, `display' can do
17    it, although you may have to uncompress it first.  Don't try
18    `display vid:_pages.ppm' as this will consume truly stupendous
19    quantities of RAM - it wedged my laptop.
20
21  * _master-newcommods.txt _local-newcommods.txt
22
23    Dictionary of newly introduced commodities.  When a new commodity
24    appears in Puzzle Pirates, the YARRG and PCTB server operators each
25    need to add it to their database for us to be able to upload data
26    about it.
27
28    It can sometimes take a few days to do this.  In the meantime, it
29    is possible to upload partial data - data just omitting that
30    commodity.  This is controlled by these files: they list
31    commodities which should be automatically ignored if the server
32    doesn't know about them.  The master file is downloaded and updated
33    automatically from my server.  You may create the local file
34    yourself.  The format is simple: one commodity per line.
35
36    Unrecognised commodities can also be due to OCR failure so
37    double-check what you're doing before overriding the uploader by
38    telling it to ignore an unrecognised commodity.
39
40  * _master-info*.txt _local-info.txt
41
42    Database of valid commodities and islands/oceans for use when
43    uploading to YARRG.
44
45  * _master-reject.txt _local-reject.txt
46
47    Dictionary of regexps which, when the OCR appears to match, we
48    reject instead.  At the moment this is used to stop us thinking
49    that `Butterfly weed' is `Butterflyweed'.  This happens if the
50    character set dictionary is missing the lowercase `y ' glyph.
51    See README.charset.
52
53  * _master-char*.txt      _local-char*.txt
54    _master-pixmap.txt.gz  _local-pixmap.txt
55
56    Character set and image dictionaries.  For the semantics of the
57    char* files README.charset.  There is not currently any accurate
58    documentation of this dictionary format.
59
60    _master-*.txt contain the centrally defined and approved data.
61    They are downloaded automatically from the SC YARRG server and
62    updated each run.  You can safely delete these files, if everything
63    is online, if you want to fetch a fresh copy.
64
65    _local-*.txt are a local copy of your submissions, so that they
66    will be used by your client pending approval by me.  You can delete
67    this file if you think you may have made a mistake.
68
69    See README.privacy for details of the communications with the SC
70    server about the contents of these dictionaries.
71
72  * _commodmap.tsv
73
74    Map from commodity names to the numbers required by the PCTB
75    server.  This is fetched and updated automatically as necessary.
76    It can safely be deleted as it will then be refetched.
77
78  * _upload-1.html _upload-2.html _upload-3.html
79
80    We HTML-screenscrape the pages from the PCTB upload server.  The
81    actual HTML returned from the upload server is left in these
82    dropping files for debugging etc.
83
84  * _<file>.tmp
85
86    When any of these tools overwrite one of the persistent dictionary
87    files, they temporarily write to _<file>.tmp.  We also use a couple
88    of other temporary files.
89
90 Future versions may have more helpers and more data files.