chiark / gitweb /
OCR rejection infrastructure
[ypp-sc-tools.db-test.git] / pctb / README
index e9f4f097b06adb1e6fe73a9c4a5a5b34766170a7..2a085b2011c9d0938e5ee37cb19fd9ed6420625c 100644 (file)
@@ -4,10 +4,12 @@ Overview
 This tool can:
   - screenscrape the commodities trading screen
   - produce the results as a tab separated values file
 This tool can:
   - screenscrape the commodities trading screen
   - produce the results as a tab separated values file
-  - **TODO** upload the results to PCTB
+  - upload the results to PCTB
 
 To run it, change to this directory, type `make', and then:
   ./ypp-commodities --tsv >commods.tsv
 
 To run it, change to this directory, type `make', and then:
   ./ypp-commodities --tsv >commods.tsv
+or
+  ./ypp-commodities --upload
 
 While it is capturing the screenshots, do not move the mouse or use
 the keyboard.  Keyboard focus must stay in the YPP client window.
 
 While it is capturing the screenshots, do not move the mouse or use
 the keyboard.  Keyboard focus must stay in the YPP client window.
@@ -30,6 +32,7 @@ Options to vary the processing:
   --screenshot-file F   Store or read screenshots in F rather than #pages#.pnm
   --window-id ID        Specified X window is the YPP client - do not search
   --edit-charset        Enable character set editing.  See README.dictionary.
   --screenshot-file F   Store or read screenshots in F rather than #pages#.pnm
   --window-id ID        Specified X window is the YPP client - do not search
   --edit-charset        Enable character set editing.  See README.dictionary.
+  --no-edit-charset     Do not edit charset even if #local-char*#.txt exists.
   --find-island         Find and print the ocean and island.  Suppresses OCR
                          and output unless used with result processing option.
   --test-servers        Set default servers to be the test servers, not
   --find-island         Find and print the ocean and island.  Suppresses OCR
                          and output unless used with result processing option.
   --test-servers        Set default servers to be the test servers, not
@@ -75,6 +78,32 @@ The program reads and writes the following files:
    it.  Don't try `display vid:#pages#.pnm' as this will consume
    truly stupendous quantities of RAM - it wedged my laptop.
 
    it.  Don't try `display vid:#pages#.pnm' as this will consume
    truly stupendous quantities of RAM - it wedged my laptop.
 
+ * #master-newcommods#.txt #local-newcommods#.txt
+
+   Dictionary of newly introduced commodities.  When a new commodity
+   appears in Puzzle Pirates, the PCTB server operators need to add it
+   to their database for us to be able to upload data about it.
+
+   It can sometimes take a few days to do this.  In the meantime, it
+   is possible to upload partial data - data just omitting that
+   commodity.  This is controlled by these files: they list
+   commodities which should be automatically ignored if the PCTB
+   server doesn't know about them.  The master file is downloaded and
+   updated automatically from my server.  You may create the local
+   file yourself.  The format is simple: one commodity per line.
+
+   Unrecognised commodities can also be due to OCR failure so
+   double-check what you're doing before overriding the uploader by
+   telling it to ignore an unrecognised commodity.
+
+ * #master-reject#.txt #local-reject#.txt
+
+   Dictionary of regexps which, when the OCR appears to match, we
+   reject instead.  At the moment this is used to stop us thinking
+   that `Butterfly weed' is `Butterflyweed'.  This happens if the
+   character set dictionary is missing the lowercase `y ' glyph.
+   See README.charset.
+
  * #master-char*#.txt  #local-char*#.txt
    #master-pixmap#.txt #local-pixmap#.txt
 
  * #master-char*#.txt  #local-char*#.txt
    #master-pixmap#.txt #local-pixmap#.txt
 
@@ -106,10 +135,10 @@ The program reads and writes the following files:
    HTML returned from the upload server is left in these dropping
    files for debugging etc.
 
    HTML returned from the upload server is left in these dropping
    files for debugging etc.
 
- * <file>.new
+ * <file>.tmp
 
    When any of these tools overwrite one of the persistent dictionary
 
    When any of these tools overwrite one of the persistent dictionary
-   files, they temporarily write to <file>.new.
+   files, they temporarily write to <file>.tmp.
 
 These files are all in the current working directory.  There is not
 yet any feature to have them be somewhere else.  The helper programs
 
 These files are all in the current working directory.  There is not
 yet any feature to have them be somewhere else.  The helper programs