chiark / gitweb /
OCR rejection infrastructure
[ypp-sc-tools.db-test.git] / pctb / README
index 4f56fd8ab0d0d9a53e773f804ed8c24386d00548..2a085b2011c9d0938e5ee37cb19fd9ed6420625c 100644 (file)
@@ -32,6 +32,7 @@ Options to vary the processing:
   --screenshot-file F   Store or read screenshots in F rather than #pages#.pnm
   --window-id ID        Specified X window is the YPP client - do not search
   --edit-charset        Enable character set editing.  See README.dictionary.
+  --no-edit-charset     Do not edit charset even if #local-char*#.txt exists.
   --find-island         Find and print the ocean and island.  Suppresses OCR
                          and output unless used with result processing option.
   --test-servers        Set default servers to be the test servers, not
@@ -95,6 +96,14 @@ The program reads and writes the following files:
    double-check what you're doing before overriding the uploader by
    telling it to ignore an unrecognised commodity.
 
+ * #master-reject#.txt #local-reject#.txt
+
+   Dictionary of regexps which, when the OCR appears to match, we
+   reject instead.  At the moment this is used to stop us thinking
+   that `Butterfly weed' is `Butterflyweed'.  This happens if the
+   character set dictionary is missing the lowercase `y ' glyph.
+   See README.charset.
+
  * #master-char*#.txt  #local-char*#.txt
    #master-pixmap#.txt #local-pixmap#.txt
 
@@ -126,10 +135,10 @@ The program reads and writes the following files:
    HTML returned from the upload server is left in these dropping
    files for debugging etc.
 
- * <file>.new
+ * <file>.tmp
 
    When any of these tools overwrite one of the persistent dictionary
-   files, they temporarily write to <file>.new.
+   files, they temporarily write to <file>.tmp.
 
 These files are all in the current working directory.  There is not
 yet any feature to have them be somewhere else.  The helper programs