chiark / gitweb /
Mode default is --upload so don't mention that in the README top example
[ypp-sc-tools.db-live.git] / pctb / README.charset
index 49bc9c7eb0bae10f3e2e8c3e62aa64ced0d9ff33..770d3f3c29313a6b4d6c30f936e7fe7ecc6952e9 100644 (file)
@@ -140,11 +140,17 @@ errors.
 
 If you think you have made mistakes answering OCR queries (for
 example, the recognised data is wrong), you should delete the file
 
 If you think you have made mistakes answering OCR queries (for
 example, the recognised data is wrong), you should delete the file
-#local-char*#.txt, which contains your local updates.  It will then
+_local-char*.txt, which contains your local updates.  It will then
 only use the centrally provided (and vetted) master file (which is
 automatically updated when you run the PCTB client, by default).
 
 only use the centrally provided (and vetted) master file (which is
 automatically updated when you run the PCTB client, by default).
 
-Alternatively you can edit #local-char15#.txt with a text editor.  The
+It is also possible to have the OCR system reject particular strings.
+If you put a regexp in _local-reject.txt, any OCR result which
+matches this string will instead cause an OCR failure, invoking the
+OCR dictionary editor if appropriate.  _master-reject.txt is the
+centrally maintained version of this file.
+
+Alternatively you can edit _local-char*.txt with a text editor.  The
 format is not documented at the moment.
 
 
 format is not documented at the moment.
 
 
@@ -152,9 +158,11 @@ Enabling interactive character set update
 -----------------------------------------
 
 Now that you have read this document, you should rerun your OCR job
 -----------------------------------------
 
 Now that you have read this document, you should rerun your OCR job
-with the --edit-charset option.  So
-   ./ypp-commodities --edit-charset
-In future, always run it with the --edit-charset option.
+with the --edit-charset option.  So run
+    ./ypp-commodities --edit-charset
+In future, this option is not usually needed, because it is the
+default if there is a local character set dictionary _local-<h>.txt
+for the relevant character height.
 
 With --edit-charset, when the OCR finds characters it does not
 understand, it will put up an OCR resolution query window.  This will
 
 With --edit-charset, when the OCR finds characters it does not
 understand, it will put up an OCR resolution query window.  This will