chiark / gitweb /
When setting focus on commodities, always use top left corner of table
[ypp-sc-tools.db-test.git] / pctb / README.charset
index 49bc9c7eb0bae10f3e2e8c3e62aa64ced0d9ff33..65aa51aee70e1cf85be1be3229ed8d3dd54df4cb 100644 (file)
@@ -50,8 +50,8 @@ We maintain separate dictionaries for the following types of glyph
      Digits and the greater than sign `>' (which can also
      appear in the quantity field in the commodity display)
  Word:
-     Words (or initial parts of words) which start with `l'
-     or `I'.
+     Words (or unambigous initial chunks of words) starting with
+     `l' or `I' - see the note, below.
 
 When you add an entry, you should add it to the appropriate dictionary
 for its matching context.  You can do this by selecting the
@@ -140,11 +140,17 @@ errors.
 
 If you think you have made mistakes answering OCR queries (for
 example, the recognised data is wrong), you should delete the file
-#local-char*#.txt, which contains your local updates.  It will then
+_local-char*.txt, which contains your local updates.  It will then
 only use the centrally provided (and vetted) master file (which is
 automatically updated when you run the PCTB client, by default).
 
-Alternatively you can edit #local-char15#.txt with a text editor.  The
+It is also possible to have the OCR system reject particular strings.
+If you put a regexp in _local-reject.txt, any OCR result which
+matches this string will instead cause an OCR failure, invoking the
+OCR dictionary editor if appropriate.  _master-reject.txt is the
+centrally maintained version of this file.
+
+Alternatively you can edit _local-char*.txt with a text editor.  The
 format is not documented at the moment.
 
 
@@ -152,9 +158,11 @@ Enabling interactive character set update
 -----------------------------------------
 
 Now that you have read this document, you should rerun your OCR job
-with the --edit-charset option.  So
-   ./ypp-commodities --edit-charset
-In future, always run it with the --edit-charset option.
+with the --edit-charset option.  So run
+    ./ypp-commodities --edit-charset
+In future, this option is not usually needed, because it is the
+default if there is a local character set dictionary _local-<h>.txt
+for the relevant character height.
 
 With --edit-charset, when the OCR finds characters it does not
 understand, it will put up an OCR resolution query window.  This will