chiark / gitweb /
When setting focus on commodities, always use top left corner of table
[ypp-sc-tools.db-test.git] / pctb / README.charset
index 31e1221d7b4340c1f2bb1ed68fb0366f69c0478c..65aa51aee70e1cf85be1be3229ed8d3dd54df4cb 100644 (file)
@@ -50,8 +50,8 @@ We maintain separate dictionaries for the following types of glyph
      Digits and the greater than sign `>' (which can also
      appear in the quantity field in the commodity display)
  Word:
-     Words (or initial parts of words) which start with `l'
-     or `I'.
+     Words (or unambigous initial chunks of words) starting with
+     `l' or `I' - see the note, below.
 
 When you add an entry, you should add it to the appropriate dictionary
 for its matching context.  You can do this by selecting the
@@ -140,11 +140,17 @@ errors.
 
 If you think you have made mistakes answering OCR queries (for
 example, the recognised data is wrong), you should delete the file
-#local-char*#.txt, which contains your local updates.  It will then
+_local-char*.txt, which contains your local updates.  It will then
 only use the centrally provided (and vetted) master file (which is
 automatically updated when you run the PCTB client, by default).
 
-Alternatively you can edit #local-char15#.txt with a text editor.  The
+It is also possible to have the OCR system reject particular strings.
+If you put a regexp in _local-reject.txt, any OCR result which
+matches this string will instead cause an OCR failure, invoking the
+OCR dictionary editor if appropriate.  _master-reject.txt is the
+centrally maintained version of this file.
+
+Alternatively you can edit _local-char*.txt with a text editor.  The
 format is not documented at the moment.
 
 
@@ -155,7 +161,7 @@ Now that you have read this document, you should rerun your OCR job
 with the --edit-charset option.  So run
     ./ypp-commodities --edit-charset
 In future, this option is not usually needed, because it is the
-default if there is a local character set dictionary #local-<h>#.txt
+default if there is a local character set dictionary _local-<h>.txt
 for the relevant character height.
 
 With --edit-charset, when the OCR finds characters it does not