chiark / gitweb /
Die after recognition with --single-page --upload
[ypp-sc-tools.db-test.git] / pctb / structure.c
index 8141feb3db461c60099841db25d3a4954d018dec..0fbfb40e6eb076b5dd7081635362e1dabc1fead7 100644 (file)
@@ -32,7 +32,9 @@ static CanonImage *cim;
 static inline char get(int x, int y) { return cim->d[y * cim->w + x]; }
 static inline char get_p(Point p) { return get(p.x,p.y); }
 
-#define START_MAIN {200,200}
+DEBUG_DEFINE_DEBUGF(struct)
+
+#define START_MAIN {200,100}
 #define MIN_COLUMNS         6
 #define INTERESTING_COLUMNS 7
 #define TEXT_COLUMNS        2
@@ -47,6 +49,7 @@ static OcrReader *rd;
 const CanonColourInfo canoncolourinfos[]= {
   { 0x475A5E, '*' }, /* edge */
   { 0x2C5F7A, '*' }, /* edge just under box heading shadow */
+  { 0xC5C7Ae, '*' }, /* blank area of partial commodities list */
   { 0x7D9094, '+' }, /* interbox */
 
   { 0xBDC5BF, ' ' }, /* background - pale  Sugar cane, etc. */
@@ -81,7 +84,7 @@ const CanonColourInfo canoncolourinfos[]= {
 static void mustfail1(const char *file, int line, const char *what) {
   fprintf(stderr,
          "\n\n"
-         "Unable to figure out contents YPP client display.\n"
+         "Unable to figure out contents of YPP client display.\n"
          " Check that your client is logged in has the correct display.\n"
          " If that isn't the problem, please report this as a fault.\n\n"
          "Technical details:"
@@ -111,20 +114,23 @@ static void mustfail2(void) {
                       #v,(v).tl.x,(v).tl.y,(v).br.x,(v).br.y)
 
 
+#define REQUIRE_RECTANGLE(tlx,tly,brx,bry,ok) \
+ require_rectangle(tlx, tly, brx, bry, ok, __LINE__);
+
 static void require_rectangle(int tlx, int tly, int brx, int bry,
-                             const char *ok) {
+                             const char *ok, int lineno) {
   Point p;
   for (p.x=tlx; p.x<=brx; p.x++)
     for (p.y=tly; p.y<=bry; p.y++) {
       int c= get_p(p);
       MUST( strchr(ok,c), ({
             Rect rm={{tlx,tly},{brx,bry}};
-            MR(rm);MP(p);MS(ok);
+            MI(lineno),MR(rm);MP(p);MS(ok);
       }));
     }
 }
-static void require_rectangle_r(Rect rr, const char *ok) {
-  require_rectangle(rr.tl.x,rr.tl.y, rr.br.x,rr.br.y, ok);
+static void require_rectangle_r(Rect rr, const char *ok, int lineno) {
+  require_rectangle(rr.tl.x,rr.tl.y, rr.br.x,rr.br.y, ok, lineno);
 }
 
 static void debug_rect(const char *what, int whati, Rect rr) {
@@ -157,7 +163,7 @@ static void debug_rect(const char *what, int whati, Rect rr) {
          );                                            \
   }while(0)
 
-void find_structure(CanonImage *im) {
+void find_structure(CanonImage *im, int *max_relevant_y_r) {
   cim= im;
   
   Rect whole = { {0,0}, {cim->w-1,cim->h-1} };
@@ -167,24 +173,24 @@ void find_structure(CanonImage *im) {
   WALK_UNTIL_MUST(mainr.br, x,+1, whole.br.x, '*');
   WALK_UNTIL_MUST(mainr.br, y,+1, whole.br.y, '*');
 
-  require_rectangle(mainr.tl.x-1, mainr.tl.y, mainr.tl.x-1, mainr.br.y, "*");
-  require_rectangle(mainr.br.x+1, mainr.tl.y, mainr.br.x+1, mainr.br.y, "*");
-  require_rectangle(mainr.tl.x, mainr.tl.y-1, mainr.br.x, mainr.tl.y-1, "*");
-  require_rectangle(mainr.tl.x, mainr.br.y+1, mainr.br.x, mainr.br.y+1, "*");
-
-#define CHECK_STRIP_BORDER(tlbr,xy,increm)     \
-  do {                                         \
-    Point csb_p;                               \
-    Rect csb_r;                                        \
-    csb_p= mainr.tl;                           \
-    csb_p.xy= mainr.tlbr.xy;                   \
-    if (get_p(csb_p)=='+') {                   \
-      csb_r= mainr;                            \
-      csb_r.tl.xy= csb_p.xy;                   \
-      csb_r.br.xy= csb_p.xy;                   \
-      require_rectangle_r(csb_r, "+");         \
-      mainr.tlbr.xy += increm;                 \
-    }                                          \
+  REQUIRE_RECTANGLE(mainr.tl.x-1, mainr.tl.y, mainr.tl.x-1, mainr.br.y, "*");
+  REQUIRE_RECTANGLE(mainr.br.x+1, mainr.tl.y, mainr.br.x+1, mainr.br.y, "*");
+  REQUIRE_RECTANGLE(mainr.tl.x, mainr.tl.y-1, mainr.br.x, mainr.tl.y-1, "*");
+  REQUIRE_RECTANGLE(mainr.tl.x, mainr.br.y+1, mainr.br.x, mainr.br.y+1, "*");
+
+#define CHECK_STRIP_BORDER(tlbr,xy,increm)             \
+  do {                                                 \
+    Point csb_p;                                       \
+    Rect csb_r;                                                \
+    csb_p= mainr.tl;                                   \
+    csb_p.xy= mainr.tlbr.xy;                           \
+    if (get_p(csb_p)=='+') {                           \
+      csb_r= mainr;                                    \
+      csb_r.tl.xy= csb_p.xy;                           \
+      csb_r.br.xy= csb_p.xy;                           \
+      require_rectangle_r(csb_r, "+", __LINE__);       \
+      mainr.tlbr.xy += increm;                         \
+    }                                                  \
   } while(0)
 
   debug_rect("mainr",0, mainr);
@@ -235,7 +241,7 @@ void find_structure(CanonImage *im) {
       break;
 
     across.x++;
-    require_rectangle(across.x,mainr.tl.y, across.x,mainr.br.y, "+");
+    REQUIRE_RECTANGLE(across.x,mainr.tl.y, across.x,mainr.br.y, "+");
     across.x++;
   }
   MUST( colno >= MIN_COLUMNS, MI(colno);MR(mainr);MP(across); );
@@ -248,8 +254,72 @@ void find_structure(CanonImage *im) {
 
   SET_ONCE(columns, colno);
   SET_ONCE(text_h, comminty - 1);
+  if (max_relevant_y_r)
+    SET_ONCE(*max_relevant_y_r, mainr.br.y + 10);
 }                  
 
+void check_correct_commodities(void) {
+  Rect search= { { 50,39 }, { 130,59 } };
+
+#define SEARCH_UPDOWN(this,increm)                             \
+  for (;;) {                                                   \
+    MUST( search.tl.y != search.br.y, MR(search);MSB(#this); );        \
+    int x, got=0;                                              \
+    for (x=search.tl.x; x<=search.br.x; x++)                   \
+      got += (get(x,this.y) == '_');                           \
+    if (got > 10)                                              \
+      break;                                                   \
+    this.y += increm;                                          \
+  }
+    
+  SEARCH_UPDOWN(search.tl, +1);
+  SEARCH_UPDOWN(search.br, -1);
+
+  debug_rect("commodselr",1, search);
+
+  static const char *all[]= {
+    "   ___________________________________   ",
+    "  ________X____X__X____________________  ",
+    " ________ X___ X_ X_____XXXXXXXXXXX_____ ",
+    "_________X_X__ X_ X______XXXXXXXXX_______",
+    "________ X X__ X_ X_______XXXXXXX________",
+    "________X_ _X_ X_ X________XXXXX_________",
+    "_______ X__ X_ X_ X_________XXX__________",
+    "_______XXXXXXX X_ X__________X___________",
+    " _____ X     X X_ X______________________",
+    "  ____X_____ _XX_ X______________________",
+    "   __ _______  __ ______________________ ",
+  };
+
+  static int allh= sizeof(all)/sizeof(all[0]);
+  const int allw= strlen(all[0]);
+
+  int alloffy, alloffx;
+  for (alloffy=0; alloffy < search.br.y; alloffy++) {
+    if (alloffy+allh-1 < search.tl.y) continue;
+    for (alloffx=search.tl.x; alloffx+allw-1 <= search.br.x; alloffx++) {
+      int good=0, bad=0;
+      int x,y;
+      for (x=0; x<allw; x++)
+       for (y=0; y<allh; y++) {
+         int want= all[y][x];
+         if (want==' ') continue;
+          if (get(alloffx+x, alloffy+y) == want)
+           good++;
+         else
+           bad++;
+       }
+      debugf("CHECKCOMMOD alloff=%d,%d good=%d bad=%d\n",
+            alloffx,alloffy, good,bad);
+      if (good > 20*bad)
+       goto all_found;
+    }
+  }
+  fatal("Commodities selector not set to `All'.");
+
+ all_found:;
+}
+
 CanonImage *alloc_canon_image(int w, int h) {
   CanonImage *im= mmalloc(sizeof(CanonImage) + w*h);
   im->w= w;
@@ -280,7 +350,7 @@ static void file_read_image_ppm(FILE *f) {
                       (rgb_buf[2]);
   });
 
-  sysassert(!ferror(screenshots_file));
+  sysassert(!ferror(screenshot_file));
 
   if (!(npages < MAX_PAGES))
     fatal("Too many images in screenshots file; max is %d.\n", MAX_PAGES);
@@ -290,28 +360,28 @@ static void file_read_image_ppm(FILE *f) {
 
 void read_one_screenshot(void) {
   progress("reading screenshot...");
-  file_read_image_ppm(screenshots_file);
+  file_read_image_ppm(screenshot_file);
   progress_log("read screenshot.");
 }
 
 void read_screenshots(void) {
   struct stat stab;
   
-  sysassert(! fstat(fileno(screenshots_file), &stab) );
+  sysassert(! fstat(fileno(screenshot_file), &stab) );
   
   for (;;) {
     if (S_ISREG(stab.st_mode)) {
-      long pos= ftell(screenshots_file);
+      long pos= ftell(screenshot_file);
       if (pos == stab.st_size) break;
     } else {
-      int c= fgetc(screenshots_file);
+      int c= fgetc(screenshot_file);
       if (c==EOF) break;
-      ungetc(c, screenshots_file);
+      ungetc(c, screenshot_file);
     }
     progress("reading screenshot %d...",npages);
-    file_read_image_ppm(screenshots_file);
+    file_read_image_ppm(screenshot_file);
   }
-  sysassert(!ferror(screenshots_file));
+  sysassert(!ferror(screenshot_file));
   progress_log("read %d screenshots.",npages);
 }
 
@@ -325,9 +395,9 @@ static void find_commodity(int offset, Rect *rr) {
   rr->br.x= mainr.br.x;
 
   if (rr->tl.y > mainr.tl.y)
-    require_rectangle(rr->tl.x,rr->tl.y-1, rr->br.x,rr->tl.y-1, "+");
+    REQUIRE_RECTANGLE(rr->tl.x,rr->tl.y-1, rr->br.x,rr->tl.y-1, "+");
   if (rr->br.y < mainr.tl.y)
-    require_rectangle(rr->tl.x,rr->br.y+1, rr->br.x,rr->br.y+1, "+");
+    REQUIRE_RECTANGLE(rr->tl.x,rr->br.y+1, rr->br.x,rr->br.y+1, "+");
 }
 
 static void find_table_entry(Rect commod, int colno, Rect *cellr) {
@@ -336,7 +406,7 @@ static void find_table_entry(Rect commod, int colno, Rect *cellr) {
   cellr->tl.x= !colno ? commod.tl.x : colrightx[colno-1]+2;
   cellr->br.x=                        colrightx[colno];
   debug_rect("cell", colno, *cellr);
-  require_rectangle_r(*cellr, " o");
+  require_rectangle_r(*cellr, " o", __LINE__);
 }
 
 static void ocr_rectangle(Rect r, const OcrCellType ct, FILE *tsv_output) {
@@ -372,7 +442,10 @@ void analyse(FILE *tsv_output) {
   int page, tryrect, colno;
 
   for (page=0; page<npages; page++) {
-    find_structure(page_images[page]);
+    find_structure(page_images[page], 0);
+
+    if (!page)
+      check_correct_commodities();
 
     if (!rd)
       rd= ocr_init(text_h);