chiark / gitweb /
Correct bugs in new AA table cell structure parsing
[ypp-sc-tools.db-test.git] / pctb / structure.c
index 5a593887350025f8ce39c5e5d2a90e9c72df61e9..9d92877c6e5b6a6fc23c42ce4332ed27d0c8112b 100644 (file)
@@ -320,6 +320,8 @@ void find_structure(CanonImage *im, int *max_relevant_y_r) {
   SET_ONCE(text_h, comminty - 1);
   if (max_relevant_y_r)
     SET_ONCE(*max_relevant_y_r, mainr.br.y + 10);
+
+  MUST( text_h <= OCR_MAX_H, MI(text_h) );
 }                  
 
 void check_correct_commodities(void) {
@@ -460,28 +462,30 @@ static void find_table_entry(Rect commod, int colno, Rect *cell) {
   const RgbImage *ri= cim->rgb;
   
   Rgb background= ri_rgb(ri, cell->br.x, cell->br.y);
-  long bg_count=0, white_count=0, black_count=0;
+  long bg_count=0, light_count=0, dark_count=0;
   Point p;
   FOR_P_RECT(p,*cell) {
     Rgb here= ri_rgb(ri, p.x, p.y);
     if (here == background) bg_count++;
-    else if (here == 0) black_count++;
-    else if (here == 0xffffffU) white_count++;
+    else if (here < background) dark_count++;
+    else if (here > background) light_count++;
   }
   long total_count= RECT_W(*cell) * RECT_H(*cell);
-  MUST( bg_count > 8*total_count / 10,
-       MR(*cell);MIL(bg_count);MIL(white_count);MIL(black_count) );
+  MUST( bg_count > total_count / 2,
+       MR(*cell);MIL(total_count);MIL(bg_count);
+       MIL(light_count);MIL(dark_count) );
   if (bg_count == total_count)
     return;
 
-  MUST( !!black_count != !!white_count,
-       MR(*cell);MIL(bg_count);MIL(white_count);MIL(black_count) );
+  MUST( !!dark_count != !!light_count,
+       MR(*cell);MIL(total_count);MIL(bg_count);
+       MIL(light_count);MIL(dark_count) );
 
-  debugf("TABLEENTRY col=%d %d,%d..%d,%d bg=%ld white=%ld black=%ld\n",
+  debugf("TABLEENTRY col=%d %d,%d..%d,%d bg=%ld light=%ld dark=%ld\n",
         colno, cell->tl.x,cell->tl.y, cell->br.x,cell->br.y,
-        bg_count, white_count, black_count);
+        bg_count, light_count, dark_count);
   
-  Rgb foreground= white_count ? 0xffffffU : 0;
+  Rgb foreground= light_count ? 0xffffffU : 0;
   int monochrome= 1;
 
   FOR_P_RECT(p,*cell) {
@@ -527,22 +531,17 @@ static void ocr_rectangle(Rect r, const OcrCellType ct, FILE *tsv_output) {
   Pixcol cols[w+1];
   int x,y;
   for (x=0; x<w; x++) {
-    Pixcol cx, rv;
-    for (y=0, cx=0, rv=1; y<text_h; y++, rv<<=1) {
+    FILLZERO(cols[x]);
+    for (y=0; y<text_h; y++) {
       Point here= { x+r.tl.x, y+r.tl.y };
       int pixel= get_p(here);
-      switch (pixel) {
-      case ' ':                      break;
-      case '0':                      break;
-      case '0'+AAMAXVAL:  cx |= rv;  break;
-      default:
-       MUST(!"wrong pixel",
-            MC(pixel);MP(here);MSB(ocr_celltype_name(ct));MR(r); );
-      }
+      if (pixel==' ') pixel= '0';
+      MUST( pixel >= '0' && pixel <= '0'+AAMAXVAL,
+           MC(pixel);MP(here);MSB(ocr_celltype_name(ct));MR(r); );
+      pixcol_p_add(&cols[x], y, pixel-'0');
     }
-    cols[x]= cx;
   }
-  cols[w]= 0;
+  FILLZERO(cols[w]);
 
   results= ocr(rd,ct,w,cols);
   for (res=results; res->s; res++)