🐛 Start with TextEquiv index=1 to adhere to OCR-D PAGE conventions

https://ocr-d.github.io/page#multiple-textequivs
2026-07-21 18:19:10 +02:00 · 2020-02-03 17:40:45 +01:00 · 2020-02-03 17:40:45 +01:00 · 0f9c94e7dc
commit 0f9c94e7dc
parent 909632493b
1 changed files with 5 additions and 3 deletions
--- a/ocrd_calamari/recognize.py
+++ b/ocrd_calamari/recognize.py
@ -142,10 +142,12 @@ class CalamariRecognize(Processor):
                                glyph = GlyphType(id='%s_glyph%04d' % (word.id, glyph_no), Coords=CoordsType(points))

                                chars = sorted(p.chars, key=lambda k: k.probability, reverse=True)
-                                for index, char in enumerate(chars):
+                                char_index = 1  # Must start with 1, see https://ocr-d.github.io/page#multiple-textequivs
+                                for char in chars:
                                    if char.char:
-                                        glyph.add_TextEquiv(TextEquivType(Unicode=char.char, index=index, conf=char.probability))
-                                    # XXX Note that omission probabilities are not normalized?!
+                                        glyph.add_TextEquiv(TextEquivType(Unicode=char.char, index=char_index, conf=char.probability))
+                                        char_index += 1
+                                        # XXX Note that omission probabilities are not normalized?!

                                word.add_Glyph(glyph)