🚧 dinglehopper: WIP data structure for extracted text

2026-07-29 15:02:33 +02:00 · 2020-06-10 19:40:57 +02:00 · 2020-06-10 19:40:57 +02:00 · 4bd30e6686
commit 4bd30e6686
parent bc630233d0
2 changed files with 19 additions and 16 deletions
--- a/extracted_text.py
+++ b/extracted_text.py
@ -43,19 +43,3 @@ class ExtractedTextSegment:
        if normalize(value, self.normalization) != value:
            raise ValueError('String "{}" is not normalized.'.format(value))
    normalization = attr.ib(default=NORM_NFC)
-
-
-test1 = ExtractedText([
-    ExtractedTextSegment('s0', 'foo'),
-    ExtractedTextSegment('s1', 'bar'),
-    ExtractedTextSegment('s2', 'bazinga')
-], ' ')
-
-
-assert test1.text == 'foo bar bazinga'
-assert test1.segment_id_for_pos(0) == 's0'
-assert test1.segment_id_for_pos(3) == None
-assert test1.segment_id_for_pos(10) == 's2'
-
-# ExtractedTextSegment('foo', unicodedata.normalize('NFD', 'Schlyñ'))
-ExtractedTextSegment('foo', unicodedata.normalize('NFC', 'Schlyñ'))
--- a/extracted_text_test.py
+++ b/extracted_text_test.py
@ -0,0 +1,19 @@
+from extracted_text import *
+
+def test_text():
+    test1 = ExtractedText([
+        ExtractedTextSegment('s0', 'foo'),
+        ExtractedTextSegment('s1', 'bar'),
+        ExtractedTextSegment('s2', 'bazinga')
+    ], ' ')
+
+
+    assert test1.text == 'foo bar bazinga'
+    assert test1.segment_id_for_pos(0) == 's0'
+    assert test1.segment_id_for_pos(3) is None
+    assert test1.segment_id_for_pos(10) == 's2'
+
+# TODO handle grapheme cluster positions?
+
+# ExtractedTextSegment('foo', unicodedata.normalize('NFD', 'Schlyñ'))
+ExtractedTextSegment('foo', unicodedata.normalize('NFC', 'Schlyñ'))