From 003bfc2cd0272c71cb3817ff9e517203e70088e7 Mon Sep 17 00:00:00 2001
From: b-vr103 <vahid.rezanezhad@sbb.spk-berlin.de>
Date: Thu, 2 May 2019 18:32:14 +0200
Subject: [PATCH] add pagexml2imag

---
 .project                                  |  24 ++++
 .pydevproject                             |   8 ++
 build/lib/pagexml2img/__init__.py         |   1 +
 build/lib/pagexml2img/pagexml2img.py      | 160 ++++++++++++++++++++++
 dist/pagexml2img-1.0-py3.6.egg            | Bin 0 -> 5703 bytes
 make.sh                                   |   9 ++
 pagexml2img.egg-info/PKG-INFO             |  11 ++
 pagexml2img.egg-info/SOURCES.txt          |   7 +
 pagexml2img.egg-info/dependency_links.txt |   1 +
 pagexml2img.egg-info/top_level.txt        |   1 +
 pagexml2img/__init__.py                   |   1 +
 pagexml2img/pagexml2img.py                | 160 ++++++++++++++++++++++
 setup.py                                  |   6 +
 13 files changed, 389 insertions(+)
 create mode 100644 .project
 create mode 100644 .pydevproject
 create mode 100644 build/lib/pagexml2img/__init__.py
 create mode 100644 build/lib/pagexml2img/pagexml2img.py
 create mode 100644 dist/pagexml2img-1.0-py3.6.egg
 create mode 100755 make.sh
 create mode 100644 pagexml2img.egg-info/PKG-INFO
 create mode 100644 pagexml2img.egg-info/SOURCES.txt
 create mode 100644 pagexml2img.egg-info/dependency_links.txt
 create mode 100644 pagexml2img.egg-info/top_level.txt
 create mode 100644 pagexml2img/__init__.py
 create mode 100644 pagexml2img/pagexml2img.py
 create mode 100644 setup.py
diff --git a/.project b/.project
new file mode 100644
index 0000000..6fbe82f
--- /dev/null
+++ b/.project
@@ -0,0 +1,24 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<projectDescription>
+	<name>toolbox_pagexml2img</name>
+	<comment></comment>
+	<projects>
+	</projects>
+	<buildSpec>
+		<buildCommand>
+			<name>org.python.pydev.PyDevBuilder</name>
+			<arguments>
+			</arguments>
+		</buildCommand>
+	</buildSpec>
+	<natures>
+		<nature>org.python.pydev.pythonNature</nature>
+	</natures>
+	<linkedResources>
+		<link>
+			<name>setup.py</name>
+			<type>1</type>
+			<location>/home/vahid/workspace/toolbox_pagexml2img/setup.py</location>
+		</link>
+	</linkedResources>
+</projectDescription>
diff --git a/.pydevproject b/.pydevproject
new file mode 100644
index 0000000..aa7a29a
--- /dev/null
+++ b/.pydevproject
@@ -0,0 +1,8 @@
+<?xml version="1.0" encoding="UTF-8" standalone="no"?>
+<?eclipse-pydev version="1.0"?><pydev_project>
+    <pydev_pathproperty name="org.python.pydev.PROJECT_SOURCE_PATH">
+        <path>/${PROJECT_DIR_NAME}</path>
+    </pydev_pathproperty>
+    <pydev_property name="org.python.pydev.PYTHON_PROJECT_VERSION">python interpreter</pydev_property>
+    <pydev_property name="org.python.pydev.PYTHON_PROJECT_INTERPRETER">Default</pydev_property>
+</pydev_project>
diff --git a/build/lib/pagexml2img/__init__.py b/build/lib/pagexml2img/__init__.py
new file mode 100644
index 0000000..95912a5
--- /dev/null
+++ b/build/lib/pagexml2img/__init__.py
@@ -0,0 +1 @@
+from pagexml2img import *
\ No newline at end of file
diff --git a/build/lib/pagexml2img/pagexml2img.py b/build/lib/pagexml2img/pagexml2img.py
new file mode 100644
index 0000000..8d521f9
--- /dev/null
+++ b/build/lib/pagexml2img/pagexml2img.py
@@ -0,0 +1,160 @@
+#! /usr/bin/env python3
+
+__version__= '1.0'
+
+import argparse
+import sys
+import os
+import numpy as np
+import warnings
+import xml.etree.ElementTree as ET
+from tqdm import tqdm
+import cv2
+
+with warnings.catch_warnings():
+    warnings.simplefilter("ignore")
+
+__doc__=\
+"""
+tool to extract 2d or 3d RGB images from page xml data. In former case output will be 1
+2D image array which each class has filled with a pixel value. In the case of 3D RGB image 
+each class will be defined with a RGB value and beside images a text file of classes also will be produced.
+This classes.txt file is required for dhsegment tool.
+"""
+
+class pagexml2img:
+    def __init__(self,dir_in, out_dir,output_type):
+        self.dir=dir_in
+        self.output_dir=out_dir
+        self.output_type=output_type
+
+    def get_content_of_dir(self):
+        """
+        Listing all ground truth page xml files. All files are needed to have xml format.
+        """
+
+        gt_all=os.listdir(self.dir)
+        self.gt_list=[file for file in gt_all if file.split('.')[ len(file.split('.'))-1 ]=='xml' ]
+
+    def get_images_of_ground_truth(self):
+        """
+        Reading the page xml files and write the ground truth images into given output directory.
+        """
+
+        if self.output_type=='3d' or self.output_type=='3D':
+            classes=np.array([ [0,0,0],[255,0,0],[0,255,0],[0,0,255]])
+            
+
+            
+
+            for index in tqdm(range(len(self.gt_list))):
+                try:
+                    tree1 = ET.parse(self.dir+'/'+self.gt_list[index])
+                    root1=tree1.getroot()
+                   
+                   
+                    for jj in root1.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}Page'):
+                        y_len=int(jj.attrib['imageHeight'])
+                        x_len=int(jj.attrib['imageWidth'])
+                   
+                    co_text=[]
+                    co_sep=[]
+                    co_img=[]
+                
+                    for nn in root1.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}TextRegion'):
+                        c_t_in=[]
+                        for ll in nn.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}Point'):
+                            c_t_in.append([ int(np.float(ll.attrib['x'])) , int(np.float(ll.attrib['y'])) ])
+                        co_text.append(np.array(c_t_in))
+                  
+                
+                    for nn in root1.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}ImageRegion'):
+                        c_i_in=[]
+                        for ll in nn.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}Point'):
+                            c_i_in.append([ int(np.float(ll.attrib['x'])) , int(np.float(ll.attrib['y'])) ])
+                        co_img.append(np.array(c_i_in))
+                       
+                    for nn in root1.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}SeparatorRegion'):
+                        c_s_in=[]
+                        for ll in nn.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}Point'):
+                            c_s_in.append([ int(np.float(ll.attrib['x'])) , int(np.float(ll.attrib['y'])) ])
+                        co_sep.append(np.array(c_s_in))
+                       
+                    img = np.zeros( (y_len,x_len,3) ) 
+                    img_poly=cv2.fillPoly(img, pts =co_text, color=(255,0,0))
+                    img_poly=cv2.fillPoly(img, pts =co_img, color=(0,255,0))
+                    img_poly=cv2.fillPoly(img, pts =co_sep, color=(0,0,255))
+                    
+                    try: 
+                        cv2.imwrite(self.output_dir+'/'+self.gt_list[index].split('-')[1].split('.')[0]+'.png',img_poly )
+                    except:
+                        cv2.imwrite(self.output_dir+'/'+self.gt_list[index].split('.')[0]+'.png',img_poly )
+                except:
+                    pass
+            np.savetxt(self.output_dir+'/../classes.txt',classes)
+    
+        if self.output_type=='2d' or self.output_type=='2D':
+            
+            for index in tqdm(range(len(self.gt_list))):
+                try:
+                
+                    tree1 = ET.parse(self.dir+'/'+self.gt_list[index])
+                    root1=tree1.getroot()
+                   
+                    for jj in root1.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}Page'):
+                        y_len=int(jj.attrib['imageHeight'])
+                        x_len=int(jj.attrib['imageWidth'])
+                   
+                    co_text=[]
+                    co_sep=[]
+                    co_img=[]
+                
+                    for nn in root1.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}TextRegion'):
+                        c_t_in=[]
+                        for ll in nn.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}Point'):
+                            c_t_in.append([ int(np.float(ll.attrib['x'])) , int(np.float(ll.attrib['y'])) ])
+                        co_text.append(np.array(c_t_in))
+                  
+                
+                    for nn in root1.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}ImageRegion'):
+                        c_i_in=[]
+                        for ll in nn.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}Point'):
+                            c_i_in.append([ int(np.float(ll.attrib['x'])) , int(np.float(ll.attrib['y'])) ])
+                        co_img.append(np.array(c_i_in))
+                       
+                    for nn in root1.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}SeparatorRegion'):
+                        c_s_in=[]
+                        for ll in nn.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}Point'):
+                            c_s_in.append([ int(np.float(ll.attrib['x'])) , int(np.float(ll.attrib['y'])) ])
+                        co_sep.append(np.array(c_s_in))
+                       
+                    img = np.zeros( (y_len,x_len) ) 
+                    img_poly=cv2.fillPoly(img, pts =co_text, color=(1,1,1))
+                    img_poly=cv2.fillPoly(img, pts =co_img, color=(2,2,2))
+                    img_poly=cv2.fillPoly(img, pts =co_sep, color=(3,3,3))
+                    try: 
+                        cv2.imwrite(self.output_dir+'/'+self.gt_list[index].split('-')[1].split('.')[0]+'.png',img_poly )
+                    except:
+                        cv2.imwrite(self.output_dir+'/'+self.gt_list[index].split('.')[0]+'.png',img_poly )
+                except:
+                    pass
+    def run(self):
+        self.get_content_of_dir()
+        self.get_images_of_ground_truth()
+def main():
+    parser=argparse.ArgumentParser()
+
+    parser.add_argument('-dir_in','--dir_in', dest='inp1', default=None, help='directory of page-xml files')
+    parser.add_argument('-dir_out','--dir_out', dest='inp2', default=None, help='directory where ground truth images would be written')
+    parser.add_argument('-type','--type', dest='inp3', default=None, help='this defines how output should be. A 2d image array or a 3d image array encoded with RGB color. Just pass 2d or 3d. The file will be saved one directory up. 2D image array is 3d but only information of one channel would be enough since all channels have the same values.')
+    options=parser.parse_args()
+    
+    possibles=globals()
+    possibles.update(locals())
+    x=pagexml2img(options.inp1,options.inp2,options.inp3)
+    x.run()
+if __name__=="__main__":
+    main()
+
+    
+    
diff --git a/dist/pagexml2img-1.0-py3.6.egg b/dist/pagexml2img-1.0-py3.6.egg
new file mode 100644
index 0000000000000000000000000000000000000000..c8c852812e0b62c2a436be1826de30eded480a8d
GIT binary patch
literal 5703
zcma)=2T;@9w#AX&0!Wiyq)AtL@1ge=kZvFWL<pTAy{UloD!oV*RC*N%Na$dpNQZzF
zX;LDJ$c^vLcSYvDH}7QjB>&8;-&tppnSJ&$)WN}}#=^oP#6qSN>kDM)PKIHgK4I!Q
zrhpn6f?E3O2Ev9q|NijcX(uuE9g3(kIiRgQd84ksGkb+}PgkJyv}lr^N*%%CT(z00
zz($To7Bi8p5ye<qTwKp4T-1a%J6>OEBJv#ZweZb$??60U<cFhVQ@cfDg6_c-zpF+o
z@@GysUEWKdFM-7C;HKjD(9E?HykWYih;C2qi>JijSk`GpL5H}8f7yMfGyu4Vv5Cag
z??e2@u8Dz}u`19+$S1(Zcc_P0$&ey?rPJRt9Ym3$;wb;bGshY{MByPU`($D3=TdCj
zljIMnW2<-ClOT*(6sg!97swE<$f+NFC`wcKHWX+aGF|5O<(7Lq%MSoP_1d*o#h&X1
zU%Ea5yH^tSxNrRJDHVTO1P9~g8m5>pdvbJwIk`JJxr5<$ZZ7Wky?>iSVPpNRMieX4
zl3`S&n4-O`_VIw(xjFecx&4;$Yw8-*42<3x8qwRhO1QlLUq4}>3rx`40pj%6o}OmK
z`X}AL(2SV9=rMHzQ!odpQ@{f^5tj#0VLLk)cNZT!J0Tcchkt0??AD*1K?5U#1Hybp
z6PFz{WBx<|VHfFQ_*hs1ELd0!S9q7$804<yg2$W$Md-9$j}v){VRXWSV+XwBq$1$7
z16_nrH;bIAJ?Gtf%Bg%>T<Dnd{q_<CxAKfsUrP{aa(L8QvVYeZo9}Ay86aD1O4mK=
z8O&E_yQaF~8G&-ff)_a2+%h8trY($Mqxf={Q6r1@K15*u%<ukL8Oz-&%V{fwfRV4F
z4>F#zimA+PD#Z&bRqnxQ=e=HA^i*fjnt;D#x-VE@sx&8lH^d=CmLx)Ur7E0jG<&%E
z#lHI2>acFnB*7PHL0qLMZW*fQ?_&zyRyY-TPaHHa@9YS`?&_?HtuR6@_6A<C%_hN>
z7rV|`V6RfFR>LPJ)J{w76O0b^lhY;cyK9aK@U(gQ;%pQ14gz>S*rVHQ02!igI(vM{
zpeWJPR2_(5r4qE88?M}89{=%PFITHm-AaCEbpY}q@bgRm0L@p(vKtm*#jZ#ao`?ET
zmDro+)E(0?*9nG-VdJw$Jq|7>-L(>J&R(_?%WafR1*$e(Wc{QUGlV!ddq_(w1ccw^
z;qGd6Iz`g5&jLmysJ_(sQYdj*a;L#8X)T37TI{69RATq=cT2?~pPR(@b7RT%pDXFl
zZ9PIQP;&ZPC%jK~YMUm*SL5=xtWC#Z7U@*MXPL_n`dI04!TBPR4W~rQm|-C-InSm0
zST(IMTYxLG?!F2WtXN98`yPcmP5bU=Wr{l*<fWu}@15A#Co{AuX22>OeUG+#)N+%B
zI{YU%YI01G5s%YZi<&YJKz0BMFWDOS4Ig#HYgy((IG|D|*Pzd+;GAoY8o3`dq`fcA
zKcP)G_$cP90~{KK$`7zd2<b*+i>9w;REKzn&&v7Fx@o+?lL=Y<B9?oDeQy(-HoZb7
zsbG^;UR4${txi(cqPg6xOIx2Q+&%?doqMxBH|!MD%`Np#b(+xZ0Pq8Uym{cZ*&$)@
z>-|Bg1oGD_s1fvso{aAAX{E5o#-ZBe4u>~$qlD4lg*px%hMggucgrfF>OH8LrwL<0
zJ6WJ_y#ya8kIJyeR}T`0T7OJB-aCqYNnZnKnTHK$5As*(Nw>BIok5IcWP2*M{MH@)
z?sQ6ZWfd57ogER!^m5>D7d*g6>#|1_le6CP9($Yv+(c~?2n`KIbKrMFMcdFIqZU`k
zEhE3yv4aY|8^d?%)=!A|n6i--B^l=1gMz_;)1@OyuLu+Ln5Y!X$1HAnIk_0>u%NnI
z6U)y{UinSjs=i-KJTtLrF|)*9nH^WkB-e2b+0RM;+(Z6cZQf^Wj|%|RBw<r%I#4{>
zktN+iwwMQX*3#IGG`^xq3^0#}Pbu2H&*_3mozizOv7(I5P69uM+(|^dd)QZk-hW7~
zf@9m+jq-PIc&fR!r0^s(k@G04uVlFH?(hR*I|=G8+}c8_9%mI-sMc&A50QQPY^hOZ
zSbW$+T*;-aEMMu74N;sgyLXOu)U%#)3e16!yr+d0uhCl$KEmy+I?g|s&`gwbTV9Hz
zofdBhU22AIZ%y7rh9ByU-S@w@6r@n4fs%?Yidj1j!(xZ7h+-=YB`g>D)P0+z<+drO
z`K~l1$EcSL{buqxRJ!%twSHk^1T9^^(DQK2jn!+-8*-NWNdek)Q8I!aJe+mG?kXR2
zg%bVD=Pu9VIbd`+$?f<RxklrWs#mgS$Jl(R*csUsIxZhV&P*^6I2yIhudE;~=3>`Y
zoLT1fO5JlE>Cm$%Fcf<eynuV4W(6ipJqU8f_WAPOup)3<mVZh!^VbU+1I@Qic`?0s
z;!|b^4N|N^9lfX59F`N6pLy)}jj~YtgFL-|(w^%}Qj#eBs$(X7NJ+r`okeYKhCM5h
z4Q9dQs$-C0`lGh1ve}F$BSq&$#V!c3j0>@_n`1@sO#|&Z5wqz_(P=+tEH+f3w}y?p
zY`!+Nyqm5%U?i-F-6zH^t>kS5h2xa6o#0Qn;H~hRTEW9X#DOH48#E@d!+E1E@AWLN
z^P7$ZSC;2E%pC&Eg#@gQn%+ZPpjI{<COLi*=!=OViP^K$s>a4ud~6QE=WiV9c*sx<
zl_dB%X4~^7R)^dR{N=zr&RF*B9bd><9=thawKfhX{H-KjMZJLDcpa&vZbn|CY}tZ*
z4;kd(O1IrJU=WGK^q3M%318_oc6Km0*a7V9WM}uMkAY!uA7>ADK~V`z{{f4BUSFSW
zLYu~O;^6dx@j1J3`^c26M{qce>5S>T=~U>9vm)rlvh5<)#OXcmxPHH;wHMKM{4sW(
zsbpmSIGq$Ipd@|!>o8}fm?#fWk(aB!MNODT^ksueGXf#7IHIN~E^ouCl^GHg1hIu^
z1$EdeuM3jp%>PV#pKB_sp0v)EbEW^2cTz!-L|9n$nCpzl|8btnee~}my`{5Boa;{>
z7B*rnKRa08@wR?MI6+P$y_lIS1*GV!wc&YS-;(go`>_<RLA!=gk)~_w;g+e5kx~fX
z@)RKUSJ<0%@?(vLi!k!wt<-RZlRLt@BPs8<#xe_IuA3tE#>o7k5Gd3i;^*&B<Oe_B
zFX;3&Gx}9Ia_(xV5SDUI&sWt#%w_uYv5sSPTa}wQD79vfp-$Y!q$$02vZhTutg&LT
zy4}}!#G?fO@w>r2#G3IK+c0&TN+nG`x~j``kDr{zwI$A<+V%YqRkS&GRlAzt-QePu
zVYle1H-_Ic-QdMo;wMzk%~)OL#-_Zfzq!Y)wQYW|b&pZbg?-+?ZV{!KGC=!eG$!Kg
zfy2I`><U__aet}R<&nIieRgnnYJMKJGx@`0z2FsDw8rb;qyrX|-`sds9;uoP1=@iQ
zh*qd?zAxJx`>AQXHPn&S58;P|D46aJjEl6RaBS#CZ|PDp&ozI54ct6?%?ilk6qb2W
z8f?G6D3gq=9Zk*_Dcxa<H*j9D*BV5FiI?h=>b6{ith(<dw{i+@vB?aj(6^@X_)I`P
zR?2Tiee#LtC_BPJT82`1*%P_Ga^V3hC%#3f2g@{~JBlhyRN*9iWntmBqCLCITue)3
z8f3&Ph-#GiKSoTIn$5hqYpc;1IpvSAotV;z2-G?**Yp8Y-J$2t7cnp51_NBv`EKXU
zKX7SPSIwV}J^xBkoB2vg+frxzBpyi6Excw+*PdQV_m*D?%^wXa`u-#DT$%3OXfOi=
z@dOcYd!EiVbnfBVEH_ESs5H@r1CRWWAh~l4;z+2ZlzT{D_cYObgFv64aWEGF`BGm*
zseQwI#*Akzi#nDu)oKVA1R#z|-!AbR6$)jIOmkrBj#2mPPQ6AKwv2N-E*lR;3rPs(
z;8T8O1VP3d&FD!HGhcX0labEf7>hsTz2+%iP#9)qh&N;bKP~}_aND#HbE}OM5)lSz
zSw2D$YM8L5DpmzE<4$?4%4vAD;^*FVb$4{3j<t@nAeEo|G~}D6=dNV55`5&l+ew%)
ztsl5`wxsbnnzJMi9*nOWu**qnpJ3}1*1pwogX_WVgKv4MTmBCFlbpl+k9(LU4WDVV
z$*DD%x+^b<7m>%xaj3sJyqPFz$mCL_9vNR7(yk<`SF2>1?|wo>ajl772qFB@O;4q;
z5z04?w^c<w9!uK|=d~glq%Bk;@exaeZXZ0Eh!P^r@+khrW6wAKQRCemLz%!^%d64C
zX0Fz1wx2C*Ktc!w=KJ6ptDIZN9~1On7G%Ud7dg&mD4xE4XH%H&%jA?HuY=}0U)t|k
zWVJG^GIZ@t$hAuMUO>q#GxU=8`*u%qx^DzH%x_8nam*W}Y_YUYd|kM_v(&?hOgm1`
zE@n*nX-BXC@r;iN=9kcE4xG}0npFil`lBnO()!b3CPz+E@*L;n;h>teNr8ZC=-GHH
z?}WKkl6hLYlsUU_tH!k^DHJ+W9`Cje*xR}&j)1`#t|j0P>em6s*_P=TG@{n)>`Go1
zY=gGai$i^wZ{M)@2W|Mbo-x?Od}z5@M1tkga^yp!E?{8l^ZM(YTF-^#hyrx1T>FJW
zRQ9<Yji@5tCOdU&jJOs`oK6S!qG3b4VPj{B@(tmuo=_6nvvzO644t_1ozPb^HPUgx
zM{|Pc?5T_8_)&Fli8HuMJ@gy;xf^Xj(D&j=Y_#OklZEZzb*A>o9~VFLcg**Z8#6VF
z{suc}C3&aDC0TGIXxw6#@j|%zDWggCTLtHlh}+)G9jWp^?tMPq6D=r~eGA)ZAV_~b
z$xe=!%4+a^R%D78d{C}@n)UVr;dP<VDOw^$8PDq4Hl3pR)lKUB3xWlvPfQEHd^H{)
z^W@}Mw)Y0UN%blmwCoRB+>;_Am)Kuu@qQ>uksU9ieNoq1-`Lssy0QKB`QBG~rFLK5
z!AAn5GKiYNF<VU_^f(Swc7cT$I1?aD4LGg`-H^Cuv+kIcTJjG0Qg@fb8p=D@2`WPq
z=>+ffmeEib+<yfWoSZaHZdI3kLitPl(=rJivsfX+mOcYP$y+_-r`)()8()GZ_{NmC
z8H9tOD~f8M0Xr&6I1f1TDlAD3Lc>;jQ?44z6K}<Gvh5bmC+nvl=997sHTGJ2&ZX>w
zh>$gd*P2<^@L!04MaaDPDe4b6ueXwY9`y!DAjN~(16m4lLY~!SeePFIJH08X9<R#u
zypeUkg|<xWTgv7@O_V%bOsfA$kWs%mJ#I$f<EhyAnnUf%+<8LqP)sem6nL&SJgC{G
zanAQC2l=Y<G~H0ydwn@w8*8et_~&)er^MzraCV4DmnUzjNU71yl3D@qTWL*giHq}|
zt_y(!%yU8UW3k|!LGVx2_@Q5%;5P9?FpBuypwm4Uol-4xQ|7?7Hrx}+Pwdrqui0?i
z-<IRNsM4-goe2eK10c4>;VHyvrlk#mv6Le+na1^nYWlaHhQK8H<wCF5TcoA|`=3>7
zU%!8^ic~O}*E?IR^5;!gq%zJ;ua{%nx~Rz0ErDe&T6)1T5*)kzCcdm+eIbc(Tic@!
z7RR*f2*CIk@}Cu_h%cJn{RtlV5DC;k@;ezXHBW(i^chafnmYp1efmyqZ#=Ull!L;)
zq<-h_8zk-<={Jd_mZGZH>o(hfiQg>;bPJBa7$(?M9^GZGwo%QZ!VAu?P)YzRSE^L%
ziP0y1ga*1TGMh=nzVLE<kVe5&F15hYsc?jy6<+dL0%D72%#l~8yGApxb*_x7@v66&
z+L?{$;AY8oKXuxgpZc`^0J9&R;t~xrcO+o}b}2G~(cRI_9$!vG(ve?l_lMqXig4c0
zuZ2mU^44J6ZFTxu*v1+`JlUa3nk~Di>Or}Lx4TjLOPmKl72EWL^CM+$`*)TS58XU>
z2$q%BhY`nk*!#q%4E0orF672Yg`-;R6zu8XB%vo9oBhBs;$|^d+VW=E5T^P~$8!OF
zd}ZVqqGi-E#X4aiw(o`w9KXr3qrg$WI@wBrd~G31(&NBBY@g}dnpw7FkhXkR-@3Ro
z;aQS7zEK@HFVvmPc$*|62T07Pm$85Egv@-p+?;%?!qU1M&ZXsvmu;n&DnRnBhwpUV
zTfb=WsP~lq?wPhH>7-disE)W+<O_-rDvciAKF|E=wxntK{W~anibo~iYUKt$8TEsn
z8$2fHJl6dDy482{h^{z)Bp5*Y!686YwwWVlI0y^ou9;?4(EC-==(dk=N3__p2X+mz
zi)qG-0|;A&a7*B(5nsMWs)Q!{NqEFzjfd1(>xr!=ydyC|QdOh88itp4f&WvmQQch7
z<^juHK-^EvHTN1eHO~K@%wg_^|FcTNf4}`F`1&WOyDGn$l>J+bg;g5<^0NF=Zg!P$
zIam6fYyGoI!&Na+*MAKBx0LHD>T1aK2Nix9^;hI|m2uh5@0jbKRT|!Vnek8Pby@!3
zGOs`K6O8=Q?fTE;0E1tK{I{U%4+Mz)H{=o!Gj?3&{7zl34l#c?uL=L={69vTtMIE6
r#UFS$X3n@|40F;y^U|g7h5nu|40Z4@*&Y@a5$2VRIc65s@27tON@(Ek

literal 0
HcmV?d00001

diff --git a/make.sh b/make.sh
new file mode 100755
index 0000000..629f8cc
--- /dev/null
+++ b/make.sh
@@ -0,0 +1,9 @@
+all: build install
+
+build:
+       python3 setup.py build
+
+install:
+       python3 setup.py install --user
+       cp pagexml2img/pagexml2img.py /home/vahid/bin/pagexml2img
+       chmod +x /home/vahid/bin/pagexml2img
diff --git a/pagexml2img.egg-info/PKG-INFO b/pagexml2img.egg-info/PKG-INFO
new file mode 100644
index 0000000..31ddbdf
--- /dev/null
+++ b/pagexml2img.egg-info/PKG-INFO
@@ -0,0 +1,11 @@
+Metadata-Version: 1.0
+Name: pagexml2img
+Version: 1.0
+Summary: UNKNOWN
+Home-page: UNKNOWN
+Author: UNKNOWN
+Author-email: UNKNOWN
+License: UNKNOWN
+Description-Content-Type: UNKNOWN
+Description: UNKNOWN
+Platform: UNKNOWN
diff --git a/pagexml2img.egg-info/SOURCES.txt b/pagexml2img.egg-info/SOURCES.txt
new file mode 100644
index 0000000..b24fdb8
--- /dev/null
+++ b/pagexml2img.egg-info/SOURCES.txt
@@ -0,0 +1,7 @@
+setup.py
+pagexml2img/__init__.py
+pagexml2img/pagexml2img.py
+pagexml2img.egg-info/PKG-INFO
+pagexml2img.egg-info/SOURCES.txt
+pagexml2img.egg-info/dependency_links.txt
+pagexml2img.egg-info/top_level.txt
\ No newline at end of file
diff --git a/pagexml2img.egg-info/dependency_links.txt b/pagexml2img.egg-info/dependency_links.txt
new file mode 100644
index 0000000..8b13789
--- /dev/null
+++ b/pagexml2img.egg-info/dependency_links.txt
@@ -0,0 +1 @@
+
diff --git a/pagexml2img.egg-info/top_level.txt b/pagexml2img.egg-info/top_level.txt
new file mode 100644
index 0000000..687af0e
--- /dev/null
+++ b/pagexml2img.egg-info/top_level.txt
@@ -0,0 +1 @@
+pagexml2img
diff --git a/pagexml2img/__init__.py b/pagexml2img/__init__.py
new file mode 100644
index 0000000..95912a5
--- /dev/null
+++ b/pagexml2img/__init__.py
@@ -0,0 +1 @@
+from pagexml2img import *
\ No newline at end of file
diff --git a/pagexml2img/pagexml2img.py b/pagexml2img/pagexml2img.py
new file mode 100644
index 0000000..8d521f9
--- /dev/null
+++ b/pagexml2img/pagexml2img.py
@@ -0,0 +1,160 @@
+#! /usr/bin/env python3
+
+__version__= '1.0'
+
+import argparse
+import sys
+import os
+import numpy as np
+import warnings
+import xml.etree.ElementTree as ET
+from tqdm import tqdm
+import cv2
+
+with warnings.catch_warnings():
+    warnings.simplefilter("ignore")
+
+__doc__=\
+"""
+tool to extract 2d or 3d RGB images from page xml data. In former case output will be 1
+2D image array which each class has filled with a pixel value. In the case of 3D RGB image 
+each class will be defined with a RGB value and beside images a text file of classes also will be produced.
+This classes.txt file is required for dhsegment tool.
+"""
+
+class pagexml2img:
+    def __init__(self,dir_in, out_dir,output_type):
+        self.dir=dir_in
+        self.output_dir=out_dir
+        self.output_type=output_type
+
+    def get_content_of_dir(self):
+        """
+        Listing all ground truth page xml files. All files are needed to have xml format.
+        """
+
+        gt_all=os.listdir(self.dir)
+        self.gt_list=[file for file in gt_all if file.split('.')[ len(file.split('.'))-1 ]=='xml' ]
+
+    def get_images_of_ground_truth(self):
+        """
+        Reading the page xml files and write the ground truth images into given output directory.
+        """
+
+        if self.output_type=='3d' or self.output_type=='3D':
+            classes=np.array([ [0,0,0],[255,0,0],[0,255,0],[0,0,255]])
+            
+
+            
+
+            for index in tqdm(range(len(self.gt_list))):
+                try:
+                    tree1 = ET.parse(self.dir+'/'+self.gt_list[index])
+                    root1=tree1.getroot()
+                   
+                   
+                    for jj in root1.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}Page'):
+                        y_len=int(jj.attrib['imageHeight'])
+                        x_len=int(jj.attrib['imageWidth'])
+                   
+                    co_text=[]
+                    co_sep=[]
+                    co_img=[]
+                
+                    for nn in root1.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}TextRegion'):
+                        c_t_in=[]
+                        for ll in nn.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}Point'):
+                            c_t_in.append([ int(np.float(ll.attrib['x'])) , int(np.float(ll.attrib['y'])) ])
+                        co_text.append(np.array(c_t_in))
+                  
+                
+                    for nn in root1.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}ImageRegion'):
+                        c_i_in=[]
+                        for ll in nn.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}Point'):
+                            c_i_in.append([ int(np.float(ll.attrib['x'])) , int(np.float(ll.attrib['y'])) ])
+                        co_img.append(np.array(c_i_in))
+                       
+                    for nn in root1.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}SeparatorRegion'):
+                        c_s_in=[]
+                        for ll in nn.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}Point'):
+                            c_s_in.append([ int(np.float(ll.attrib['x'])) , int(np.float(ll.attrib['y'])) ])
+                        co_sep.append(np.array(c_s_in))
+                       
+                    img = np.zeros( (y_len,x_len,3) ) 
+                    img_poly=cv2.fillPoly(img, pts =co_text, color=(255,0,0))
+                    img_poly=cv2.fillPoly(img, pts =co_img, color=(0,255,0))
+                    img_poly=cv2.fillPoly(img, pts =co_sep, color=(0,0,255))
+                    
+                    try: 
+                        cv2.imwrite(self.output_dir+'/'+self.gt_list[index].split('-')[1].split('.')[0]+'.png',img_poly )
+                    except:
+                        cv2.imwrite(self.output_dir+'/'+self.gt_list[index].split('.')[0]+'.png',img_poly )
+                except:
+                    pass
+            np.savetxt(self.output_dir+'/../classes.txt',classes)
+    
+        if self.output_type=='2d' or self.output_type=='2D':
+            
+            for index in tqdm(range(len(self.gt_list))):
+                try:
+                
+                    tree1 = ET.parse(self.dir+'/'+self.gt_list[index])
+                    root1=tree1.getroot()
+                   
+                    for jj in root1.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}Page'):
+                        y_len=int(jj.attrib['imageHeight'])
+                        x_len=int(jj.attrib['imageWidth'])
+                   
+                    co_text=[]
+                    co_sep=[]
+                    co_img=[]
+                
+                    for nn in root1.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}TextRegion'):
+                        c_t_in=[]
+                        for ll in nn.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}Point'):
+                            c_t_in.append([ int(np.float(ll.attrib['x'])) , int(np.float(ll.attrib['y'])) ])
+                        co_text.append(np.array(c_t_in))
+                  
+                
+                    for nn in root1.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}ImageRegion'):
+                        c_i_in=[]
+                        for ll in nn.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}Point'):
+                            c_i_in.append([ int(np.float(ll.attrib['x'])) , int(np.float(ll.attrib['y'])) ])
+                        co_img.append(np.array(c_i_in))
+                       
+                    for nn in root1.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}SeparatorRegion'):
+                        c_s_in=[]
+                        for ll in nn.iter('{http://schema.primaresearch.org/PAGE/gts/pagecontent/2010-03-19}Point'):
+                            c_s_in.append([ int(np.float(ll.attrib['x'])) , int(np.float(ll.attrib['y'])) ])
+                        co_sep.append(np.array(c_s_in))
+                       
+                    img = np.zeros( (y_len,x_len) ) 
+                    img_poly=cv2.fillPoly(img, pts =co_text, color=(1,1,1))
+                    img_poly=cv2.fillPoly(img, pts =co_img, color=(2,2,2))
+                    img_poly=cv2.fillPoly(img, pts =co_sep, color=(3,3,3))
+                    try: 
+                        cv2.imwrite(self.output_dir+'/'+self.gt_list[index].split('-')[1].split('.')[0]+'.png',img_poly )
+                    except:
+                        cv2.imwrite(self.output_dir+'/'+self.gt_list[index].split('.')[0]+'.png',img_poly )
+                except:
+                    pass
+    def run(self):
+        self.get_content_of_dir()
+        self.get_images_of_ground_truth()
+def main():
+    parser=argparse.ArgumentParser()
+
+    parser.add_argument('-dir_in','--dir_in', dest='inp1', default=None, help='directory of page-xml files')
+    parser.add_argument('-dir_out','--dir_out', dest='inp2', default=None, help='directory where ground truth images would be written')
+    parser.add_argument('-type','--type', dest='inp3', default=None, help='this defines how output should be. A 2d image array or a 3d image array encoded with RGB color. Just pass 2d or 3d. The file will be saved one directory up. 2D image array is 3d but only information of one channel would be enough since all channels have the same values.')
+    options=parser.parse_args()
+    
+    possibles=globals()
+    possibles.update(locals())
+    x=pagexml2img(options.inp1,options.inp2,options.inp3)
+    x.run()
+if __name__=="__main__":
+    main()
+
+    
+    
diff --git a/setup.py b/setup.py
new file mode 100644
index 0000000..d4483aa
--- /dev/null
+++ b/setup.py
@@ -0,0 +1,6 @@
+#! /usr/bin/env python3
+
+import setuptools
+from numpy.distutils.core import Extension, setup
+
+setup(name='pagexml2img',version=1.0,packages=['pagexml2img'])