From 664407ae9b3f4a5a9d19d1a2803ae3aa4ca30e97 Mon Sep 17 00:00:00 2001
From: yadonglu <yadonglu@microsoft.com>
Date: Wed, 9 Oct 2024 22:31:38 +0000
Subject: [PATCH] update readme; demo

---
 README.md                                     |   3 +-
 __pycache__/utils.cpython-312.pyc             | Bin 31466 -> 22216 bytes
 demo.ipynb                                    | 472 ++++++------------
 util/__pycache__/__init__.cpython-312.pyc     | Bin 0 -> 147 bytes
 .../__pycache__/box_annotator.cpython-312.pyc | Bin 0 -> 9812 bytes
 utils.py                                      | 234 +--------
 6 files changed, 174 insertions(+), 535 deletions(-)
 create mode 100644 util/__pycache__/__init__.cpython-312.pyc
 create mode 100644 util/__pycache__/box_annotator.cpython-312.pyc
diff --git a/README.md b/README.md
index e6f0d30..0465b9f 100644
--- a/README.md
+++ b/README.md
@@ -18,7 +18,8 @@
 ## Install 
 ```python
 conda create -n "omni" python==3.12
-pip install -r requirements.txt
+conda activate omni
+pip install -r requirement.txt
 ```
 
 ## Examples:
diff --git a/__pycache__/utils.cpython-312.pyc b/__pycache__/utils.cpython-312.pyc
index 395a981858ea8353df8bbce91894b7cc9e55f17b..3b245085ae73a89c3c55caebd66ae9f96493d1c6 100644
GIT binary patch
delta 4274
zcmai1eQ;FO6@T~b+wa|E^RZbViP?PT5wd|Kgb++f6c7>;BA}oZm(9MHWMQ+r-uD7o
z+%#!R6-Gtj;^#1G9j6XeIxrbKWu(;>akL$kOdLtypopE;+8He*YK#4&J?Ab7*um+}
zzTf>i=iKwox#!&T{{A(2`xwdiqucEe;CEiM_II`&%$P@dPE;-;g=LC;FS)x+aqJcD
zE?3GGCyXi-7mO;Ea+V;Sq=KCyuR1H0QdntB61j>U7VmeOL6!-gnI^&(nAS^*Ns-vU
zOr>7)%LMlkgb^u46me&jAkb1)Ea!<SfjuVGkP;k7DM1mK-+U80F1e(Xc}ET-OLL0I
zEOSaytVhI6f^6$Hr0|duGECvb5W8q;T>tI-O`)i&^~Gset?i9Q5_L84gkDn@Sk^0x
zhC@+zMZ#)uFqANyI?xOR6+M|yVaYrgSJbFsPtbT+)wDR39n52wEgn#oX0es_{5AD;
zhP5vm59v!94N;HF79*Q81!JK>H5jMCL`WYnEa^RHni0A45WE1I1%REj_ly=prwnHf
z0E`KLa%P>+_dnPCbo06Vx{3U{5Aquh=KZ>SpXGwoG3B}GoF_2h37oC%nDlgxt(&sC
zAM^frbjnk6&eJmCX_>MucwRr{eZBBx;U$xh)jA`HS(g3gOEw`Z@I4fzNV3m-$s*+C
zKe_eb)~EU=z2(Q(O*mW6O27}lFk$ts(osSLQAm-LFl+h|F@=UVbyE?jWMW8nZCJkn
z?B^Vc>NFHh>XEQU@zrFL;YgbY&BCYBM!<vN_xq_IS|g)h)q}}+G#=!%v=Sy8;L&mc
z#=OEulK-O1^Vot(SHaloDW_*_JuMku?LHypph3B54I4Oxs<E)jr0lNDBA7SKX}1zu
z#I|P_WJUx@5Z1_MilXUK_E7e%WEp!u`<cQtH4Vl3RYSs~Knsz?hfu&C$T@3C@5AoN
zEha_mhq-siepoYnsCObnHB||Q<1t;0>A?ter~<1i;L#oz*_R~&+hp#dX+bhCV@0K}
zn6Q1X)W>GLMW#=(a+oi#$TsP2nh{*)+VSOiZN!9~lrP8Tl|cqwh)|7iRf`vknuyFk
zDry{U#@PUXOlTc85`Q@(Bc!7;k$4PFxwexog*C$&84UHSK`pXJ)zUWDiR`#WqsUBX
zJ#P$?5*hq_KJ-7kKlhinUEH&GrEH>&Fot+h2f;iceTb^G3H32tYFrEI@ttZc7*S-A
zu4FIy%PZPoNzSJ(XlOgaEeN+FtU_3gP{gMFWn?Y$6|W#ZwyC(ah1<OY*X~2;L|Bi|
z1t6EvZtQPB=s~z0VH3h;0Cv3COYUO7E6$PAmcj+@TiYN+GrYV;H{#qjgnJPdGk=Mf
zY-f!n`-z{uQBvx_SXANB66}kT+8cRJO?xZfEVIV4t+vU$ifO@YU&#)ZJz&CiL3xdR
zGPiD85bYa9)=_>*;+>X?znXw&yrS}mSjl~g!IO3@_j4NzA(l+N@nH=UBm@WhT&^WY
z*!+b7$cbwgev|#(0|C|^W<Aw)p!!d$+sSk6O!Xd8GTyexOx(jL%|@SqhCazQ*2wb?
zVfP4tW&?oWgWuQ~Y{F{F$<Nuzn!T_|Yam$A2FsAw#K2;@54wf~8r9Pmpi7@%Cj&RZ
zc2j{R<aOq#?P^BHaOWDPP%N4DD+Z2XffI-s)Mc1~A58xeQgYvMFW$)x)_SX-#L2X1
z>|N6lPmX^(SJK}GKhSfcHrH_+rk{pKyUhMk>lG&?W?$UopUf$p7To4V`>p%PzJ^bH
z`TJbweg5aYlfKGn!DP>4TNXE%usyK2IS=T*DiB;*kKVlh=BF|yot0;$O2{W4FCHc&
z!nV{M%{l=a7<R~HF}y<tX%EY)UzF#^SqG$kCCDR*o`#7tY*YOKPYLuW4@Q10kBwih
ze?=n4*t1QA<Q;aZDWAN>rkb`|_|f;V#^qIT>VwPYjlPF6rEolvG;E<*EUt%i)iCXe
zBxG;;gdao6Zz7yQcnjfugtG_}00tQ_$Zq<39KVC`F2W?PSP}y?q^a}+oZ(x!!4<))
z8^x)?zFD3{9%Q!WC7FJtIX?@N<7=DGi=Jy?6u^~Q*3i;ghAJ5rEez>aON(xU8QIE1
z?P}&^PqZvuih0(MFyF}TbnbcsXRP5+0#g(H3`X>C2>f!yNTu5kwdOgmdudkOnwRT`
z6~mgKsuBt7^fHWQgz?VSf0NO_Kp*ZMixwY(yB;kW>q}osR!&E`C~lUofRwI9z<gww
zG@U|x@Ha$%b8QR@yc6DGoQ-qbiEC*4>!N1%-g0GM)rntT^q)XwW9Ql)BJuHXdydr?
zN8VQfAbno95qo5<uZZt(EhKOm{S~PX?t(<Tk)2*!*3R{Q8-@G<g-AC#60+q+vsVua
zt6Eny`rVvC+fY<F#S56ehHwhu3k0+*e~a|h_aP2>M&_>h4Gw>cFlR;jH4gcyeg%8K
z05Hr68j0x?BbBZZgenM{bP2$3)&n@LAl!nm8o`Nho_)FQw(K85S1vbfk->gmNl`Dm
ztwS#1X=Cp28y<y*b_aX$Fr&vK{q%NrsH4=v?YWV?*5Q|VAYMShA0u#6UW+5{RUR_k
zOzNy6ds$8AO3SB6`DaEuD=ho4`yhL^GXUA{-Ol+AAEe~@@MzDBU+R2;*eCNErUhcZ
zgRsZDY9#E8pXqvph!eK)EgQPY+BvHqCH&euYNkI$nLh$BNRrN}rkP=e=ecw-WW%Cj
zIJtX(7Q%KvU|;kchP-UwRLPFsezYA`pbG$?j+v833t++!hZBaFOni^L;Up~vs_l$z
z9OClM)*VKDP!`Px_+LKvtRCsZT?!;Bb8g;UPy%dWRC@MjgAN|2nFLfj+giHJtAt0b
zVX<Ebi`%SF<y%u$MZ|LAp!l#|5=Lw=b0Zqlbu@OMA@q6O%z{e_*o7qy*N8)(+m!WW
z<YuHCx-_f84hNg4%vm9($0Lq@VZ@oTtrE6DEiq!%-LrHl>ue2s5Acq-M%*JABbh1Z
zj!gWx@VZj&R7NVZPnxA70%)*aDp-_qq+qd61kBh2(tt1%+dff|6!XhhH6y~q>m`9b
z6)YNcToVynkrEXP|IC?>O3fJu)Vi^9V5m$mlyk%yD+FFE=bd*0Uc71f@7jx{c}I~s
zWgm5d%9cK;*25x!XT-Yu|McK<Y7Nhz6i+ZDF0|?A{{cwP^2+619AZep?G7n3q^Q)e
zVXLddI(&!is$+rvl7)DHd4wBws)lu_ucL6gC8D}vi41B3@!kAL${u=x?dfmd_6-O$
zJP|F}9}h)?eUYfHLdrL!2o#-k3vRgtDID<x)cL#M67Dy|-d-M2=?EYpgY;@1AmZ_K
z9YFQaK9J*F4hlu_tgj&~I8bH!q_~nj7?DjEt=a6=h-{zAoey=oy@RlekuHgMmh8BD
z@XB<x;Fhl#&dMv(ej&Tz%BNZNS{`ikGuNszY239+mQF9qUKNnubY!opm!K@mhQ)6B
zA|P0h7Y5vJSjEfIW`0F?cgxERF|JVotz-g#Z;!~J$}aC-a4%Z(z9Ci9HN%3h8;Vf;
zY=m1YsnIHAI0r+DDH*bBNKZuLdNk5YA>0I7gR-n@NK3}U)Ua&i{-G5(YYM@&=VQun
zwPc7?Wrv5W+o!mYxoStFzd|9!2$cv50#DmKrDMuB%ppocN%|o!oj#Pz?c|lib@vCV
z$lZ@ghhp-eXnfj+9GF3PvisI{Gh7WrQMHwJ!z%m*Z99u46Pa$Za@sGEteK1ol0Utf
QeVM%A_$nixRB`720?JZ0ssI20

delta 12757
zcmcJ0d2k!onP+$720;*D10*FLYKkW)-j^s^l1+;eb&%9W$&zIS2GLCtBnZH-n->Bs
z=&I~2<yFQ~b!P0DC^JeXQzef*waRL;aVn{ekC{ZNWHx}QGU1M<tZXH_>)F{1WqFfW
z&g|~@y(UP?D>?aN7c#$o*Y~~i``+(;@A>9mv;X)%S?7=P^X&}$Uj4<#V~@u!J4@J!
zZ`3ui<#nR%3+&U?qWufZ(=}qfm<O?1(E+hKv0ja_M_8ZwUG|$*4Pq7Kbc;L0YWVIH
z8^s#<_J~blEqr$^u)bzB!F^tB++}lIF)++aOoElSD~$Rt4P|P*q1KsTM8i})!;n3q
zQ8cM13{`oCS6OTl!z7Jr+E8Q?4I-ncA6Uy(tI<(-iH)2DCJSYfa!lS$ObJ%xXl^yK
zn?)<IGwPkAWyo&?eupj=({o}gA|HTI8)cgTq4uz0+Lkm=+mjZSNto4V4c^i`(eYaT
zt6Z*a>(x{xESPU_>a`R?v4U5julP%vB45?BITx+Wh`DOoR<7<a+NvQt3iY~ay&X_*
zA=C?XV%;nw@=2@C?Darx4$=Es(W}OsVA?8Ad&2r)vm!e|U@;Zg{z!qIqJ;HP5<Q=m
zm@-Wks~HcEEiOtK#gZ%BNyfKjSThD^#DHc9#%9z-W2t)B*sXrqSelBvN5i35ds8%~
zG_^PH9BrBj#amk@qSI2#LO_g0#=|o$av&m(M(10^fD&kll3<_(d1l-FGa>)9M8+k}
zIu?!+DH4=?oR;4=qePF9Xi$>nDA7C^9g2!l_&}8G3(UxY@ZeB<%XBD6qH;7frnDSb
z<85kh8V$(Oh>z9W3Yn1=Kar-RisTOhcl`0+*{EC_*5oveDNSQzieHMg`AHz;<A?`l
zgOmV?59NfV9@)jumgb)eML=?we=IaFiJCPw5$c$Q@qk*2v6dpNrFyNC(8psFp{9<e
z*^nHHMw;5%d#0K~5g9re2r6-3t}%~nOHR6G48UOe41~}1g!V}@(E>2`rfD2#%@)fI
zzt5rm*yuC6v3#NWiLun*)~#8fZvmyFowky;SK~meO|w&We<Uz1X=YKH4Fx5lvm$>v
zk}@RNJDty}bA&|M25EvIsLz;=<@q374S#YGr+&*+p2}L>X>aR0me%*J!&%Sv6;FG{
z)1K}aUiKVavSnROE3Q2m*Pg7S?t1^<N<Wx>b9&XlxcA;;3~u`ird2Cr_oRy(-mx`2
zls(UV>C_94XFY8zp1zEyFYDNQv-8&Z(UtR)ne&q%$opi9y~l7~`wRO)l(+qn#q?4a
z_OF_u!b|aYY?bd@`?H?P6;E5n)0S=@N(ZF0r)}9Y293_uTEF7y$#{CwyW$@)%pq==
z`!#+}b9eR6D#J{2sR)<$^xR_@Z<M>R|Bh#k2l9FkalrNz_YAT<#fiv<AIO^L5;?9U
z=6atnKqgSg>oW`(P~1Voh5cC@zus1U*OE2ss$Ow*W?Y@=u4mKJGL$};;s#OT)7-OM
z+SLh+?f|!BTJPEQ`kNx{*U1Yuls5N{tpa=gfVAspZq}y7iS%p&L@c|K59Nn(@os(T
z%;hsLk1cy^t{=+e?M)l^-ZR5eV1kS~Y_3W%EW<Hi^ftBtHo=00G7b|o)}Z^wvquMy
z#)F@w6bsRCw1vz><Q7p<q@dD*39~&B|7?$6mY(y^2N#0=(T;Y1q|+ZA8-ryGy4v2_
zGAE@%;}eS9GAhYRb4&q^$(so)BoJOuLP41{VhcF>p$lEcCJ6$8EsxQh<C5aXiu`oV
zlV(U9f<GA*ev$bHqj1;E<h#@E*=5Jv;{I%&YjKb?Kwi)UWbJpuWBHoVNtKAIlNZv}
zALb49)<QrtiONDu^09=*Y@tYOM)8AgX^t3}nXrF05T23b4;a{14){!@7kJ2H>M_SY
zcCY#+$Dfw#LP#J2CfSIh2x=jzK(bvulAku~HLI1*O14(r=RC#MtAFAww@*QdQ}8E$
zQGLVNVtCinsNOAm&BS<{R-Nj#f=(0YM4?B0zhIkTCBNr}+4Tf#V4S;d9CGtkZ!3y#
zL(-09t%~Qi^suj}f3>Cicps*A0)dY8;KxW?t~mpWB1IIii2mt-JVhRZJS{IY9T=DV
zawsmzdIx1>$2_7SGfQ@<ZCgw0_t4UcG!4BBC^JMNk7J5MipqW^IweJ5;9xEfsLIxw
z+5zM&B@XzIgGde`IgI28l0hW3>i4!*vq#mRZ+(odP=(UHt#tH`W8MOi6G%=X83E#}
zCOBl|G?J%~oKe3~%BRj_@N-D~NS;L!Kr)IXh-72_>5N&YVXK5*%j7KPiby0R-9R*U
zUUTS!Lf3;##xd2TNb`!U8I*ZNGtmsqG98%rhgG30472*hvZ}m4hJw$-pZv5@ebd>T
zn^rK1P3qNh38zxcuQ+3Px2RT~uJ{83Q(UM1s-g+XwX2QW&~$dFg79DHOxr52aCLN&
zQ7817rV~$xmemXZ5M+dcpe^c;t6JFC)!$Y%vkmHw>R%N;xI$o77S)cLc4*~TO&|Lm
z^;%7wZMacYYhv>kL4wap{tWB*bG56^SMsMA{5lZX3Iui-_$@9%C9`!k>|5%Ux-UQ_
zmG%BI+7PqGHMf#WP*O8Oi#o_(A^V@HSL!REy6@Dtu|HM+NBxi&Cy*`z%@Bwz=<{Ep
z9`$)s{|<BLoYL9F*@W?zQTIZkA7pCmB>8hJq>IMTMjLU33D43-3Qxdq&2%7;nU(zT
zN5X*^c^yi96aM6X1oGQOCY#5n^GdJ8uhsvJt^d}xU1{U4be{Twuczo;zUqQyiCyZv
zQ(U^_xLqt<^}Y+U)Ys5yU`p!M`G(#i##8-K8RKxjxckEHmz~Rbb!lTAX}EE-VV-3_
zQ2QERaeo_X(QIJmBJx<2Op~Y7PZ}GGs8O>65)l1#d66GOv7f1Xn*Pw$03kxvmagk>
z-uP+LYex2)>QZ}o`8$}mW~v=eM(6t?k*E?-q6F0XC+b`6XUtTiK!G~yQ%AAp!WktL
zZibQb2XbY}3T7CC(b$4!T}zcTLp&7od39aF;URyI<Ub+#36d<5_mF5nG<HH`=g5yR
zP8;<uhHhhyIW|E6NfPrvVA6{E_Z`*ji|U6RZ3WnA@{1h#=Ns*vw>j5_I-->#U24V7
zz17$N%`682*UE&-p$p7HZS$I4RTp=5rO*m%Ml@Kyd|k7Dh$)s}AcnS$tfI`jNXn6*
z#_K9<iOwis;APDMRlqhRlLtF3=R;9_DXmd`HCbXr5<@|S+=u)Emc7x{^9jrTQf=!k
zO<|HQh7QTUU=$~TT0PAGkQ20v_7@igZJTD+tJm2m$9c@dao?nKxoyy~Ry*Aa2?Hu$
z4S(_+lwM@iAN4-Z&fOS#jJFJ73i*#f0Ixn+W84{u3eg}DMqyD@R#px}3EK4y-9rYP
z#!!cU7EJzG^{=0-PSGx9Q0y{_H9l;m_{<MW-B>@G;n?s1pbRr=LI7-MKn{jNbU~8`
z%@m>YT|@A2Nd6W`iu@f0e}#mOGj?9zT;IpEY9w@ezmK6GAXy)K^1m=jRpW0k^zVTH
zZYQCLLd^j|D3Jr;bn8azO{S30&1#UbK`;;FzfiOL1`7WGg1#Ef8k!#W#{$X(DO20}
zecP$&T2~j%C6d6L9|szaQIWCGIP6l1{wgya>a*%!_6t6$<Npl>|5qe*ls7bwt_7-O
zr_^8e*RvPZ;{A`C|2vlaC-s^AwN5m)<V7HI4G{J6{_0vmU#L7HCOJCo4+lo2u!MGI
zoCq*zUASWY_=dLsYb<O&o$9|HXoAhB>&AZ=_#$gcTZhvHH})SIW)H4U$SW+}tY0ya
zFJf&MfN1OjS#Pv#f)uJGdd*g>d46GTg49A)bLvkIe+hPp*pYPKcAT>+Ab_9NWsw?4
z(75@S#x2AiA!~ktG(f3@`uyMwl~t!!485}T3bqI35vm58+M)hzh&MGt&hzTWLvv=d
zsX<Py+~p~&hs2i{kxc^9PZ|=21UCf+m7KDn>jQl)$z7h#NeeK1>Ze$935cK*>}$q#
z4}&pboV2Sgg(cjiL%r+e)q7UH;Uu$Qt%6mmxO04>DPhQYMZi~L5Y6#?aC{il`ePL-
z(UNoKu*_K|Vwg9aW#-uR_OTZ)T<r4M;z2u(bl<T<LNE{xHwwWCDL5reC`wH3ZE1;x
z0}AR^b2KJJ0-@$$bh<^12IZFVnUE;SE&3T)fFgo2Aqh|#u(%M2g@hFN2F9gkfr{4=
z2E`g^NM14OHe?CHWF82p3ZNYd^yK>mL{i8CZH_P=Q)YEd?!aP<FHbWE!yy2gu-{C8
z#^*tcVqpnwvkX~8f);3YQHrI)(S>O&X9-S3;miPrc@3D67*-2T9x(Ju2oA?4IV?#r
zp9w*RxIkJkCm$OWnVI%0Bou%%_<E3h3AjJKsw{AP@k6i4Uf}&V@F#yc1;rK_JfjvZ
z4rN{L#Y0&;e`)$1d(|qJXDhv3T>jGMFMocexH(hYyi(kiDek)6(3x#&%eHoATXwD5
zn3C>$jHzV%(!o^+<0)I=t1^7m)xHd0yTUhT_~sS9JHvOU9o?&T#^L<Us?7jG9qx2t
z)z!1N94*<D!~3%P!tm0e+YZ-@hc6tyME-F2{^}Mc&vR*d*<SS<8NtoJ?c@6d=1rmg
zNxLDq<~M_6hQZ~E@q2?XY3Mm52Vp%!$MhdKu-M$f>w*QRtn*G9*NUiv%?^WM(xSfc
zM3wqhGe0JBx%HSdiVXhCNr0ux5*PRy!3~)*ewq0S7h*;86;8B(Vpy+m;~Y5a%<C~W
zX%fLnCxWw1%tJR_!b~-86k2Fkf7V>4erWZmQ@rPdQkZKnc<?M@J{87_P7qy?FyVKc
z6I}`JHTSya*%G!%PmXKjE84d}WU>gAku6cbv5QaHZ49lt9u^ZP7A37Id%`*f{<$iq
zjgi?o4%Lo@e;5BmS3T6-1e-LTWiEbgBSk6A)gl%qESrYJBJxz5EutrBSITpxCM)!i
znpfmViQe3pKA_{d5n(TW>*8r&@vz2`QDVYnZPU*lGbF4TfZQ)eFJLcCY?+Kn<By@w
zuDi4G6^<N(dPpBIk)06AC17}6n^VjPfT{%<&TaA7+31WAAd(P>2z`fyfGme(B@j`-
zE(8=IBn#uws3<^iIxrQAj0<2{A~F<)v<RHo<CrFc{z?(KktR<_;TSC_MM1%Zu@Dpu
zMf8mxw7r=`7|<~?jSWJhLYlFyt(0K24MS)(4)|Pj$0rU<$p@kt!A^*z0ORen7?MsT
zxS5e|Bs-DxAX&E;WEVzzfq)%yOiL+x(DUQrjZg$eO$Xh>$3kI=Y+L8vjiEh2G#8p#
zv=x4NCWu~DYEU!>jE27ryreN0IT?Wgn&q{hz70AlCs@SJS${;DBZDmT{|d;IF92C&
z-m|z@Iis!aw%dDY@@n<6yKa?X^G~qXdTtA~D?)2VXuV$Yt@3Y_-`KV+^sNX7Gs3}}
z#mmC+OZmSxV8Od~##)#ytGh0xA3vRbN=%=Y(tF0zUE>*kA}uehGR!{iC_1&K*kkB|
z;!`KM3zj=&+pq1;@IC3m-X+T&k2h!Sic8Z*&z*IfSNd?9x4jXZ5pBDGbUn7pF<s-_
zU6Y}ydDUR*Y`AN(`WjX}Oxw<EM=vBp#OtiBU9DhzP1(A()tVGFl6=WlFp~95S@lZk
zj!fx}Ykis0=9SX!OlkK@>E2A~-lf5;!wpu{>b^Aej-@hNDx|F?*}UTP7GFBgmp1x-
zeU8Qc>%;ZQs*$zTWy@+`82V)O0Bd~Etmdq0wzPa{F!+FN-L+v`TVVda;MiBkT<X|Y
zYIxINh2WbleZsz0=Iv6`zG}<cf(4S^t~2gyGQ8c|&|hZQ>{ntC8Bp{4x<S1-yyv)q
zya?dJ0w}@qWkxh63_wi^!V~&Sm~v(S(#>D7B&}fWtfCF<9M~lMf(f-L>lj4LQ&%g!
zUTco)88Grmdom9!nqB>>$Kw(mxhyds4If;xc+_aI6)#)zow+<PO9gPbQ;}LvFm0-%
zAYtFIW}+);PMG?c7ac)v9FWs_XiL(OaEOH{{xWybW@M82kn*rH{H8KaD8rJg3a|GZ
zY_f+@yN(s+GwY2gP<VB5cZFla`cIaqlSfNC3dWhFE0N#NoIi}UZ&=>MdUv0J?JMa{
z7AE<mC*hhb$IBP5J5iY66P__+t_r|ly!wf^tT|DTfXp!tC?AIwK|v3G$2idgws~!W
zU<(*DGD@X-uBc4CvfG|wnaE=a*fZ!=(H3mc`nVu|duYpGj0#|kTuDcy9C-C>rjm#7
z*5pQJqgNZe31`YRmf{j-eWQYoY%B`*M)%G#m)MKN`X&{GjV#C|9dkfGE95H~J`iYt
zm9&38fRIdR>$M9{!geAG(TJdcPmr2*I4P!twIgz)@a(hC9*PL^%=C1CEHqLKNlOw5
zp`=L9loD(cMCujJ)t@`p(c0bGD73Y;oo^J*b+mPKeLB*q=jg>C0_EyXP5^&hqtM#C
zt8-UtTSuz9duMxhTUXC6U!$N4?EyKvc5V{7Inv&)=d^Z1F^r(l!BAvM@KdQBUEMod
zyE@xDJKDP1TRYdKwstoP9qnsP-3h#FkyJ+;jdgX>3R`J8h@jXZ*bT=ep^t72RC-TO
zYwOOA&d#px&W@d}-QB+PIBI~abK~6psBwPOFsJ^1jk6RW!3kj?8Xbq}$0Gqat%ZPa
z>crrt(eLg~<wl?OBoKhzYh#_jDPr?l$@M{)n+SnyIQ1$4xNH+}&)qQ^or#Eu5#T@!
z*Z`_RPYQqox|m=M!s-Ly5LP52gcL!J>R==V;b<fbM~ro8xmq7wcg=!uLV9i{1P(tq
zN%RVB%^;1y0cSikiya#!A!$s<FMxKMh4y9v?&@aYWCV%upFD>Z!{P_=I&kU5xl8@t
zOTM`oiZ==i0IjCs3RM6H6Ltg!0PBD}{DW5ZM+NZPL3%JeLn~i^@K{s`jA7TYj9rKq
z*o6_=&lIR)NbVKl#k$6!^JYyWbxpg^Hj@J|EAhZ*f;vQKvJl&Z&#<H5V<T{jBg_RB
z1O+@p)T58d)6jZoO%(KB26b0r6VZr-Fb<#*qPX~ubH^lt<0Ks2cVcbc=<F^4cnpNk
z!=#NzF`>D+IbQ$!4kGzylx=`Pi0{!WNIklSHB1I>Ea3oMH)w-q6a`L~y~0Sm<9D@i
zEC9F<3?30?A~Rt6K+uLa3LIm21pXlKzk%w>Z5X1iPIT1xcy!+dM2Tot{8C^^T}||~
zYTp2WaAu8#LkhjW0H?RCXby<N-AULlfp1%V;&`1Ioh4*YojzV>MPCQ_V!y3kKHe9_
z+BFwA!EsRG${W=KZoTti8LY+pV=_62+-I?<5q*TzGpiY)j%ocm1P=n59o+)KS#$+y
z+~_EE<>>AgHlVSivKI=e&pW+qE~I?wT<~K>ps^$bRs010<l~$=bfP}>p2Z6gaLYm4
zQvRxu*_to`#!Q+Ho8gl%9l_5L^Ev!HW1hs%Ir9{Lrp!-TJ_2lNIbea<fMv*X4`ag^
zd(v_gKSwRc@KbW!vgEk4bvp!GPa=@zM-az;PQRl~#o&?_5>InUOf5`tOXl0w{Iv72
zTh`q_=gVIXFY`MtSeJ}TfmNg3=7zJqr{tyH%f0D}gUkG(o7*$|&<cMt!=GH{Pp$Ch
zGW@ypGl6A(bgBQgw`9dzlkwJE6_>p`mJZN^`tkJ1r*1jUWVcnN9c8OU47VMw08aQ!
zcLAyL>eo;B3_ta3QQti=1Xnj()w+{Ur+%|Kz;ZS><sP`@IH);Xzx~j~<oiC>^6EbR
zu%0RG{P;h+JE-gK&8>Z&16|Bp?T!Jf@ol4HAm8|RdkO~%jo&XV94Iz^zbk*hWC*VB
z{xDG(rl9j306}=>Pg)WtxlDvNJ$N?1!llMp(FB;%EOKx#hXfsEA||Crb~`;!LkU2e
z*2pGCoexgjaEM1-x|t&<3r^z5X@CR0RfP9Ga9Vd>F(z$dLDCNBF;8?S3ml2Ogq@!C
zPjB|F4gU`B8p<ntjem8`HId9u<WJh6v!D8jF2tD|4!72%696&Rs2}mS0Q58xhk}cm
z{=}^*=LW>JG3rme6=tzC<y5v(bh!Q!$(3-Cae$MRInIsm#tB|s+*59HC)|@Y>UT=Y
z%wjpV1`^AfC+jxK=R#tISd^<fS*ZAO>5~lzS>1&>ESD^d3?!WYFJz`R$xN6Ng|l#W
z2E1#=W+wRrr!?i-kl=H*(>zbYqYo{7w_%F7Ee;1<ikAT;V+!OHJeV`iB??7hH<m6*
zdJ_h+Ev4Y8ivGmfgcI4ty4UJ+gFw$P-el3H>G37Jxm@tP6eb)Ar&yBkjvICGtGL$0
zF_Y_lqFf5Tcp>e{f=$v=o<!azae1Pbx@Yph_2X2EbBvQExzNT}EY6JwdTF3P1^=ob
zV%5KM>>RV^na!<j4zTxK`1=ZV_O7qClvueTW>dSiZ(f9AmFN;(pi9-_7O@8Orx3hN
zSM>^f4e>t$1OTp>v6)D44awNi#Q?Ylw-)Mct*4J7z{kJl;s=NTPz!)~DmuRdk(p0u
z+KbqRdMkj9N&w`Olh9eeDYFq=!f;yvw-r$WNDbY?lpnk~fiOy;+!Sn3H&cA%k%%Le
z^CO{;7ad7(*&-3xn-qiuYp$aSKtbqJTD#T~;6)bo7465}Y#nLnZmlOVZ6A_;B<MpL
zAEUotK2E+1F}Rajf{*T@Hl>tk%parP;dKWXGZKOaFb{P-eSm(t;RA73pAG{@7leUh
zBc}m%<pC6_Z*F+phmfTC(=aB2qpdevI3&!4U|Ik{0V+yOBWR;&=05ujeWC&0?{FwM
z<&Oa>QsR~9EYGnLX<V8Y&@lzF1cW63MdJCnsX;GOuV&gecxc}d%{UA|%xBc{^lJU|
z!YTq|qM7I$6?$VHOzDnxNsPx&((@YJkpe2mxuAngQK~2f5t#z+(;E$K*5Pk(22de*
z1Ho4qYs5sTQjj49-x=x-Kk*?T77#iG_uzg{jY_0f_+SwyhSi<)Zj=Ud0+&&1M@V1E
z@9WS*g!LS}zkwTD7lM2U?Vk@y`YkWQtqo@%xKH5)T}r0M8_nE*bfj-^P&18_=uAw1
zL2?oY3od@asR@tlMv(gy5{lghA>=EjfJ!U)ly;GSg6?Q;z4b7leo#-ieP7Tl@VH<!
zDodIrmm-<r#ln=dpnDZ@VQQ9GU;(fE$+~-y9L8$#ih>-0kjBF823(8=CkVxyK}@rR
zU{v8f4P1913Y$R=yb`2OpVa5dic`A3F(0qp=-|>@7`)bSz+#sHkASyv)ya6P7l+`L
zl!L$HEx&#MAX7j4Gy<r`bBLdIoX2qf=eVr5^m@@7j!gYf`b;oQ<{%FqiD8iuE`Xnt
z+$etHY!E+$P0^Qg$5;uY_23Z%F%#UX$>4Ebu!0}2sN%C~bMRPU>CLY6$W%JKke-UC
zPkcUoIFYGOg1Ce5s1H6*aX}QD0&IhIjL|yAxmAnN<6KHvv2*3w;?k_!n=RUM*JdiP
zFAiYh`dtq7Zf@M@xNM~#S(%cG|Laa?dt<hyDO=x|t!r4n(?NHo<1^fqDeA9uKIpG}
z&*G$DRJhuB%i6MPEHsU?w_SxV*)H2&Zoby|UG96fZ`+n#PcE6>%X8twy>pk(U3IIU
zTk-lbULQrBS$@k)yD#rf3&)oE<LMJ4nH)@A=FhM2Qihk(W0UD{B(=;(0kiT&YnM*_
z%e?PG{~dnY3SX1qYtpr+m-(mCXPyRtyTS)DJYd}53O|+MVZ38$qAc?>pJrd`zXNY9
zM=tEm7HxgG`*L_`Aj?;O{p7Xczj!9Yw=eZ)tLm<?U)_0a<a*^RPo=IOf8}hZs{3{0
z>&L%sd87J`=iaQlS^1_f({m)feQ>G&QhCO)4Q69YdD`fG&r))GTN6xT%M?y!gp1=`
zw!|?qU^r}mlYwx=kg=Afty^AhqeEDkuIjvH?aJmAqzkuS9lTzh?m3ipA5P~TP8$#Z
z=A!}d&$&ug3hFZj^&c{y<^NrG|GqeUVfd3(8<f4jT1wr(x9nB-R|i=m%+k;C4AFMW
z+76X3MPE+bvNmS7)xOTY-gbTVraAqrlqnc{!FXTB#|Ce@`aA=vHs-Cz`tuHP%n#c5
zgWZOk#`=S8hMR3B2>+1VeyG*}kFH!$dYHTh6podB@Y#5@2j&rhlaCt?p(ojA9HB?d
z;b91k49BheaMKVD_4|4?E-Din8UT7Xg4Y}Hq(Z%Wvbc)OV#KW9`w}zAg9j%IGC7T<
z?_ho3S6fHCmFKXS1w1VaaIDkJC+P8&9K%x74pyjRBRfoF9um|)8rjkJGn8asf4(G>
z@1ZQjuk;P3{zihnmUtc0(1OCV4nhJ8<b6!|vC5wEJpBs{-bVtLY7BjbKpzLtTYZA}
z^z<qg?noen=S+g;i#`IOuQ;iNyKmhMk3VO^(q8g1<idZ9tf<ePin(gp$3Hy5nppQe
pS3O($;TiS)Q}37GbMUP5UPCL}aBqz5W$QnRv&UHY-!Z7b{{#D!i248k

diff --git a/demo.ipynb b/demo.ipynb
index 3dc633e..ecdb8cb 100644
--- a/demo.ipynb
+++ b/demo.ipynb
@@ -2,9 +2,17 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": 6,
+   "execution_count": 5,
    "metadata": {},
    "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/home/yadonglu/sandbox/miniconda/envs/omni/lib/python3.12/site-packages/ultralytics/nn/tasks.py:714: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.\n",
+      "  ckpt = torch.load(file, map_location=\"cpu\")\n"
+     ]
+    },
     {
      "data": {
       "text/plain": [
@@ -365,7 +373,7 @@
        ")"
       ]
      },
-     "execution_count": 6,
+     "execution_count": 5,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -377,19 +385,34 @@
     "from PIL import Image\n",
     "device = 'cuda'\n",
     "\n",
-    "# dino_model = get_dino_model(load_hf_model=True, device=device)\n",
-    "som_model = get_yolo_model(model_path='omniparser/weights/best.pt')\n",
-    "\n",
-    "# caption_model_processor = get_caption_model_processor(\"Salesforce/blip2-opt-2.7b\", device=device)\n",
-    "# caption_model_processor['model'].to(torch.float32)\n",
-    "som_model.to(device)\n",
-    "\n"
+    "som_model = get_yolo_model(model_path='weights/omniparser/weights/best.pt')\n",
+    "som_model.to(device)\n"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": 7,
    "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.98it/s]\n"
+     ]
+    }
+   ],
+   "source": [
+    "\n",
+    "caption_model_processor = get_caption_model_processor(model_name_or_path=\"weights/omniparser/blipv2_ui_merge\", device=device)\n",
+    "\n",
+    "\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "metadata": {},
    "outputs": [
     {
      "data": {
@@ -397,7 +420,7 @@
        "(device(type='cuda', index=0), ultralytics.models.yolo.model.YOLO)"
       ]
      },
-     "execution_count": 7,
+     "execution_count": 8,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -408,7 +431,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 8,
+   "execution_count": 9,
    "metadata": {},
    "outputs": [
     {
@@ -416,8 +439,8 @@
      "output_type": "stream",
      "text": [
       "\n",
-      "image 1/1 /home/yadonglu/sandbox/OmniParser/imgs/pc_1.png: 800x1280 211 icons, 51.2ms\n",
-      "Speed: 3.7ms preprocess, 51.2ms inference, 160.7ms postprocess per image at shape (1, 3, 800, 1280)\n"
+      "image 1/1 /home/yadonglu/sandbox/OmniParser/imgs/pc_1.png: 800x1280 211 icons, 29.0ms\n",
+      "Speed: 4.1ms preprocess, 29.0ms inference, 121.1ms postprocess per image at shape (1, 3, 800, 1280)\n"
      ]
     }
    ],
@@ -458,14 +481,14 @@
     "ocr_bbox_rslt, is_goal_filtered = check_ocr_box(image_path, display_img = False, output_bb_format='xyxy', goal_filtering=None, easyocr_args={'paragraph': False, 'text_threshold':0.9})\n",
     "text, ocr_bbox = ocr_bbox_rslt\n",
     "\n",
-    "dino_labled_img, label_coordinates, parsed_content_list = get_som_labeled_img(image_path, som_model, BOX_TRESHOLD = BOX_TRESHOLD, output_coord_in_ratio=False, ocr_bbox=ocr_bbox,draw_bbox_config=draw_bbox_config, caption_model_processor=None, ocr_text=text,use_local_semantics=False)\n",
+    "dino_labled_img, label_coordinates, parsed_content_list = get_som_labeled_img(image_path, som_model, BOX_TRESHOLD = BOX_TRESHOLD, output_coord_in_ratio=False, ocr_bbox=ocr_bbox,draw_bbox_config=draw_bbox_config, caption_model_processor=caption_model_processor, ocr_text=text,use_local_semantics=False)\n",
     "\n",
     "\n"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 13,
+   "execution_count": 10,
    "metadata": {},
    "outputs": [
     {
@@ -532,87 +555,146 @@
        "  '58': array([       1617,        1187,         564,          63], dtype=float32),\n",
        "  '59': array([        602,        1944,         242,          32], dtype=float32),\n",
        "  '60': array([       2034,         277,          68,          39], dtype=float32),\n",
-       "  '61': array([     2965.8,      11.372,       73.33,      65.827], dtype=float32),\n",
-       "  '62': array([     2963.6,      104.42,      45.381,      45.756], dtype=float32),\n",
-       "  '63': array([     198.97,      28.516,      79.805,      38.483], dtype=float32),\n",
-       "  '64': array([     608.18,      181.26,      342.97,      50.053], dtype=float32),\n",
-       "  '65': array([     1300.6,         250,      33.767,      35.427], dtype=float32),\n",
-       "  '66': array([     304.13,      30.349,      37.342,      36.602], dtype=float32),\n",
-       "  '67': array([     667.74,      241.55,      47.529,      53.978], dtype=float32),\n",
-       "  '68': array([     822.62,       244.9,      47.754,      51.829], dtype=float32),\n",
-       "  '69': array([     770.31,      244.16,      46.905,      51.143], dtype=float32),\n",
-       "  '70': array([     1248.1,      251.22,       31.97,       32.78], dtype=float32),\n",
-       "  '71': array([     1048.9,      244.81,      45.524,          47], dtype=float32),\n",
-       "  '72': array([     438.99,      28.466,      35.963,      37.508], dtype=float32),\n",
-       "  '73': array([     954.49,      181.67,      94.131,      49.485], dtype=float32),\n",
-       "  '74': array([     363.65,      29.569,      32.883,      36.315], dtype=float32),\n",
-       "  '75': array([     497.99,      28.813,      32.513,      34.289], dtype=float32),\n",
-       "  '76': array([     1332.3,       188.4,      32.144,      34.772], dtype=float32),\n",
-       "  '77': array([     1137.5,      251.92,      34.499,      34.152], dtype=float32),\n",
-       "  '78': array([     880.41,      249.27,      39.986,       37.76], dtype=float32),\n",
-       "  '79': array([     954.73,      33.853,      23.966,      27.856], dtype=float32),\n",
-       "  '80': array([       2888,      21.725,      45.384,        44.9], dtype=float32),\n",
-       "  '81': array([     1997.3,      222.31,      34.341,      34.824], dtype=float32),\n",
-       "  '82': array([     625.14,      249.45,      29.211,      36.318], dtype=float32),\n",
-       "  '83': array([     554.33,      25.136,       36.99,       42.99], dtype=float32),\n",
-       "  '84': array([     2786.6,      22.758,      52.631,      49.663], dtype=float32),\n",
-       "  '85': array([     1812.5,       176.7,      57.761,      59.091], dtype=float32),\n",
-       "  '86': array([     3170.5,      26.987,      44.986,      46.376], dtype=float32),\n",
-       "  '87': array([     1284.7,      182.54,      32.466,      49.088], dtype=float32),\n",
-       "  '88': array([     423.68,       280.2,      28.832,      30.261], dtype=float32),\n",
-       "  '89': array([     1716.8,      179.54,      59.374,      50.265], dtype=float32),\n",
-       "  '90': array([      344.3,      185.95,      54.543,      42.996], dtype=float32),\n",
-       "  '91': array([     1515.7,      252.05,      33.876,      33.092], dtype=float32),\n",
-       "  '92': array([     1090.8,      243.67,      36.191,      50.504], dtype=float32),\n",
-       "  '93': array([     1248.6,      189.02,      32.175,      33.261], dtype=float32),\n",
-       "  '94': array([     963.23,      254.24,      40.774,      33.985], dtype=float32),\n",
-       "  '95': array([     1717.4,      174.03,      52.504,      48.792], dtype=float32),\n",
-       "  '96': array([     3075.8,      30.369,      39.574,      38.682], dtype=float32),\n",
-       "  '97': array([     3187.4,      107.39,      33.734,       40.21], dtype=float32),\n",
-       "  '98': array([     2966.8,       168.2,      91.261,       105.9], dtype=float32),\n",
-       "  '99': array([     30.782,      33.378,        33.3,      31.807], dtype=float32),\n",
-       "  '100': array([     1196.9,      324.51,      27.192,      25.869], dtype=float32),\n",
-       "  '101': array([     3172.2,      310.76,      44.785,      39.261], dtype=float32),\n",
-       "  '102': array([     1998.4,      173.44,      30.627,      32.274], dtype=float32),\n",
-       "  '103': array([     787.33,      241.95,      64.931,      57.226], dtype=float32),\n",
-       "  '104': array([     2692.7,      21.129,      51.957,      55.543], dtype=float32),\n",
-       "  '105': array([     1170.2,      247.59,      34.892,      42.735], dtype=float32),\n",
-       "  '106': array([     1910.2,      174.37,      58.716,      53.398], dtype=float32),\n",
-       "  '107': array([     2259.9,      225.75,      31.152,       32.17], dtype=float32),\n",
-       "  '108': array([     254.78,       181.7,      56.533,      44.474], dtype=float32),\n",
-       "  '109': array([     1047.4,      182.75,      71.279,      49.489], dtype=float32),\n",
-       "  '110': array([     424.87,      175.44,      29.783,      28.272], dtype=float32),\n",
-       "  '111': array([     892.42,      233.03,      55.596,      76.345], dtype=float32),\n",
-       "  '112': array([     2873.1,      180.61,      62.642,      47.626], dtype=float32),\n",
-       "  '113': array([     1996.8,      278.17,      31.037,      31.622], dtype=float32),\n",
-       "  '114': array([     11.883,      368.91,      564.39,      1578.2], dtype=float32),\n",
-       "  '115': array([     422.86,      225.74,      29.434,      28.735], dtype=float32),\n",
-       "  '116': array([     1794.2,      209.55,      92.729,       62.57], dtype=float32),\n",
-       "  '117': array([     1702.6,      235.84,      84.464,      33.964], dtype=float32)},\n",
-       " 'AutoSave')"
+       "  '61': array([     2965.8,       11.37,      73.327,      65.831], dtype=float32),\n",
+       "  '62': array([     2963.6,      104.43,       45.38,       45.75], dtype=float32),\n",
+       "  '63': array([     198.97,      28.514,      79.804,      38.484], dtype=float32),\n",
+       "  '64': array([     608.16,      181.26,         343,      50.052], dtype=float32),\n",
+       "  '65': array([     1300.6,         250,      33.764,      35.422], dtype=float32),\n",
+       "  '66': array([     304.13,      30.345,      37.345,      36.607], dtype=float32),\n",
+       "  '67': array([     667.74,      241.53,      47.522,      54.004], dtype=float32),\n",
+       "  '68': array([     822.62,      244.89,      47.756,      51.845], dtype=float32),\n",
+       "  '69': array([     770.31,      244.15,      46.912,      51.157], dtype=float32),\n",
+       "  '70': array([     1248.1,      251.23,       31.97,      32.777], dtype=float32),\n",
+       "  '71': array([     1048.9,      244.81,      45.531,      47.005], dtype=float32),\n",
+       "  '72': array([     438.98,      28.462,      35.958,      37.513], dtype=float32),\n",
+       "  '73': array([     954.49,      181.66,      94.134,      49.488], dtype=float32),\n",
+       "  '74': array([     363.65,      29.564,      32.889,      36.319], dtype=float32),\n",
+       "  '75': array([     497.99,      28.809,       32.51,      34.293], dtype=float32),\n",
+       "  '76': array([     1332.3,       188.4,      32.162,      34.782], dtype=float32),\n",
+       "  '77': array([     1137.5,      251.92,      34.494,      34.152], dtype=float32),\n",
+       "  '78': array([     880.41,      249.27,       39.99,      37.764], dtype=float32),\n",
+       "  '79': array([     954.73,      33.854,       23.97,      27.857], dtype=float32),\n",
+       "  '80': array([       2888,      21.728,      45.381,      44.893], dtype=float32),\n",
+       "  '81': array([     1997.3,      222.31,      34.338,      34.831], dtype=float32),\n",
+       "  '82': array([     625.13,      249.45,      29.214,      36.326], dtype=float32),\n",
+       "  '83': array([     554.33,      25.126,      36.996,      43.004], dtype=float32),\n",
+       "  '84': array([     2786.6,      22.757,      52.635,       49.66], dtype=float32),\n",
+       "  '85': array([     1812.5,       176.7,      57.783,      59.101], dtype=float32),\n",
+       "  '86': array([     3170.5,      26.972,      45.001,      46.404], dtype=float32),\n",
+       "  '87': array([     1284.7,      182.54,      32.421,      49.083], dtype=float32),\n",
+       "  '88': array([     423.68,      280.19,       28.83,      30.268], dtype=float32),\n",
+       "  '89': array([     1716.8,      179.53,       59.38,       50.26], dtype=float32),\n",
+       "  '90': array([     344.29,      185.94,       54.55,          43], dtype=float32),\n",
+       "  '91': array([     1515.7,      252.05,      33.876,      33.096], dtype=float32),\n",
+       "  '92': array([     1090.7,      243.67,      36.209,      50.511], dtype=float32),\n",
+       "  '93': array([     1248.6,      189.02,      32.176,      33.262], dtype=float32),\n",
+       "  '94': array([     963.23,      254.23,      40.772,      33.994], dtype=float32),\n",
+       "  '95': array([     1717.4,      174.03,      52.489,      48.778], dtype=float32),\n",
+       "  '96': array([     3075.8,      30.359,      39.588,      38.699], dtype=float32),\n",
+       "  '97': array([     3187.4,      107.38,      33.732,       40.21], dtype=float32),\n",
+       "  '98': array([     2966.8,       168.2,      91.264,      105.89], dtype=float32),\n",
+       "  '99': array([     30.783,      33.381,        33.3,      31.808], dtype=float32),\n",
+       "  '100': array([     1196.9,      324.51,      27.192,      25.871], dtype=float32),\n",
+       "  '101': array([     3172.2,      310.75,      44.795,      39.267], dtype=float32),\n",
+       "  '102': array([     1998.4,      173.44,      30.628,      32.281], dtype=float32),\n",
+       "  '103': array([     787.33,      241.94,      64.897,      57.237], dtype=float32),\n",
+       "  '104': array([     2692.7,      21.127,      51.957,      55.546], dtype=float32),\n",
+       "  '105': array([     1170.2,      247.59,      34.857,       42.74], dtype=float32),\n",
+       "  '106': array([     1910.1,      174.37,      58.718,      53.371], dtype=float32),\n",
+       "  '107': array([     2259.9,      225.75,      31.158,      32.173], dtype=float32),\n",
+       "  '108': array([     254.78,      181.69,       56.54,      44.482], dtype=float32),\n",
+       "  '109': array([     1047.4,      182.75,      71.273,      49.486], dtype=float32),\n",
+       "  '110': array([     892.42,      233.03,      55.595,      76.336], dtype=float32),\n",
+       "  '111': array([     424.87,      175.43,      29.786,      28.278], dtype=float32),\n",
+       "  '112': array([     2873.1,      180.62,      62.633,      47.619], dtype=float32),\n",
+       "  '113': array([     1996.8,      278.16,      31.037,      31.629], dtype=float32),\n",
+       "  '114': array([     11.928,      369.01,      564.33,      1577.8], dtype=float32),\n",
+       "  '115': array([     422.86,      225.74,      29.438,      28.741], dtype=float32),\n",
+       "  '116': array([     1702.6,      235.74,      84.462,      34.063], dtype=float32)},\n",
+       " ['Text Box ID 0: AutoSave',\n",
+       "  'Text Box ID 1: Presentation2',\n",
+       "  'Text Box ID 2: PowerPoint',\n",
+       "  'Text Box ID 3: General*',\n",
+       "  'Text Box ID 4: Search',\n",
+       "  'Text Box ID 5: Yadong',\n",
+       "  'Text Box ID 6: File',\n",
+       "  'Text Box ID 7: Home',\n",
+       "  'Text Box ID 8: Insert',\n",
+       "  'Text Box ID 9: Draw',\n",
+       "  'Text Box ID 10: Design',\n",
+       "  'Text Box ID 11: Transitions',\n",
+       "  'Text Box ID 12: Animations',\n",
+       "  'Text Box ID 13: Slide Show',\n",
+       "  'Text Box ID 14: Record',\n",
+       "  'Text Box ID 15: Review',\n",
+       "  'Text Box ID 16: View',\n",
+       "  'Text Box ID 17: Help',\n",
+       "  'Text Box ID 18: Record',\n",
+       "  'Text Box ID 19: Present in Teams',\n",
+       "  'Text Box ID 20: Share',\n",
+       "  'Text Box ID 21: Layout',\n",
+       "  'Text Box ID 22: A\" | A',\n",
+       "  'Text Box ID 23: 8 =#~',\n",
+       "  'Text Box ID 24: Shape',\n",
+       "  'Text Box ID 25: Find',\n",
+       "  'Text Box ID 26: Paste',\n",
+       "  'Text Box ID 27: New',\n",
+       "  'Text Box ID 28: Reuse',\n",
+       "  'Text Box ID 29: Reset',\n",
+       "  'Text Box ID 30: [t]',\n",
+       "  'Text Box ID 31: Shapes Arrange',\n",
+       "  'Text Box ID 32: Quick',\n",
+       "  'Text Box ID 33: Shape Outline',\n",
+       "  'Text Box ID 34: Replace',\n",
+       "  'Text Box ID 35: Dictate',\n",
+       "  'Text Box ID 36: Sensitivity',\n",
+       "  'Text Box ID 37: Add-ins',\n",
+       "  'Text Box ID 38: Designer Copilot',\n",
+       "  'Text Box ID 39: 4',\n",
+       "  'Text Box ID 40: Aa ~',\n",
+       "  'Text Box ID 41: 22E6',\n",
+       "  'Text Box ID 42: Slide',\n",
+       "  'Text Box ID 43: Slides',\n",
+       "  'Text Box ID 44: Section',\n",
+       "  'Text Box ID 45: Styles',\n",
+       "  'Text Box ID 46: Effects',\n",
+       "  'Text Box ID 47: Select',\n",
+       "  'Text Box ID 48: Clipboard',\n",
+       "  'Text Box ID 49: Slides',\n",
+       "  'Text Box ID 50: Font',\n",
+       "  'Text Box ID 51: Paragraph',\n",
+       "  'Text Box ID 52: Drawing',\n",
+       "  'Text Box ID 53: Editing',\n",
+       "  'Text Box ID 54: Voice',\n",
+       "  'Text Box ID 55: Sensitivity',\n",
+       "  'Text Box ID 56: Add-ins',\n",
+       "  'Text Box ID 57: Click to add title',\n",
+       "  'Text Box ID 58: Click to add subtitle',\n",
+       "  'Text Box ID 59: Click to add notes',\n",
+       "  'Text Box ID 60: Shape'])"
       ]
      },
-     "execution_count": 13,
+     "execution_count": 10,
      "metadata": {},
      "output_type": "execute_result"
     }
    ],
    "source": [
-    "label_coordinates, parsed_content_list[0].split(': ')[1]"
+    "label_coordinates, parsed_content_list#[0].split(': ')[1]"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 9,
+   "execution_count": 11,
    "metadata": {},
    "outputs": [
     {
      "data": {
       "text/plain": [
-       "<matplotlib.image.AxesImage at 0x7c1b13b5f5b0>"
+       "<matplotlib.image.AxesImage at 0x7ff3e91f4fb0>"
       ]
      },
-     "execution_count": 9,
+     "execution_count": 11,
      "metadata": {},
      "output_type": "execute_result"
     },
@@ -640,238 +722,6 @@
     "plt.imshow(image)\n"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "# wrapped Omniparser"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 6,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Parsing image: examples/pc_1.png\n",
-      "\n",
-      "image 1/1 /home/yadonglu/sandbox/screenparsing_collab/screenparsing/omniparser/examples/pc_1.png: 800x1280 210 icons, 55.6ms\n",
-      "Speed: 7.7ms preprocess, 55.6ms inference, 1.5ms postprocess per image at shape (1, 3, 800, 1280)\n",
-      "boxes cpu\n",
-      "Time taken for Omniparser on cpu: 2.029506206512451\n"
-     ]
-    }
-   ],
-   "source": [
-    "from utils import get_som_labeled_img, check_ocr_box, get_caption_model_processor,  get_dino_model, get_yolo_model\n",
-    "import torch\n",
-    "from ultralytics import YOLO\n",
-    "from PIL import Image\n",
-    "from typing import Dict, Tuple, List\n",
-    "import io\n",
-    "import base64\n",
-    "\n",
-    "\n",
-    "config = {\n",
-    "    'som_model_path': 'finetuned_icon_detect.pt',\n",
-    "    'device': 'cpu',\n",
-    "    'caption_model_path': 'Salesforce/blip2-opt-2.7b',\n",
-    "    'draw_bbox_config': {\n",
-    "        'text_scale': 0.8,\n",
-    "        'text_thickness': 2,\n",
-    "        'text_padding': 3,\n",
-    "        'thickness': 3,\n",
-    "    },\n",
-    "    'BOX_TRESHOLD': 0.05\n",
-    "}\n",
-    "\n",
-    "\n",
-    "class Omniparser(object):\n",
-    "    def __init__(self, config: Dict):\n",
-    "        self.config = config\n",
-    "        \n",
-    "        self.som_model = get_yolo_model(model_path=config['som_model_path'])\n",
-    "        # self.caption_model_processor = get_caption_model_processor(config['caption_model_path'], device=cofig['device'])\n",
-    "        # self.caption_model_processor['model'].to(torch.float32)\n",
-    "\n",
-    "    def parse(self, image_path: str):\n",
-    "        print('Parsing image:', image_path)\n",
-    "        ocr_bbox_rslt, is_goal_filtered = check_ocr_box(image_path, display_img = False, output_bb_format='xyxy', goal_filtering=None, easyocr_args={'paragraph': False, 'text_threshold':0.9})\n",
-    "        text, ocr_bbox = ocr_bbox_rslt\n",
-    "\n",
-    "        draw_bbox_config = self.config['draw_bbox_config']\n",
-    "        BOX_TRESHOLD = self.config['BOX_TRESHOLD']\n",
-    "        dino_labled_img, label_coordinates, parsed_content_list = get_som_labeled_img(image_path, self.som_model, BOX_TRESHOLD = BOX_TRESHOLD, output_coord_in_ratio=False, ocr_bbox=ocr_bbox,draw_bbox_config=draw_bbox_config, caption_model_processor=None, ocr_text=text,use_local_semantics=False)\n",
-    "        \n",
-    "        image = Image.open(io.BytesIO(base64.b64decode(dino_labled_img)))\n",
-    "        # formating output\n",
-    "        return_list = [{'from': 'omniparser', 'shape': {'x':coord[0], 'y':coord[1], 'width':coord[2], 'height':coord[3]},\n",
-    "                        'text': parsed_content_list[i].split(': ')[1], 'type':'text'} for i, (k, coord) in enumerate(label_coordinates.items()) if i < len(parsed_content_list)]\n",
-    "        return_list.extend(\n",
-    "            [{'from': 'omniparser', 'shape': {'x':coord[0], 'y':coord[1], 'width':coord[2], 'height':coord[3]},\n",
-    "                        'text': 'None', 'type':'icon'} for i, (k, coord) in enumerate(label_coordinates.items()) if i >= len(parsed_content_list)]\n",
-    "              )\n",
-    "\n",
-    "        return [image, return_list]\n",
-    "    \n",
-    "parser = Omniparser(config)\n",
-    "image_path = 'imgs/pc_1.png'\n",
-    "\n",
-    "#  time the parser\n",
-    "import time\n",
-    "s = time.time()\n",
-    "image, parsed_content_list = parser.parse(image_path)\n",
-    "device = config['device']\n",
-    "print(f'Time taken for Omniparser on {device}:', time.time() - s)\n"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 3,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "0: 800x1280 210 icons, 49.4ms\n",
-      "Speed: 5.7ms preprocess, 49.4ms inference, 1.1ms postprocess per image at shape (1, 3, 800, 1280)\n",
-      "boxes cpu\n",
-      "Time taken for Omniparser finetuned YOLO module on cpu: 0.2898883819580078\n"
-     ]
-    }
-   ],
-   "source": [
-    "from utils import get_som_labeled_img, check_ocr_box, get_caption_model_processor,  get_dino_model, get_yolo_model, predict_yolo\n",
-    "import torch\n",
-    "from ultralytics import YOLO\n",
-    "from PIL import Image\n",
-    "from typing import Dict, Tuple, List\n",
-    "import io\n",
-    "import base64\n",
-    "\n",
-    "\n",
-    "config = {\n",
-    "    'som_model_path': 'finetuned_icon_detect.pt',\n",
-    "    'device': 'cpu',\n",
-    "    'caption_model_path': 'Salesforce/blip2-opt-2.7b',\n",
-    "    'draw_bbox_config': {\n",
-    "        'text_scale': 0.8,\n",
-    "        'text_thickness': 2,\n",
-    "        'text_padding': 3,\n",
-    "        'thickness': 3,\n",
-    "    },\n",
-    "    'BOX_TRESHOLD': 0.05\n",
-    "}\n",
-    "\n",
-    "class OmniparserYOLO(object):\n",
-    "    def __init__(self, config: Dict):\n",
-    "        self.config = config\n",
-    "        self.som_model = get_yolo_model(model_path=config['som_model_path'])\n",
-    "\n",
-    "    def parse(self, image):\n",
-    "        draw_bbox_config = self.config['draw_bbox_config']\n",
-    "        BOX_TRESHOLD = self.config['BOX_TRESHOLD']\n",
-    "        xyxy, logits, phrases = predict_yolo(model=self.som_model, image_path=image, box_threshold=BOX_TRESHOLD)\n",
-    "        # print('xyxy:', xyxy)\n",
-    "        xyxy = xyxy.tolist()\n",
-    "        # formating output\n",
-    "        return_list = [{'from': 'omniparserYOLO', 'shape': {'x':coord[0], 'y':coord[1], 'width':coord[2]-coord[0], 'height':coord[3] - coord[1]},\n",
-    "                        'text': 'None', 'type':'icon'} for i, coord in enumerate(xyxy)]\n",
-    "        \n",
-    "        return [None, return_list]\n",
-    "    \n",
-    "parser = OmniparserYOLO(config)\n",
-    "image_path = 'imgs/pc_1.png'\n",
-    "image = Image.open(image_path)\n",
-    "\n",
-    "#  time the parser\n",
-    "import time\n",
-    "s = time.time()\n",
-    "_, parsed_content_list = parser.parse(image)\n",
-    "device = config['device']\n",
-    "print(f'Time taken for Omniparser finetuned YOLO module on {device}:', time.time() - s)"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "# florence caption model"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 9,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/home/yadonglu/anaconda3/envs/pilot/lib/python3.9/site-packages/transformers/utils/generic.py:342: UserWarning: torch.utils._pytree._register_pytree_node is deprecated. Please use torch.utils._pytree.register_pytree_node instead.\n",
-      "  _torch_pytree._register_pytree_node(\n",
-      "/home/yadonglu/anaconda3/envs/pilot/lib/python3.9/site-packages/huggingface_hub/file_download.py:1132: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.\n",
-      "  warnings.warn(\n"
-     ]
-    }
-   ],
-   "source": [
-    "from transformers import AutoProcessor, AutoModelForCausalLM \n",
-    "import torch\n",
-    "device = 'cpu'\n",
-    "torch_dtype = torch.float16 if device == 'cuda' else torch.float32\n",
-    "model = AutoModelForCausalLM.from_pretrained(\"/home/yadonglu/sandbox/data/orca/florence-2-base-ft-fft_rai_win_ep5/epoch_5\", torch_dtype=torch_dtype, trust_remote_code=True).to(device)\n",
-    "processor = AutoProcessor.from_pretrained(\"microsoft/Florence-2-base\", trust_remote_code=True)\n"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 11,
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "['settings or configuration options.']"
-      ]
-     },
-     "execution_count": 11,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "from PIL import Image\n",
-    "prompt = \"<CAPTION>\"\n",
-    "image_path = 'imgs/settings.png'\n",
-    "image = [Image.open(image_path).convert('RGB')]\n",
-    "inputs = processor(images=image, text=[prompt]*len(image), return_tensors=\"pt\").to(device=device)\n",
-    "generated_ids = model.generate(input_ids=inputs[\"input_ids\"],pixel_values=inputs[\"pixel_values\"],max_new_tokens=1024,num_beams=3, do_sample=False)\n",
-    "generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)\n",
-    "generated_text = [gen.strip() for gen in generated_text]\n",
-    "generated_text"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 1,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "import cv2"
-   ]
-  },
   {
    "cell_type": "code",
    "execution_count": null,
@@ -896,7 +746,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.9.18"
+   "version": "3.12.0"
   }
  },
  "nbformat": 4,
diff --git a/util/__pycache__/__init__.cpython-312.pyc b/util/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cf380e082148fe03e30ecbbb776bec440be7dd9a
GIT binary patch
literal 147
zcmX@j%ge<81goF^Oasx6K?FMZ%mNgd&QQsq$>_I|p@<2{`wUX^%Sb;XKQ~psGBG7T
zFFmJJzc?{3B`Lo`-#<4mGa#|3IJHQ>v?Mb}KR!M)FS8^*Uaz3?7l%!5eoARhs$CH)
U&<I8#E(S3^GBYwV7BK@^0K}9d^#A|>

literal 0
HcmV?d00001

diff --git a/util/__pycache__/box_annotator.cpython-312.pyc b/util/__pycache__/box_annotator.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..678898d44e0d60389bb742a5dd645dee6d0c41db
GIT binary patch
literal 9812
zcmb_CZEzG<ax=5v-@B4lXeA_uFH0+y6_W86HpT)W5D0;d@EKvUjCN+F6}z+Y%t%Oh
z_72zaL)5v-qVB4Y%C17rUFvj&tKwAr!>Qy_uF4-@<ws`0Db^FJPVvP_kzb1;<>dY(
z-EVgG0|_U-%b@M|UcdMH_3Q5Urn`r~_xaouJh#67uaw$FQNP26`B=-9hqF+*LGct%
zXQ(VaMrWBZCTkh9WUXUX8u3iVHfAHGear!+CF9Jx#$2S&nsH}6W1g&c%u7=Yb%f$=
zS1I0pi!rE=`FO`wYRu0&0S0&v@48Bl1$j5LLi0@2dmo2It-5tMEi1b7<g}8`iCjjv
zoe`m;+eT-mGr~xe*4+bwA|$a_jxxIKP%e{`bT27RaT!5@PGdy_2Fi_xUqR&tB~W8D
zPmM7=J!TQCQ$#4W!ztLLV4w2W<FLhBcq?z??I{QE5S)Ttu%?&@;+=wvcL{dhEx36P
z)V=WY37(Xn_g}S*d0iC#<2Ug^!8f&e1G*t0z&8j%AtW>)Jwmfl@bFE5YZP39%UFlt
z!yD5`dHH5ot7$$EZPC34b94Qom{T|<CvkrX@^`cF^s~tfC(CRqC$YT5T}q1+?09ZQ
z<c-RlAhS7<<wQ1}<t7AnMn*heku^Il<z~~oz{lMNIYp7u<1>mN?;~woB8j?SyNJfl
z5sk#yTE(1??qf$Mh4MHhNBCeBz|=AltI#7ffunJO<yhn=W6p(TxH6e(L+O=C%49lu
zQ50aOU1?D%uUJLqQtK9EGiewfgUzP6nT*1wWwx(MPMA{?<&BZO)a{{6O@Touy>(lu
zrFm&GtqApW<s>lAcBL{o&g9fUeIL4e;?LAmt#0<aB=AI@E5uOzH8Sa~bl}v)G{+Ou
zsaeBBaT3}Uk;eC4<r%}g?pxp}Oc<wS?ZAD!MDF8Z9o20_8M>>oOWjTQG0;Yx2vPSF
ze07|+mT%q1&F0d4A~!2Y8E!i1G}a;zSHtxmrU2ZaR9dAHqyvG<K#Mk;ss&m&o;<1*
zS~$~a*`Q@!u9RwrmaWp~fR^2C%~Mf&B<hgxvXX)bLI@fVG$Lq15C#x+>Q-6Er2Y>>
zW!w_#5TD;a*E5;R3O(~2pM!HW(<5^tKc1WGIhhsHr#ML#q@Ecio#_Ewf-`TA`1HK)
zOeE4`T1g}>hifmExQT9qRpjRZT%k%$RNr$8)_2{-j!r22#jU%b2$;q8-UaIy&bH##
z-B?D7+xIM3|Iyj{5av=Nx=l_BqM*C0SB`GaaN|No*4^^O^mKwWbT_%45_0;opxY%u
znUTa~MUFto3qPW}uR!uQC<Td=XR4wl6GKsXyHe4J;xO?lbE~XhvmBrnne&4%-k~y6
zwU$zzqB`()p7NL!s-=SbkjJF;Ch(Pa=3RMr-UHM&c+<QS*cflDBGNpa_p07^7}YD%
zsw3}H&{)W$Qd4L%k39-n4|&X&vDCKl$f-@{$ZDzjOwL8m#<TK%rE(soTB<Y68k`@e
z3U4vht$G0Zr_f{`dv2B6u)+rK$d8y?Wj)c9YL)1BKUXd9Y}!a;H8_jO_r>Sn@K{vu
z`;=&f^GbA;57hA7@fb7ER0DWkr`Qd8sHtu1u^(A(l}|cvMO%0itSukRhk(Y8^`qqz
zAQ5Wnsr5aV0hMo1T~FwRD=^=vI`d7ci-+4~Lkb|N%P>w2A<TzW=XZ{T_0%9)wOMuL
zH;FrxsL9pF^wppmLVcn(;V!h@av9^_gj1Mr$T#Mj^5J}Qep8KnH@1l;H4N6!tZw?>
zY@+52cbmLb%R1ZePwlSum^IV3@-4hwZ87w78KlHJpyfnuVGCuzy8vUW#pEMugm+&Y
z01IMx51c)3zO`m&adVAo3DzD^8`MVF)srl!6(qZX4b|*(PnDio`^a~zeDlz78@)SZ
zh4<2FD(dI{4Ghn1-100t0G^#(=S~@Z9eO4yiOZUf9k#1C?c>fJQtOu{YFs<SkPDja
z5~t%L&q)$DUv`BIhY{Q#@Nklo>zp89;8Hr1K`##dPO-u((yZa3YoOw6mI>E%qSsm>
zUq=C{)Vhz~xt#GrVY|%m;v7aB=VV1XkG^TY$mYs%2l#|CxO6Gjn6YlfWKNO<c{*pf
z&)~`m9BjS9aGV`Vu@{WF7g$abSn$UyQm*%KaRc?_E)Y*Wk>)Q{BsU`qJj=-jJMlVp
zsxL>jYdn|Bz($5-Ru&W%*t#$(%?KA_EDox-3xgCm{3KF<aH>l6HS$`0O#4-}8&15T
z^-F1GLyZ$nqf4At42KSPd3cV?LKIgG7!Y~k!iDL1WinT97wPPDPEuHTW?GPD(=xD!
zyO(FH#BeT=6DWK?d#)1($~mz!#>V6E^K}9;INgsOb@+<5kbpcJui9T142{+=Rp%EO
z<7?fau4o<UvYi26b!g-{we9UP+viL*pU<;zCv##7!YeT;?AsIXOXat%p9n`F5yQXg
zSg2!A2c`lYY+9^Zpj<b<ULa+i3w*-3686IZs`dKJ{;oP2$UM0M_7j1|ley{nuIPGO
zu8MVkwYq+oA)@^ooUeLOf_+rj7>U|+OFBEDTc(v>1btOM7;^{c;Oov*PE-cDq@cU7
zb{b<W!>L9OQ1StoxYmE+Yi-+|0~6!HH(vPU^REuvM-OJ=H?x0xv$f~f2kx&xD{7I*
zgbIjS?*BL7C431H5Oqp;jY~TL=$4!`A>kWc>O@d+<#i{9m!tF3LNuaVlCyn!)8NUG
z(Ztciubn=6_-x|z(1}yShu_d`5+_awx+Nosx^-@TZeF)@vI5g!$0F>?R5W<N5DLo*
z2c}}If-hj*K0XgtFsHjDNR9xd47kUfoEV>w$li6&grJOqcus@kToYJeOhKXxJq!a9
zc>QI$jNxl1rgO4x9~>GUK0H8(NfYC`V|s?r(H+A>BZm|H{n0iFy+#S0IthI@sT~3O
zRMHjzx)rsc(`lWV>(!Zg_|5e}*(dGAUJEd7Y=cPAh~F-yd1X@fka%rUNKZ^Ex}7xU
z%H_P?K-%M6^5O)EHWNU69S#;-hl9n};pY2v7aoCfXqlPGrbQxO^sHsv85;i+9tqtW
z-Dw`0$HF8Njed#z4`54Is7IqT6>Pj4=qv;vOu83p{+YbA@25Yy6Y6|O4bd+DLVvNn
z^JZc>vHEJEz2|QGvxW9&KauaWzj$qA;ou^(cyNhX>)v~}dw-#Ozt%mp=)N1=UI=bq
z>AxL(>T{)Jp?u+zo!Zi=b@W~D`jlQc^vF&%bu95Wr<SKaiha@e91IDCZ@90+#I1$k
z)|KsF1fN<9M{bN=A1gU1U&A9e<qN)d;@XK~Q=}N)wA8S8)GV6YZe*@!ekvAQJ8s68
z<Nx8Y`}`05RIs%eY$-XZaNFX@FOsX>KhOP5<EO9xb=&Qy24JzK&DXov!fi|a*UuvT
z&?7I^+5OAhhq+=nQjD}Ct)Ar`DDJlIF0}4`<g#`8OKvI<eBiNlh6>*83&)l`B|p{F
za<_5k?Z%zONZS&Bx1*;3f03R=`{V7kot;{6TXARS>ef~MZu~$2{<;qob{_a_S7GM~
z=z;<3y1ENHhmBc<;I>CWN}`W2C5k%A3^U(iah7>t6o5R(2-r8lNLVP$EEaRjWh_+Y
zhgiH~IcR}mz%qixDafKioGa1iEQO%BXkW5xY@fDwP&+!Ny(#{SH&BswrxtxtYkH{|
zHY=vY@3pqy>|X9B5-$a*NXJd@viE)e!ceiLeZ{r9^+Ru=CAK>A@%(3@zfcQ3hYBr+
zJ`+AqYj2$WO{Oq7R%jW6p*wbeZ28lZ%bPxJUpRITRy}_0IMFevxozont!YP99c#^O
zMI-kjn{T!)w|(2__W4UcqR~i8qYM=cFL<R^Fzl#hWN;)J#$162K4v1JyAz3Qj-Sb3
z-J3|fHN$1fJ&r_z&m|KHiCkNbfy0CSXNE^5^lf$9!QuWx$0hK_Dd}l~AgM9kihhlR
ze!0$w)4HSVe@Ym#OW^)Oc!zx!aO5NiLn!GKfL~FBH*!2B49y9En23`99l%xU0pqth
zOFO9DFWim2Qi#1$jI<UvZ@qbZ`FL^jmSV@2;^vNG$F>KdpsjZ;(6o4FX;=$)6#~(c
z4KQ%Rnl_ajSOc?fExEAf#+nCfUMjM=<inbu+SFPKU@b_sY<`H;N-?T)SFw#P?%Dgm
zH$&UPYk|;vm#<we*{}hW!&^!YQgu?H$Wqf%aybGAyyPM{SR_*NkgAsow=bPpd3x2d
z^89k5(6qZm$ibR!?|ZG+S|0^)m>~v~K(Z32Lj&bTG9`PU0$DCd`=f-RBzbKTLqgWO
zj3ZGk;xJZ%xWhI=-lWDW5|bQK7lJndK$6}9x2cSavE|#5I2e+^Ntj6cGx*7P-Cv=K
z!N$e@>-MF_rB|1muLo8Rt<oP3uAcrl^sCoDJXr|r)tq|?`$>EYn-8j(aIQfGay*q?
zRrUZm66D*=cjTG6F=T%#ZS1o$#-boi@&FxU-?ULy##rmd5SaiSQdY*;s%!ByWCR(M
zn%P^|XHzY;eO1X4mxIU?y%h<?3*R~{S#AzMT8!H9M8FFVVV~5GV-6xXgkS)Gj3P4L
zSB3&Y;6s3eY<xILKtKY2Fk}_Sz6Ib4b<gEp7+u_Y?FWneQt$PNJFbo^2mdIX$G`B_
z;<iQUdgo6Ld~kXtv~qB@;lm^ECkmdJW{nwItw<bL0J}1@`kzp#*Q!dJ^2^t0=~h|u
zHCmxf9LDp8eDif$Gy8d(MD@Einp^H`S2tYkG90Bm=x(E#q|Ywec!p$vY<auNNWp5B
z5%Nz~9HZJ)`>pcsPXnI@7S5GrgdC|TyjoxbM%_YmMUIZd0TwdFN$lhS=x!qknn2_5
z)@oU|&5%!Lc8P<pWxbFs#j;PvOSA0C7`9;<%AJuifc<m$$v*}F*3h_PWps7#oyI*^
zhVOZs7Ds<F^1&M`{QG}W@a|g86ukSc9KPoWELwm3!zKE*Bl5xIit@g=`qu4^J;hM_
zFPy7QKlc|x@dbNr>zaKn(tgdqU|+O<=?L8mG%UWfva`_Gx!U}3^PRx+n)CU!K--c~
z2yEA!+YS3D=azsaio!PpO6;K%Bm<u*>8n)Uh52`qy>esj9ZwTvRV|PowepasCwU#f
z8D}u>Q!N!N5K?I})2~|d0fvH%mP7TbKGhHT8|N)NK=9;)YEX8PTvxd-WheSFa%?nN
z(O4Ts!#X$zIH;_Hs~e+$C*&Xx>s5NIbG|PJko~LKca@Guwc+kzC9uJ=1hBWV*E+1h
z?;o;ubzilTudZ3`f08b2D2eYadCWT2Xd-IiI^hyvlaoU7B3u5LgLxYa4<Nb0v(*rx
z8XRN18za3N20byh5^+KZw2uY1BE~{3jbEJ!amb$G0x>o_18E}2Y~@7wrPxj-H_c{*
zlmdAOQkO7z!A1@~l}eQ^qh)lmqbCPW?qky_mV+!A=8DSOn1(N&G1fTVB&!CYK7M8t
zVr)7t#Mv4m6@Eu2AuTnT%kcYPx5np8$O7$&KTSr|eJR0v06#80{8s>Yp5SXp`91}o
zwtP2%<xu90X_f=j`4_>;;S1K36{bG+l)r@_^~W9sPcV5*N_nS(ZV7oHZ_403IAMj;
zhj$-5JcD<%OuzdAZ^_$fN~AIC$y+Z%zZ{0qHsjq(M)_2x+~b71z-Hue$sNz&Y!%LJ
z)IKse@ickv92hljSbWV!?NSdE5_&>XFM>V<=z@}qG3qiR+hd40j$jzU2?Qj@g_zv@
zk|@0bSlv}kec&BdzHiyGJLE^Rt4_JRdqXpfzm&;A@<M(&UO)WrfS~+K0N_4_TNm85
z5#%?N)zu6EWXrajf#tv|U1;gP+tOQT>HTE;ot9@8hTzuKnx4|S_GvGTXs5=t#-t{Q
zcLF(0nz<90DYkE2bblEPms~&vd{}SC3VqwNRonU8r`?~u`d7Pe?>wR%Kd)WjZXf3~
z;ZljB-lh*@v@^&Y!SLv9`Y7`aMWvvCKw{xoF%Z$55ySr^o(yphL&oRKLD+$G1VKN7
zg9r{G0F{?B2`F0$-4p33f*}MO=^zIkatJ_0&Su5%{`cWT1i!|C$H027P~Ujnw$@TB
z<qs~#3cijjgGFDUTw9B@Y1U?pD!G+dp(9?1#6NB;L|y_Ubk!hR3y~L%kpRC8ZCP<^
zv6r=1UeiWX+T>-BOCEwqi2E9jGFOg$=?NDD;l){PORx6yVeQCS?Oaw1WHo0NJpM8l
zE3F0Jt|}`lZ3SQK%HVe_`W>wP5&Sq!el}vIvf(GORU@FX)c*PZUo=ma%KGIiLIT$R
za8}klp~Yvlw%uA!zjo-1_Jg$MNo&?LvF<268f}2w)I8qVBp5ZqQuJw!h!pcbx=ozP
zPR~ncvEEvf+m2Um3&^TU0*Pz&=DGp!<plcR|JRU6nFP;9P>TVT;UA(4N35JgVaBP$
z+|=)#FB!4;%M$(%FTCSrJPaiZP1C=ndhSp?zoXp$L^XU(_5PN6_FMZK3>|(zA^c|6
aO4HALW4F<}ANoD?j)$9vXnKk!wEqX{V|wQR

literal 0
HcmV?d00001

diff --git a/utils.py b/utils.py
index 40fb079..2fc180d 100755
--- a/utils.py
+++ b/utils.py
@@ -18,7 +18,7 @@ import numpy as np
 # %matplotlib inline
 from matplotlib import pyplot as plt
 import easyocr
-reader = easyocr.Reader(['en']) # this needs to run only once to load the model into memory # 'ch_sim',
+reader = easyocr.Reader(['en'])
 import time
 import base64
 
@@ -33,44 +33,19 @@ import supervision as sv
 import torchvision.transforms as T
 
 
-def get_caption_model_processor(model_name="Salesforce/blip2-opt-2.7b", device=None):
+def get_caption_model_processor(model_name_or_path="Salesforce/blip2-opt-2.7b", device=None):
     if not device:
         device = "cuda" if torch.cuda.is_available() else "cpu"
-    if model_name == "Salesforce/blip2-opt-2.7b":
-        from transformers import Blip2Processor, Blip2ForConditionalGeneration
-        processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
+    from transformers import Blip2Processor, Blip2ForConditionalGeneration
+    processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
+    if device == 'cpu':
         model = Blip2ForConditionalGeneration.from_pretrained(
-            "Salesforce/blip2-opt-2.7b", device_map=None, torch_dtype=torch.float16
-            # '/home/yadonglu/sandbox/data/orca/blipv2_ui_merge', device_map=None, torch_dtype=torch.float16
-        )  
-    elif model_name == "blip2-opt-2.7b-ui":
-        from transformers import Blip2Processor, Blip2ForConditionalGeneration
-        processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
-        if device == 'cpu':
-            model = Blip2ForConditionalGeneration.from_pretrained(
-            '/home/yadonglu/sandbox/data/orca/blipv2_ui_merge', device_map=None, torch_dtype=torch.float32
-        ) 
-        else:
-            model = Blip2ForConditionalGeneration.from_pretrained(
-            '/home/yadonglu/sandbox/data/orca/blipv2_ui_merge', device_map=None, torch_dtype=torch.float16
-        )
-    elif model_name == "florence":
-        from transformers import AutoProcessor, AutoModelForCausalLM 
-        processor = AutoProcessor.from_pretrained("microsoft/Florence-2-base", trust_remote_code=True)
-        if device == 'cpu':
-            model = AutoModelForCausalLM.from_pretrained("/home/yadonglu/sandbox/data/orca/florence-2-base-ft-fft_ep1_rai", torch_dtype=torch.float32, trust_remote_code=True)#.to(device)
-        else:
-            model = AutoModelForCausalLM.from_pretrained("/home/yadonglu/sandbox/data/orca/florence-2-base-ft-fft_ep1_rai_win_ep5_fixed", torch_dtype=torch.float16, trust_remote_code=True).to(device)
-    elif model_name == 'phi3v_ui':
-        from transformers import AutoModelForCausalLM, AutoProcessor
-        model_id = "microsoft/Phi-3-vision-128k-instruct" 
-        model = AutoModelForCausalLM.from_pretrained('/home/yadonglu/sandbox/data/orca/phi3v_ui', device_map=device, trust_remote_code=True, torch_dtype="auto")
-        processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True) 
-    elif model_name == 'phi3v':
-        from transformers import AutoModelForCausalLM, AutoProcessor
-        model_id = "microsoft/Phi-3-vision-128k-instruct" 
-        model = AutoModelForCausalLM.from_pretrained(model_id, device_map=device, trust_remote_code=True, torch_dtype="auto")
-        processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
+        model_name_or_path, device_map=None, torch_dtype=torch.float32
+    ) 
+    else:
+        model = Blip2ForConditionalGeneration.from_pretrained(
+        model_name_or_path, device_map=None, torch_dtype=torch.float16
+    )
     return {'model': model.to(device), 'processor': processor}
 
 
@@ -94,14 +69,12 @@ def get_parsed_content_icon(filtered_boxes, ocr_bbox, image_source, caption_mode
         cropped_image = image_source[ymin:ymax, xmin:xmax, :]
         croped_pil_image.append(to_pil(cropped_image))
 
-    # import pdb; pdb.set_trace()
     model, processor = caption_model_processor['model'], caption_model_processor['processor']
     if not prompt:
         if 'florence' in model.config.name_or_path:
             prompt = "<CAPTION>"
         else:
             prompt = "The image shows"
-            # prompt = "NO gender!NO gender!NO gender! The image shows a icon:"
 
     batch_size = 10  # Number of samples per batch
     generated_texts = []
@@ -387,117 +360,15 @@ def get_xywh_yolo(input):
     return x, y, w, h
     
 
-def run_api(body, max_tokens=1024):
-    '''
-    API call, check https://platform.openai.com/docs/guides/vision for the latest api usage. 
-    '''
-    max_num_trial = 3
-    num_trial = 0
-    while num_trial < max_num_trial:
-        try:
-            response = client.chat.completions.create(
-                                    model=deployment,
-                                    messages=body,
-                                    temperature=0.01,
-                                    max_tokens=max_tokens,
-                                )
-            return response.choices[0].message.content
-        except:
-            print('retry call gptv', num_trial)
-            num_trial += 1
-            time.sleep(10)
-    return ''
-
-def call_gpt4v_new(message_text, image_path=None, max_tokens=2048):
-    if image_path:
-        try:
-            with open(image_path, "rb") as img_file:
-                encoded_image = base64.b64encode(img_file.read()).decode('ascii')
-        except: 
-            encoded_image = image_path
-    
-    if image_path:
-        content = [{"type": "image_url","image_url": {"url": f"data:image/jpeg;base64,{encoded_image}"}}, {"type": "text","text": message_text},]
-    else:
-        content = [{"type": "text","text": message_text},]
-
-    max_num_trial = 3
-    num_trial = 0
-    call_api_success = True
-
-    while num_trial < max_num_trial:
-        try:
-            response = client.chat.completions.create(
-                            model=deployment,
-                            messages=[
-                                        {
-                                        "role": "system",
-                                        "content": [
-                                            {
-                                            "type": "text",
-                                            "text": "You are an AI assistant that is good at making plans and analyzing screens, and helping people find information."
-                                            },
-                                        ]
-                                        },
-                                        {
-                                        "role": "user",
-                                        "content": content
-                                        }
-                                    ],
-                            temperature=0.01,
-                            max_tokens=max_tokens,
-                        )
-            ans_1st_pass = response.choices[0].message.content
-            break
-        except:
-            print('retry call gptv', num_trial)
-            num_trial += 1
-            ans_1st_pass = ''
-            time.sleep(10)
-    if num_trial == max_num_trial:
-        call_api_success = False
-    return ans_1st_pass, call_api_success
-
 
 def check_ocr_box(image_path, display_img = True, output_bb_format='xywh', goal_filtering=None, easyocr_args=None):
     if easyocr_args is None:
         easyocr_args = {}
     result = reader.readtext(image_path, **easyocr_args)
     is_goal_filtered = False
-    if goal_filtering:
-        ocr_filter_fs = "Example 1:\n Based on task and ocr results, ```In summary, the task related bboxes are: [([[3060, 111], [3135, 111], [3135, 141], [3060, 141]], 'Share', 0.949013667261589), ([[3068, 197], [3135, 197], [3135, 227], [3068, 227]], 'Link _', 0.3567054243152049), ([[3006, 321], [3178, 321], [3178, 354], [3006, 354]], 'Manage Access', 0.8800734456437066)] ``` \n Example 2:\n Based on task and ocr results, ```In summary, the task related bboxes are: [([[3060, 111], [3135, 111], [3135, 141], [3060, 141]], 'Search Google or type a URL', 0.949013667261589)] ```"
-        # message_text = f"Based on the ocr results which contains text+bounding box in a dictionary, please filter it so that it only contains the task related bboxes. The task is: {goal_filtering}, the ocr results are: {str(result)}. Your final answer should be in the exact same format as the ocr results, please do not include any other redundant information, please do not include any analysis."
-        message_text = f"Based on the task and ocr results which contains text+bounding box in a dictionary, please filter it so that it only contains the task related bboxes.  Requirement: 1. first give a brief analysis. 2. provide an answer in the format: ```In summary, the task related bboxes are: ..```, you must put it inside ``` ```.  Do not include any info after ```.\n {ocr_filter_fs}\n The task is: {goal_filtering}, the ocr results are: {str(result)}."
-
-        prompt = [{"role":"system", "content": "You are an AI assistant that helps people find the correct way to operate computer or smartphone."}, {"role":"user","content": message_text},]
-        print('[Perform OCR filtering by goal] ongoing ...')
-        # pred, _, _ = call_gpt4(prompt)
-        pred, _, = call_gpt4v(message_text)
-        # import pdb; pdb.set_trace()
-        try:
-            # match = re.search(r"```(.*?)```", pred, re.DOTALL)
-            # result = match.group(1).strip()
-            # pred = result.split('In summary, the task related bboxes are:')[-1].strip()
-            pred = pred.split('In summary, the task related bboxes are:')[-1].strip().strip('```')
-            result = ast.literal_eval(pred)
-            print('[Perform OCR filtering by goal] success!!! Filtered buttons: ', pred)
-            is_goal_filtered = True
-        except:
-            print('[Perform OCR filtering by goal] failed or unused!!!')
-            pass
-            # added_prompt = [{"role":"assistant","content":pred},
-            #        {"role":"user","content": "given the previous answers, please provide the final answer in the exact same format as the ocr results, please do not include any other redundant information, please do not include any analysis."}]
-            # prompt.extend(added_prompt)
-            # pred, _, _ = call_gpt4(prompt)
-            # print('goal filtering pred 2nd:', pred)
-            # result = ast.literal_eval(pred)
     # print('goal filtering pred:', result[-5:])
     coord = [item[0] for item in result]
     text = [item[1] for item in result]
-    # confidence = [item[2] for item in result]
-    # if confidence_filtering:
-    #     coord = [coord[i] for i in range(len(coord)) if confidence[i] > confidence_filtering]
-    #     text = [text[i] for i in range(len(text)) if confidence[i] > confidence_filtering]
     # read the image using cv2
     if display_img:
         opencv_img = cv2.imread(image_path)
@@ -520,87 +391,4 @@ def check_ocr_box(image_path, display_img = True, output_bb_format='xywh', goal_
     return (text, bb), is_goal_filtered
 
 
-def get_pred_gptv(message_text, yolo_labled_img, label_coordinates, summarize_history=True, verbose=True, history=None, id_key='Click ID'):
-    """ This func first 
-    1. call gptv(yolo_labled_img, text bbox+task) -> ans_1st_cal
-    2. call gpt4(ans_1st_cal, label_coordinates) -> final ans
-    """
-
-    # Configuration
-    encoded_image = yolo_labled_img
-    
-    # Payload for the request
-    if not history:
-        messages = [
-            {"role": "system", "content": [{"type": "text","text": "You are an AI assistant that is great at interpreting screenshot and predict action."},]},
-            {"role": "user","content": [{"type": "text","text": message_text}, {"type": "image_url","image_url": {"url": f"data:image/jpeg;base64,{encoded_image}"}},]}
-            ]
-    else:
-        messages = [
-            {"role": "system", "content": [{"type": "text","text": "You are an AI assistant that is great at interpreting screenshot and predict action."},]},
-            history,
-            {"role": "user","content": [{"type": "image_url","image_url": {"url": f"data:image/jpeg;base64,{encoded_image}"}},{"type": "text","text": message_text},]}
-            ]
-
-    payload = {
-        "messages": messages,
-        "temperature": 0.01, # 0.01
-        "top_p": 0.95,
-        "max_tokens": 800
-        }
-
-    max_num_trial = 3
-    num_trial = 0
-    call_api_success = True
-    while num_trial < max_num_trial:
-        try:
-            # response = requests.post(GPT4V_ENDPOINT, headers=headers, json=payload)
-            # response.raise_for_status()  # Will raise an HTTPError if the HTTP request returned an unsuccessful status code
-            # ans_1st_pass = response.json()['choices'][0]['message']['content']
-            response = client.chat.completions.create(
-                            model=deployment,
-                            messages=messages,
-                            temperature=0.01,
-                            max_tokens=512,
-                        )
-            ans_1st_pass = response.choices[0].message.content
-            break
-        except requests.RequestException as e:
-            print('retry call gptv', num_trial)
-            num_trial += 1
-            ans_1st_pass = ''
-            time.sleep(30)
-            # raise SystemExit(f"Failed to make the request. Error: {e}")
-    if num_trial == max_num_trial:
-        call_api_success = False
-    if verbose:
-        print('Answer by GPTV: ', ans_1st_pass)
-    # extract by simple parsing
-    try: 
-        match = re.search(r"```(.*?)```", ans_1st_pass, re.DOTALL)
-        if match:
-            result = match.group(1).strip()
-            pred = result.split('In summary, the next action I will perform is:')[-1].strip().replace('\\', '')
-            pred = ast.literal_eval(pred)
-        else:
-            pred = ans_1st_pass.split('In summary, the next action I will perform is:')[-1].strip().replace('\\', '')
-            pred = ast.literal_eval(pred)
-
-        if id_key in pred:
-            icon_id = pred[id_key]
-            bbox = label_coordinates[str(icon_id)]
-            pred['click_point'] = [bbox[0] + bbox[2]/2, bbox[1] + bbox[3]/2]
-    except:
-        # import pdb; pdb.set_trace()
-        print('gptv action regex extract fail!!!')
-        print('ans_1st_pass:', ans_1st_pass)
-        pred = {'action_type': 'CLICK', 'click_point': [0, 0], 'value': 'None', 'is_completed': False}
-
-    step_pred_summary = None
-    if summarize_history:
-        step_pred_summary, _ = call_gpt4v_new('Summarize what action you decide to perform in the current step, in one sentence, and do not include any icon box number: ' + ans_1st_pass, max_tokens=128)
-        print('step_pred_summary', step_pred_summary)
-    return pred, [call_api_success, ans_1st_pass, None, step_pred_summary]
-    # return pred, [call_api_success, message_2nd, completion_2nd.choices[0].message.content, step_pred_summary]
-