Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (VIII)
Constituim un nou model "cop.traineddata
" — unde "cop" ar aminti "cls|obj|prof
" și de fapt… vine de la "COPy", că asta facem: „copiem” conținuturi ad-hoc din poze ale orarelor (folosind Tesseract, Bash, ImageMagick), în scopul de a le organiza (folosind R) ca set coerent de date.
Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (VII)
Avem chipurile, un „tabel de date” aferente unui orar școlar — dar cu defectele rezultate în urma formatării vizuale (sub Microsoft-Word sau -Excel) și în urma scanării ulterioare a paginilor PDF respective; în plus, textul de pe imaginile respective este scris "de mână"…
În aceste condiții, rezultatele recunoașterii textului folosind Tesseract sunt nesatisfăcătoare; însă dacă separăm cumva celulele din tabelul inițial și aplicăm Tesseract pe „celulele PNG” rezultate (scurtându-le pe cât se poate — eliminând astfel, în mod implicit, diversele artefacte), atunci textul conținut va fi mult mai bine, recunoscut.
Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (VI)
Investigând rezultatele OCR curente, ajungem la o idee aproape evidentă: dacă indicăm recunoașterea corectă pentru fiecare zonă de pixeli aferente câte unui cuvânt, atunci Tesseract ar recunoaște fără greșală, toate imaginile inițiale (… presupunând că acestea nu conțin și zone-artefact).
Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (V)
Trecând automat de la "-22.04", la Ubuntu-24.04, mi s-a instalat (automat) o interfață grafică de "telefon inteligent" (și ca obiect central figurează "Office"); eu unul prefer pe cea coerentă, pe care o obținusem fără efort pentru Xubuntu-22.04 (și… ignor, în continuare, "Office").
Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (IV)
Pentru situația concretă în care este provocat, Tesseract „judecă” (angajând rețeaua de neuroni cu care este înzestrat) pe baza unor exemple de recunoaștere corectă pe care a fost „antrenat” în prealabil — exemple din care s-au sintetizat anumite caracteristici de limbă și de scriere, organizate din timp în anumite "baze de date" (fișiere "*.traineddata").
vezi Cărţile mele (de programare)