momente şi schiţe de informatică şi matematică
To attain knowledge, write. To attain wisdom, rewrite.

Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (VIII)

Bash | ImageMagick | R | Tesseract
2024 sep

Constituim un nou model "cop.traineddata" — unde "cop" ar aminti "cls|obj|prof" și de fapt… vine de la "COPy", că asta facem: „copiem” conținuturi ad-hoc din poze ale orarelor (folosind Tesseract, Bash, ImageMagick), în scopul de a le organiza (folosind R) ca set coerent de date.

Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (VII)

Bash | ImageMagick | Tesseract
2024 sep

Avem chipurile, un „tabel de date” aferente unui orar școlar — dar cu defectele rezultate în urma formatării vizuale (sub Microsoft-Word sau -Excel) și în urma scanării ulterioare a paginilor PDF respective; în plus, textul de pe imaginile respective este scris "de mână"…
În aceste condiții, rezultatele recunoașterii textului folosind Tesseract sunt nesatisfăcătoare; însă dacă separăm cumva celulele din tabelul inițial și aplicăm Tesseract pe „celulele PNG” rezultate (scurtându-le pe cât se poate — eliminând astfel, în mod implicit, diversele artefacte), atunci textul conținut va fi mult mai bine, recunoscut.

Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (VI)

Bash | ImageMagick | Tesseract
2024 sep

Investigând rezultatele OCR curente, ajungem la o idee aproape evidentă: dacă indicăm recunoașterea corectă pentru fiecare zonă de pixeli aferente câte unui cuvânt, atunci Tesseract ar recunoaște fără greșală, toate imaginile inițiale (… presupunând că acestea nu conțin și zone-artefact).

Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (V)

Bash | ImageMagick | Tesseract
2024 sep

Trecând automat de la "-22.04", la Ubuntu-24.04, mi s-a instalat (automat) o interfață grafică de "telefon inteligent" (și ca obiect central figurează "Office"); eu unul prefer pe cea coerentă, pe care o obținusem fără efort pentru Xubuntu-22.04 (și… ignor, în continuare, "Office").

Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (IV)

Bash | ImageMagick | Tesseract
2024 aug

Pentru situația concretă în care este provocat, Tesseract „judecă” (angajând rețeaua de neuroni cu care este înzestrat) pe baza unor exemple de recunoaștere corectă pe care a fost „antrenat” în prealabil — exemple din care s-au sintetizat anumite caracteristici de limbă și de scriere, organizate din timp în anumite "baze de date" (fișiere "*.traineddata").


Prev
Next
ALL (355 titluri)

vezi Cărţile mele (de programare)

despre acesta ~ Home
(sau https://vlad.bazon.net/

Factoriale | Graficul funcţiilor

PGN browser | chess JS engine

Load

in /slightchess

/slightchess

626 partide analizate cu Crafty

(R) Computer Art | Decoraţiuni

Aplicaţii şcolare (javaScript)

Sinteze: