Neco ke skenerum

gp1 gp1 na nextra.sk
Čtvrtek Květen 6 12:40:58 CEST 2004


Rozpoznávanie písma scanerom

Dovolím si poznamenať, že rozpoznávanie závisí aj od hlbky ostrosti. Scanery
z výbojkou, alebo halogénovými žiarovkami majú hlbku ostrosti aj 15 mm od
skla a nové scanery z LED diodami asi 1-3 mm. Teda ak je predloha trocha
pokrčená, alebo zakrivená, napríklad knihy, tak bude časť textu orezany.
Samozrejme záleží na kvalite predlohy, ktorú nevidiaci nevie posúdiť.
Zobral som teda jednu stránku románu z rozpitou sadzbou na nekvalitnom
papieri, kde písmenká pod mikroskopom vyzerali ako kríženec ježka a
chobotnice. Tak a teraz nech OCR ukáže svoje schopnosti. Reklamy z textom
tlačeným na laserovej tlačiarni nikdy nenahradia tento jednoduchý praktický
test, ktorý si môže urobižť každý z nás.
Testoval som rôzne programy, od Rekognity štandart, Rekognitu 5,0 po
Finereader. Rekognita štandart nedokázala rozpoznať objekty a stlpcovú
sadzbu, verzia 5,0 mala asi 30 percent vadných slov a Finereader 6,0 asi 2
skomolené slová. Nedal sa zahambiť ani produkt HP I.R.I.S., ktorý mal
výsledky porovnatelné z Finereaderom.  Pritom ho dostaneme s každým scanerom
HP na inštalačnom CD a je integrovaný do prostredia scanovacieho programu.
Tento program chodí korektne v každom operačnom systéme a nespôsobuje jeho
zrútenie ako Finereader. Scanovací program HP precizion scan dokázal
vytiahnuť text dokonca aj z papiera  čiernohnedej farby, ktorá vznikla ako
dôsledok obliatia knihy nejakou tekutinou. Ani za pomoci optických pomôcok
mi nik nedokázal prečítať ani písmenko.  Z tejto stránky som vytiahol asi 80
percent perfektného textu bez chýb...
Peter


> Od: "Marek Durila" <marekdurila na seznam.cz>
> mám sice starší skener, Canoscan 670/666U, ale do brašny se vejde v
> pohodě, je poměrně rychlý, dobře snímá a neni ani tak hlučný. Takže
> ze skenerů buď Canon nebo se mi i kvalitou osvědčil i Umax, který
> také dobře rozpoznává. Naopak co mám zkušenosti s HP skenery,
> nejsou tak kvalitní, ale nevim, jak ty nové!

Mam presne opacnou zkusenost. Drive jsem mel HP 4P a ted mam Canon Canoscan
N670u a pri porovnani rozpoznaneho textu (samozrejme na tom samem) je HP 4P
lepsi.

Nejsou to jenom nejake drobnosti. U ceho Canon nasekal obrovske mnozstvi
chyb, to HP zvladnul bez chybicky.

Jen ma zkusenost...

Michal





Další informace o konferenci Fanda