Lap tetejére
Hirek Tesztek RSS facebook
IT-Extreme hírportál
Érdekességek
MaxRay - 2008-08-18

A könyvek és régebbi nyomtatott anyagok digitalizálása rendkívül fontos ám a legtöbb módszerrel igen idÅ?igényes, fáradtságos és költséges munka. A Carnegie Mellon módszer változtathat ezenâ?¦

 
A számítógép és pontosabban
internet
használók milliói összesítve naponta 160 könyvnek megfelelő szöveget digitalizálnak több mint 99 százalékos pontossággal, és teszik mindezt úgy, hogy közben csak néhány máspercet töltenek a feladattal és valójában nem is tudják, hogy az a beütött néhány
karakter
milyen fontos munka része.
 
A rendszer alapja hogy az eredeti
CAPTCHA
rendszert módosították és állították szolgálatba a hosszadalmas gépelés és digitalizálás felgyorsítására, oly módon hogy a felhasználók egyszerre csak két szót írnak be egy hagyományos regisztrációs lap részeként, ám ezzel segítenek megfejteni egy
OCR
program számára olvashatatlan kifejezést. A rendszer
reCAPTCHA
–nak hívják és olyannyira hatékony, hogy az emberi szövegbeviteli ipari szabványt elérve több, mint 99 százalékos pontosságú.
 
Ezen felül az így elvégezhető munka elképesztő mennyiségü. Naponta az emberek több mint 100 millió CAPTHA kifejezést oldanak meg, és mindegyik csak néhány másodpercet vesz igénybe. Ezt a hatalmas, több százezer órányi a felhasználók által végzett kihasználatlan emberi munkát állítja hasznos szolgálatba a reCAPTCHA. A rendszer első évében több mint 440 millió szót oldottak meg a felhasználók anélkül, hogy erről tudomásuk lett volna, mely megfelel 17600 könyv manuális, kézi begépelésének. Mára hetente több mint 4 millió szót fejtenek meg a rendszer segítségével, és ahogy egyre többen használják a reCAPTCHA –t a szám úgy növekszik.
 
Ez azzal együtt hogy rendkívül teljesítmény, csak egy példája annak, hogy hatalmas „emberi számítási kapacitás” fogható munkára ami egyébként kihasználatlan maradna, olyan feladatok elvégzésére, melyek a jelenlegi számítógépek és programok számára megoldhatatlan feladatokat jelentenének.
 
Remélhetőleg a későbbiekben hazánkban is alkalmazni fognak ilyen vagy ehhez hasonló rendszert(eket) a jelenleg csiga tempóban haladó Magyar nyelvü anyagok digitális konverziójára.