Spoločnosť Google vo štvrtok ohlásila nasadenie technológie rozpoznávania písma pre vyhľadávanie v texte zoskenovaných dokumentov.

Podľa oznámenia sa spoločnosť pokúša pomocou OCR algoritmov rozpoznať text v obrázkoch uložených len vo formáte PDF, ktorý je zrejme najčastejšie používaný k ukladaniu zoskenovaných dokumentov. Ukážkou nájdeného výsledku v zindexovanom texte naskenovaného dokumentu v PDF je napríklad aktuálne prvý výsledok tohto vyhľadávania.

Spoločnosť Google používa OCR algoritmy pre rozpoznávanie písma minimálne v dvoch ďalších produktoch. V minulosti potvrdila používanie OCR aj pri detekcii tzv. obrázkového spamu pri filtrovaní spamu na Gmail a samozrejme rozpoznávanie textu je používané aj pri skenovaní kníh do Google Book Search.

zdroj: dsl.sk