Google začal vyhľadávať aj v zoskenovaných dokumentoch
Uncategorized October 31st, 2008Spoločnosť Google vo štvrtok ohlásila nasadenie technológie rozpoznávania písma pre vyhľadávanie v texte zoskenovaných dokumentov.
Podľa oznámenia sa spoločnosť pokúša pomocou OCR algoritmov rozpoznať text v obrázkoch uložených len vo formáte PDF, ktorý je zrejme najčastejšie používaný k ukladaniu zoskenovaných dokumentov. Ukážkou nájdeného výsledku v zindexovanom texte naskenovaného dokumentu v PDF je napríklad aktuálne prvý výsledok tohto vyhľadávania.
Spoločnosť Google používa OCR algoritmy pre rozpoznávanie písma minimálne v dvoch ďalších produktoch. V minulosti potvrdila používanie OCR aj pri detekcii tzv. obrázkového spamu pri filtrovaní spamu na Gmail a samozrejme rozpoznávanie textu je používané aj pri skenovaní kníh do Google Book Search.
zdroj: dsl.sk
Recent Comments