Skanowanie, technologia OCR

1. Skarner - oprogramowanie OCR do rozpoznawania znaków.

OCR (Optical Character Recognition) - jest to zestaw technik lub oprogramowanie służące do rozpoznawania znaków i całych

tekstów w pliku graficznym.

2. Istota rozpoznawania znaków za pomocą OCR.

To najważniejsza faza rozpoznawania tekstu. Program musi poprawnie zidentyfikować rozpoznane znaki. Czy znak w dokumencie to litera B? A może cyfra 8? Jeśli program pomyli się w tym miejscu, ucierpi na tym wynik całego procesu.

Aby rozpoznać tekst możliwie bezbłędnie, programy wykorzystują kombinacje różnych metod, które z grubsza można podzielić na dwie kategorie: rozpoznawanie wzorów (pattern matching) i rozpoznawanie cech (feature matching). Więcej informacji na ten temat w dalszej części artykułu.

alf.jpgAby ułatwić komputerom rozpoznawanie tekstu, opracowano specjalne czcionki. Pierwszy wariant OCR-A  istnieje od 1968 roku. Ponieważ jest to dość trudno czytelny krój pisma, opracowano później czcionkę OCR-B
 

3. Skarnowanie tekstu:

www.komputerswiat.pl/jak-to-dziala/2009/08/optyczne-rozpoznawanie-tekstu---ocr.aspx

4. Przetwarzanie tekstu do różnych formatów:

Formaty dokumentów tekstowych:

*.txt

*.doc

*.rtf

Dokumenty tworzone przez edytory tekstu