Skanowanie, technologia OCR
1. Skarner - oprogramowanie OCR do rozpoznawania znaków.
OCR (Optical Character Recognition) - jest to zestaw technik lub oprogramowanie służące do rozpoznawania znaków i całych
tekstów w pliku graficznym.
2. Istota rozpoznawania znaków za pomocą OCR.
To najważniejsza faza rozpoznawania tekstu. Program musi poprawnie zidentyfikować rozpoznane znaki. Czy znak w dokumencie to litera B? A może cyfra 8? Jeśli program pomyli się w tym miejscu, ucierpi na tym wynik całego procesu.
Aby rozpoznać tekst możliwie bezbłędnie, programy wykorzystują kombinacje różnych metod, które z grubsza można podzielić na dwie kategorie: rozpoznawanie wzorów (pattern matching) i rozpoznawanie cech (feature matching). Więcej informacji na ten temat w dalszej części artykułu.

3. Skarnowanie tekstu:
www.komputerswiat.pl/jak-to-dziala/2009/08/optyczne-rozpoznawanie-tekstu---ocr.aspx
4. Przetwarzanie tekstu do różnych formatów:
Formaty dokumentów tekstowych:
*.txt
*.doc
*.rtf
Dokumenty tworzone przez edytory tekstu