Jak zarządzać wydatkami

Jak zamienić dokument w elektroniczny plik

AdobeStock
Dzięki oprogramowaniu OCR nie musimy przepisywać notatek i łatwo odnajdziemy każdy dokument w domowym e-archiwum
Coraz częściej przechowujemy dokumenty w postaci cyfrowej. Studenci i uczniowie skanują różne materiały, ale to nie rozwiązuje problemu edycji pliku. Mamy co prawda dokument w komputerze, ale nie możemy z nim nic zrobić.
Skan to tylko graficzne przedstawienie pliku. Nic nie zmienia zapisanie go w pdf. – nadal pozostaje jedynie obrazem. Aby taki plik można było edytować, trzeba go albo przepisać, co trwa długo, albo skorzystać z oprogramowania OCR, które jedną stronę przetworzy w ciągu minuty. Poza tym dzięki oprogramowaniu OCR w domowym archiwum komputerowym odnajdziemy każdy dokument, bo wyszukamy go według fraz i słów kluczowych.
OCR (Optical Character Recognition) to oprogramowanie służące do rozpoznawania znaków i całych tekstów w pliku graficznym. Oprócz samego tekstu identyfikuje także krój i wielkość czcionek, tabele, akapity i szpalty. Następnie zmienia je w postać cyfrową, czytelną dla urządzeń komputerowych. Rozpoznany tekst może zostać wyeksportowany do pliku tekstowego Word, arkusza Excel lub zapisany w formacie pdf. (tzw. searchable pdf., czyli pdf. z możliwością przeszukiwania tekstowego).

Ważna jest dokładność

Programy OCR do domowego użytku nie są wymagające. Wystarczy sama aplikacja i zwykły skaner o rozdzielczości 300 dpi. Znane i sprawdzone OCR-y to m.in : FreeOCR.net, ABBYY FineReader, TopOCR, SimpleOCR, Scan2Encrypt, Scanitto Pro, ABBYY FineReader, OmniPage Professional czy Scan2Encrypt. Wiele z tych programów ma też wersje mobilne. Proste mechanizmy OCR znajdują się także w rozwiązaniach udostępnianych na dyskach w chmurze, takich jak: Dropbox, One Drive Microsoftu czy Google Drive. Jedną z najważniejszych cech oprogramowania OCR, jaką należy brać pod uwagę przy wyborze, jest jego dokładność, czyli trafność w rozpoznawaniu znaków. Pamiętajmy, że różnica między 98 proc. a 99 proc., choć może się nam wydawać mało istotna, jest jednak znaczna. Na stronie A4 znajduje się średnio 1800 znaków. Zatem przy dłuższym, np. 10-stronicowym dokumencie staje jest istotne, czy trzeba będzie zweryfikować poprawność 360 czy tylko 180 słów.

Tekst przetworzony przy pomocy smartfona

Posiadanie skanera nie jest konieczne, by korzystać z oprogramowaniem OCR. Zamiast niego można użyć smartfona z wbudowaną kamerą (co jest standardem w tych urządzeniach). Wystarczy ściągnąć aplikację mobilną, która zamieni obraz w tekst. Można też za pomocą mobilnego OCR digitalizować umowy, paragony, recepty, wizytówki, artykuły z gazet. To także dobra opcja dla studentów i uczniów. Pozwala na szybką obróbkę notatek i papierowych materiałów. Zasada działania tych programów jest prosta. Należy zrobić zdjęcie dokumentu i wykadrować odpowiednio fotografię. Resztą zajmie się program. Gotowe pliki są zapisywane w pamięci aplikacji. Każdej pozycji warto przypisać słowa kluczowe, co pozwoli na łatwiejsze wyszukiwanie. Pliki można też wyeksportować do dysków w chmurze, takich jak Google, OneDrive czy Dropbox, a nawet do notatnika Evernote Przykładowe aplikacje mobilne OCR to: CamScanner - Phone PDF Creator (dla Androida i iOS), Docs scan + OCR (dla Androida), Office Lens (dla Androida, iOS i Windows Phone), SharpScan Pro + OCR (dla iOS).

OCR to nie cudotwórca

Chociaż programy OCR potrafią dużo, to jednak nie zawsze bezbłędnie rozpoznają tekst. Niestety, przynajmniej na razie nie istnieje system, który byłby w stanie bezbłędnie rozpoznać każdy znak, chociaż producenci określają ich umiejętności nawet na 99 proc. Na poprawne przetwarzanie tekstu ma wpływ bardzo wiele czynników, nie zawsze związanych wyłącznie z możliwościami samego oprogramowania. Wystarczy, że dokument będzie zapisany różnymi krojami pisma lub jego rozdzielczość będzie słaba, a skuteczność rozpoznawania znaków znacznie się pogorszy. Są też sytuacje, kiedy z dużą dozą prawdopodobieństwa można założyć, że proces przetworzenia dokumentu w edytowalny tekst się nie uda. Jest tak w przypadku odręcznych notatek, mocno uszkodzonego papieru, kolejnych kopii, wzorów chemicznych i formuł matematycznych. Z fiaskiem powinniśmy się liczyć wtedy, gdy: - jakość drukowanego tekstu jest słaba; przy małej gęstości pikseli programy po prostu się gubią, albo wcale nie rozpoznają znaków; - tekst jest niejednolity, zawiera różne rodzaje i wielkości czcionek; - kolory skanowanego dokumentu są wyblakłe; użycie innych kolorów niż czarny również może być przeszkodą dla programu OCR; - jest zbyt duże nagromadzenie tekstu za stronie, tekst jest mocno zagęszczony; - czcionka jest za mała, mniejsza niż 6 pkt lub 8 pkt; - papier ma zagniecenia lub widoczne włókna pulpy papierowej; - dokument został zeskanowany z rozdzielczością mniejszą niż 300 dpi; - kłopot OCR-owi może sprawiać odczytywanie znaków interpunkcyjnych. ©?

Jak dobrać rozdzielczość do skanowanego tekstu

Bardzo istotne jest dobranie właściwej rozdzielczości (w dpi: dots per inch – liczba punktów obrazu przypadająca na jeden cal) i głębokości obrazu (w bitach) do rodzaju tekstu obrabianego przez program OCR. Zalecenia producentów tych aplikacji są następujące: - jeśli dokument zawiera głównie tekst, minimalna rozdzielczość to 300 dpi, a głębia obrazu 8-bit; - jeśli dokument jest mały, rozdzielczość powinna wynosić co najmniej 450–600 dpi, a głębokość 8-bit; - jeśli tekst zawiera kolorowe ilustracje lub ma kolorowe tło, potrzebna jest minimalna rozdzielczość 300 dpi oraz głębokość 24-bit; - jeśli tekst zawiera czarno-białe ilustracje lub odcienie szarości, rozdzielczość musi wynosić co najmniej 300 dpi, a głębokość 8-bit. źródło: dane producentów OCR
Źródło: Rzeczpospolita

REDAKCJA POLECA

NAJNOWSZE Z RP.PL