Prenumerata 2018 ju˜ż w sprzedża˜y - SPRAWD˜!

Jak zarzšdzać wydatkami

Jak zamienić dokument w elektroniczny plik

AdobeStock
Dzięki oprogramowaniu OCR nie musimy przepisywać notatek i łatwo odnajdziemy każdy dokument w domowym e-archiwum
Coraz częœciej przechowujemy dokumenty w postaci cyfrowej. Studenci i uczniowie skanujš różne materiały, ale to nie rozwišzuje problemu edycji pliku. Mamy co prawda dokument w komputerze, ale nie możemy z nim nic zrobić. Skan to tylko graficzne przedstawienie pliku. Nic nie zmienia zapisanie go w pdf. – nadal pozostaje jedynie obrazem. Aby taki plik można było edytować, trzeba go albo przepisać, co trwa długo, albo skorzystać z oprogramowania OCR, które jednš stronę przetworzy w cišgu minuty. Poza tym dzięki oprogramowaniu OCR w domowym archiwum komputerowym odnajdziemy każdy dokument, bo wyszukamy go według fraz i słów kluczowych.
OCR (Optical Character Recognition) to oprogramowanie służšce do rozpoznawania znaków i całych tekstów w pliku graficznym. Oprócz samego tekstu identyfikuje także krój i wielkoœć czcionek, tabele, akapity i szpalty. Następnie zmienia je w postać cyfrowš, czytelnš dla urzšdzeń komputerowych. Rozpoznany tekst może zostać wyeksportowany do pliku tekstowego Word, arkusza Excel lub zapisany w formacie pdf. (tzw. searchable pdf., czyli pdf. z możliwoœciš przeszukiwania tekstowego).

Ważna jest dokładnoœć

Programy OCR do domowego użytku nie sš wymagajšce. Wystarczy sama aplikacja i zwykły skaner o rozdzielczoœci 300 dpi. Znane i sprawdzone OCR-y to m.in : FreeOCR.net, ABBYY FineReader, TopOCR, SimpleOCR, Scan2Encrypt, Scanitto Pro, ABBYY FineReader, OmniPage Professional czy Scan2Encrypt. Wiele z tych programów ma też wersje mobilne. Proste mechanizmy OCR znajdujš się także w rozwišzaniach udostępnianych na dyskach w chmurze, takich jak: Dropbox, One Drive Microsoftu czy Google Drive. Jednš z najważniejszych cech oprogramowania OCR, jakš należy brać pod uwagę przy wyborze, jest jego dokładnoœć, czyli trafnoœć w rozpoznawaniu znaków. Pamiętajmy, że różnica między 98 proc. a 99 proc., choć może się nam wydawać mało istotna, jest jednak znaczna. Na stronie A4 znajduje się œrednio 1800 znaków. Zatem przy dłuższym, np. 10-stronicowym dokumencie staje jest istotne, czy trzeba będzie zweryfikować poprawnoœć 360 czy tylko 180 słów.

Tekst przetworzony przy pomocy smartfona

Posiadanie skanera nie jest konieczne, by korzystać z oprogramowaniem OCR. Zamiast niego można użyć smartfona z wbudowanš kamerš (co jest standardem w tych urzšdzeniach). Wystarczy œcišgnšć aplikację mobilnš, która zamieni obraz w tekst. Można też za pomocš mobilnego OCR digitalizować umowy, paragony, recepty, wizytówki, artykuły z gazet. To także dobra opcja dla studentów i uczniów. Pozwala na szybkš obróbkę notatek i papierowych materiałów. Zasada działania tych programów jest prosta. Należy zrobić zdjęcie dokumentu i wykadrować odpowiednio fotografię. Resztš zajmie się program. Gotowe pliki sš zapisywane w pamięci aplikacji. Każdej pozycji warto przypisać słowa kluczowe, co pozwoli na łatwiejsze wyszukiwanie. Pliki można też wyeksportować do dysków w chmurze, takich jak Google, OneDrive czy Dropbox, a nawet do notatnika Evernote Przykładowe aplikacje mobilne OCR to: CamScanner - Phone PDF Creator (dla Androida i iOS), Docs scan + OCR (dla Androida), Office Lens (dla Androida, iOS i Windows Phone), SharpScan Pro + OCR (dla iOS).

OCR to nie cudotwórca

Chociaż programy OCR potrafiš dużo, to jednak nie zawsze bezbłędnie rozpoznajš tekst. Niestety, przynajmniej na razie nie istnieje system, który byłby w stanie bezbłędnie rozpoznać każdy znak, chociaż producenci okreœlajš ich umiejętnoœci nawet na 99 proc. Na poprawne przetwarzanie tekstu ma wpływ bardzo wiele czynników, nie zawsze zwišzanych wyłšcznie z możliwoœciami samego oprogramowania. Wystarczy, że dokument będzie zapisany różnymi krojami pisma lub jego rozdzielczoœć będzie słaba, a skutecznoœć rozpoznawania znaków znacznie się pogorszy. Sš też sytuacje, kiedy z dużš dozš prawdopodobieństwa można założyć, że proces przetworzenia dokumentu w edytowalny tekst się nie uda. Jest tak w przypadku odręcznych notatek, mocno uszkodzonego papieru, kolejnych kopii, wzorów chemicznych i formuł matematycznych. Z fiaskiem powinniœmy się liczyć wtedy, gdy: - jakoœć drukowanego tekstu jest słaba; przy małej gęstoœci pikseli programy po prostu się gubiš, albo wcale nie rozpoznajš znaków; - tekst jest niejednolity, zawiera różne rodzaje i wielkoœci czcionek; - kolory skanowanego dokumentu sš wyblakłe; użycie innych kolorów niż czarny również może być przeszkodš dla programu OCR; - jest zbyt duże nagromadzenie tekstu za stronie, tekst jest mocno zagęszczony; - czcionka jest za mała, mniejsza niż 6 pkt lub 8 pkt; - papier ma zagniecenia lub widoczne włókna pulpy papierowej; - dokument został zeskanowany z rozdzielczoœciš mniejszš niż 300 dpi; - kłopot OCR-owi może sprawiać odczytywanie znaków interpunkcyjnych. ©?

Jak dobrać rozdzielczoœć do skanowanego tekstu

Bardzo istotne jest dobranie właœciwej rozdzielczoœci (w dpi: dots per inch – liczba punktów obrazu przypadajšca na jeden cal) i głębokoœci obrazu (w bitach) do rodzaju tekstu obrabianego przez program OCR. Zalecenia producentów tych aplikacji sš następujšce: - jeœli dokument zawiera głównie tekst, minimalna rozdzielczoœć to 300 dpi, a głębia obrazu 8-bit; - jeœli dokument jest mały, rozdzielczoœć powinna wynosić co najmniej 450–600 dpi, a głębokoœć 8-bit; - jeœli tekst zawiera kolorowe ilustracje lub ma kolorowe tło, potrzebna jest minimalna rozdzielczoœć 300 dpi oraz głębokoœć 24-bit; - jeœli tekst zawiera czarno-białe ilustracje lub odcienie szaroœci, rozdzielczoœć musi wynosić co najmniej 300 dpi, a głębokoœć 8-bit. Ÿródło: dane producentów OCR
ródło: Rzeczpospolita

WIDEO KOMENTARZ

REDAKCJA POLECA

NAJNOWSZE Z RP.PL