Cyfrowe przetwarzanie treści

Skanowanie czasopism, książek, rzeczy, etc. – przetworzenie treści analogowej do postaci cyfrowej – do dalszej obróbki.

Na początek jakieś stare, antykwaryczne czasopismo – na próbę…

Pierwsza strona czasopisma (pierwsza strona przedniej ‚okładki’):

IKS 1-86 strona 01

Zeskanowane w miarę równo, odcięte poszarpane marginesy strony – wygląda całkiem dobrze, jak widać.

W takim razie następne strony…

Teraz docięcie wszystkich skanów stron czasopisma do takich samych wartości długości poziomej (szerokość strony) i pionowej (wysokość strony) dla wszystkich stron.

Powstaje pierwszy PDF czasopisma, do przejrzenia, jak wygląda efekt:

IKS nr 1/1986

Na potrzeby zastosowań prywatnych wygląda, że koniec pracy. Plik niedużo zajmuje: około 14MB, jakość dość dobra, programy do rozpoznawania tekstu (typu OCR, itp.) rozpoznają treść czasopisma ‚w locie’, zapisując do plików TXT.

Czyli gotowe.

Teraz można zacząć zabawę profesjonalną.

[..]

CDN.


Do zrobienia:


I.

- idealnie docięte wszystkie strony czasopisma

- 100% rozpoznanie tekstu => do pliku TXT

- wyodrębnienie ilustracji, fotografii, schematów, tabel, kształtów, kolorów, etc.

- rozpoznanie czcionek (rodzaj, wielkość, styl, etc.)

- odtworzenie czasopisma / publikacji skanowanych w programie do edycji tekstów => zbudowanie dokumentu z elementów rozpoznanych będącego 100% odwzorowaniem dokumentu skanowanego w postaci gotowej do edycji wydawniczej przed skierowaniem do druku

- wydruk czasopisma będącego pełnym 100% odwzorowaniem czasopisma skanowanego


II.

- uruchomienie programów z czasopisma / przetwarzanie treści czasopisma w sposób cyfrowy


III.

- różne formaty i formy zapisu publikacji skanowanej i treści przetworzonej cyfrowo


IV.

- optical recognizing (character, text, shape, texture)


V.

- analiza treści i przetwarzanie informacyjne w sposób cyfrowy

[..]

CDN.