Pokaż wyniki od 1 do 2 z 2
Krotki i tresciwy poradnik reli skanowanych
  1. #1
    Świeżak
    Dołączył
    13.10.2008
    Posty
    4
    Wątków
    1
    Siła reputacji
    8

    Domyślnie Krotki i tresciwy poradnik reli skanowanych

    Krotki i tresciwy poradnik reli skanowanych

    Specjalizuje sie w publikacjach historycznych i ten opis ich glownie dotyczy. Na pewno nie jest tu ujety opis skanowania komiksow (nie znam sie na tym). Ten opis nie dotyczy reli OCR!

    Przede wszystkim - nie rob rela "na sztuke". W ten sposob niby Twoj dorobek zwiekszy sie, ale takich reli jest juz i tak dosc i tak naprawde i tak trzeba je zrobic od nowa jeszcze raz (albo repackowac, czym zadajesz pracy innym relujacym). To co robisz, rob porzadnie. Celem jest osiagniecie dwoch rzeczy - bardzo dobrej jakosci skanu oraz niewielkiej objetosci rela (100 kilo na strone).

    Skanuj tylko do plikow .png lub .tif. Skanuj w nastepujacych trybach:
    • strony z elementami barwnymi -> skan kolorowy
    • strony ze zdjeciami, wieloma odcieniami szarosci -> skan w odcieniach szarosci (grayscale)
    • strony z tekstem, grafikami, diagramami -> skan czarno-bialy


    Zanim zaczniesz skanowac, poloz ksiazke na skanerze parzysta strona do dolu (najbardziej charakterystyczna, czyli np. nie z poczatkiem rozdzialu). Wybierz prescan, aby szybko podejrzec, jak strona uklada sie po skanowaniu. Korzystajac z oprogramowania skanera zwez obszar skanowania, tak aby nie skanowac niepotrzebnie bialych marginesow. Przeloz ksiazke na strone nieparzysta i powtorz te czynnosc powiekszajac (nigdy nie pomniejszajac) obszar skanowania jesli potrzeba.

    Zacznij skanowanie.

    W moim przypadku po godzinie dostaje srednio 150 stron w formacie .png. Nalezy sprawdzic, czy przy skanowaniu nie powstaly jakies brudy, zaznaczenia, popisania. Ew. niedoskonalosci retuszujemy w Gimpie (nieraz wymaga to sporo pracy). Jesli wiem o nich retuszuje nawet bledy drukarskie. Nie dokonuj "retuszu" tekstu pod katem merytorycznym! W koniecznych sytuacjach dodaj przypis relujacego na dole strone.

    Dla stron grayscale i barwnych sprawdz, czy tekst jest tak samo czarny jak na skanach czarno-bialych. W moim przypadku nie mam co sprawdzac, bo nigdy nie jest (skupiam sie na wiernym odwzorowaniu zdjec). Jesli nie jest - nalezy podciagnac kontrast tekstu. Uruchamiamy Gimpa, wczytujemy dany plik. Jesli jest w trybie Indexed, robimy konwersje na Grayscale lub dla stron barwnych RGB. Teraz zaznaczamy obszar tekstu i wybieramy z menu Colors>Curves. Ta opcja pozwala nam na separacje szarosci. Poklikaj troche po wykresie i obserwuj efekty jakie powstaja na pliku, szybko dojdziesz do tego co sie dzieje. Na ogol sciagam 60% ciemnych szarosci jako czern i 10% jasnych szarosci jako biel.

    Kwestie jakosci skanow mamy juz z glowy. Teraz rozmiar. Strony z tekstem zajmuja ok. 120 kilo, te zostawiamy chwilowo w spokoju, natomiast zajmujemy sie stronami w trybie grayscale badz barwnymi, te na ogol zajmuja ponad 1 mega na strone. Z pakietu ImageMagick uruchamiamy program convert i dla wszystkich duzych plikow (w moim przypadku powyzej 300 kilo) wykonujemy:
    Kod:
    convert moj_plik.png -quality 15 moj_plik.jpg
    Sprawdzamy wynik. Jesli konwersja pogorszyla drastycznie jakosc zdjecia (pokazaly sie duze kwadraty w miejsce tonalnych przejsc) mozemy zwiekszyc jakosc. Nie zdarzylo mi sie nigdy przekroczyc 25. Tym sposobem kazdy duzy plik .png ma swoj odpowiednik w postaci .jpg (u mnie wychodzi nie wiekszy niz 200 kilo).

    Teraz kolej na pliki png - dla kazdego takiego pliku, ktory nie posiada swojego odpowiednika w postaci jpg (tam sa zdjecia) uruchamiamy jeden z wielu programow redukujace png, np. pngcrush.
    Kod:
    pngcrush -q -rem gAMA -rem cHRM -rem iCCP -rem sRGB moj_plik.png moj_plik_zredukowany.png
    Te programy dzialaja wolno (uruchamiam je w trybie maksymalnej "kompresji"), ale urywaja 30% objetosci pliku. Pamietaj! Programy redukujace zmniejszaja objetosc pliku, ale obraz jest nienaruszony (ja to przed wydaniem jednak sprawdzam, liczac od razu ilosc stron). W efekcie otrzymuje pliki ok. 80 kilo na strone.

    I to juz koniec, mozna zrobic... pdfa? NIE! Zapomnij o tym formacie. Pdf jest popularny, ale jest formatem dawno przestarzalym jesli chodzi o wspolczesne rele skanowane. Czy przed chwila pracowicie odchudzales strony, po to tylko, aby pdf dolozyl Ci "tluszczyku" (dla rela ok. 60 mega konwersja na pdf doklada mi ok. 10 mega extra)? Po drugie pdf jest duzo gorszym formatem przy OCR-owaniu (bo program OCR musi wczytac calego pdfa). Uzywaj normalnych formatow - dla reli skanowanych jest to .cbr (comic book, mimo nazwy nie jest tylko dla komiksow). Na kazdy system operacyjny jest sporo dobrych czytnikow. cbr jest swietny jesli trzeba pozniej zrobic rel OCR. Przyznaje, ze kiedy zaczynalem robic rele sam pakowalem wszystko do pdfa, ale kiedy zobaczylem jak wygodny jest .cbr wszystkie nieopublikowane jeszcze rele w pdfach zrepackowalem do cbr.

    .cbr to tak naprawde plik .rar Uruchamiasz wiec w katalogu gdzie leza TYLKO finalne wersje plikow (.jpg dla "duzych" stron + zredukowane .png)
    Kod:
    rar a -m5 moj_rel *
    a nastepnie
    Kod:
    mv moj_rel.rar moj_rel.cbr
    Sprzet i system

    Jesli masz juz skaner, coz, mozesz dbac tylko, aby sie nie kurzyl. Jesli dopiero kupujesz, nie oszczedzaj. Nie kupuj skanera, z przystawka do slajdow i swietnymi recenzjami od fotografikow, bo ksiazki to nie klisza filmowa. Rozejrzyj sie za specjalizowanymi skanerami do dokumentow, ktore wspomagaja skanowanie ksiazek (efekt luku przy otwieraniu ksiazki).

    System operacyjny - uzytkownicy Maca (czyli BSD) i Linuksa maja latwiej o tyle, ze dzieki normalnej powloce (shell) sa w stanie duzo czynnosci zautomatyzowac. Sam napisalem kilka skryptow, ktore coraz bardziej rozbudowuje, ktore np. sprawdzaja daty zmian w plikach .png i dokonuja inteligentej redukcji (maly plik) badz konwersji (duzy plik). W ten sposob moja praca ogranicza sie do fizycznego skanowania, podciagniecia kontrastu w Gimpie, uruchomieniu skryptow i sprawdzenia koncowej jakosci.

    POWODZENIA, to wszystko! Jesli chcialbys porownac swoja prace do mojej, moze np. siegnac po T.Torańska "Oni". W tym relu musialem np. sklejac recznie strony, poniewaz zdjecia byly rozlozone na dwie czesci. Na dzien dzisiejszy to cala moja wiedza i doswiadczenie.
    Uwaga: To jest stary temat
    Ta dyskusja jest starsza niż 90 dni. Informacje w niej zawarte mogą już nie być aktualne
    Ostatnio edytowane przez misiu-pysiu ; 28.04.2009 o 20:34

  2. #2
    Świeżak
    Założyciel Tematu

    Dołączył
    13.10.2008
    Posty
    4
    Wątków
    1
    Siła reputacji
    8

    Domyślnie Odp: Krotki i tresciwy poradnik reli skanowanych

    Krotki i tresciwy poradnik repackowania

    Specjalizuje sie w publikacjach historycznych i ten opis ich glownie dotyczy. Na pewno nie jest tu ujety opis repackowania komiksow (nie znam sie na tym).

    UWAGA: ponizej opisana metoda dotyczy repackowania reli skanowanych. Nie rob repackow reli OCR!

    Predzej czy pozniej dojdziesz do wniosku, ze Twoje stare rele w pdfie sa zbyt duze, albo znajdziesz na sieci ciekawa ksiazke, ale tak duzych rozmiarow (1 mega na strone), ze chcac nie chcac pozostanie Ci repack. Repackowanie ma sens tylko i wylacznie ze wzgledu na zmniejszenie objetosci, przy okazji udaje sie dla niektorych stron poprawic kontrast, ale nie nalezy nastawiac sie na nic wielkiego. Sam nawet nie probuje myslec o poprawie jakosci - wynika to z moich mozliwosci. Moge spedzic czas na robienie wlasnego rela, o dobrej jakosci, albo moge bawic sie w podciaganie jakosci cudzego rela, co i bedzie mialo srednie efekty.

    Repackujac zachowaj wszystkie tagi oryginalu. Skontaktuj sie z relujacym. Dopisz w sygnaturze, ze jest to repack. Slowem - pamietaj o kulturze.

    Pierwszy krok to podzielenie pdfa na strony.
    Kod:
    pdftk moj_plik.pdf burst
    Program wygeneruje jednostronicowe pdfy. Teraz chcemy uzyskac z nich pliki png. Wystarczy kazdy z tych plikow "wydrukowac". Ale zeby wiedziec gdzie drukowac musimy wyszukac wszystkie strony (najlepiej w oryginalnym pdfie) barwne i te drukujemy tak:
    Kod:
    gs -dUseCropBox -q -sDEVICE=png16m -dBATCH -dNOPAUSE -dFirstPage=1 -dLastPage=1 -r300 -sOutputFile=strona.png strona.pdf
    a reszte stron tak:
    Kod:
    gs -dUseCropBox -q -sDEVICE=pnggray -dBATCH -dNOPAUSE -dFirstPage=1 -dLastPage=1 -r300 -sOutputFile=strona.png strona.pdf
    Program gs pochodzi z pakietu GhostScript, parametr -r odpowiada za gestosc optyczna. Na dzien dzisiejszy nie spotyka sie skanow lepszych niz 300 dpi, stad mozna smialo napisac wlasnie 300. Uwaga: poniewaz jest to udawane drukowanie sprawdz ilosc stron, nie zdaza sie to czesto, ale nieraz gs nie moze wydrukowac jednej ze stron.

    Drukowanie za nami, dostalismy mase plikow png w sumie duzo wiekszych niz oryginalny pdf. Czas na zmniejszanie. Stronom, ktore zawieraja czarno-bialy tekst, diagramy, wykresy chcemy podbic kontrast. Gdybysmy uzywali do tego Gimpa stracimy duzo czasu na to wiec uzywamy programu convert.
    Kod:
    convert moj_plik.png -colorspace Gray -level 60,60% moj_plik_wynikowy.png
    60,60 to najbardziej typowe wartosci podzialu kontrastu. Jesli strony wychodza zbyt ciemne, sprobuj 50,50, jesli druk jest zbyt jasny 70,70, jesli trudno znalezc punkt gdzie tekst bylby czarny, a tlo biale, dodaj odstep probujac np. 60,70. Pamietaj, ze im wiekszy odstep tym wiecej odcieni szarosci uzywasz, tym wiekszy plik.

    Kiedy juz sprawdzisz strony po podbiciu kontrastu zredukuj pliki przy uzyciu pngcrush, tak jak dla wlasnych reli.

    Reszte stron (barwnych i z ilustracjami grayscale) musimy konwertowac do jpg. Znowu uzywamy pliku convert dokladnie tak samo jak dla wlasnych reli, jednak na ogol jakosc pdfa jest taka, ze mozna nawet obnizyc jakosc kompresji, wyprobuj:
    Kod:
    convert moj_plik.png -quality 7 moj_plik.jpg
    Po konwersji sprawdz, czy nie ma zbyt duzych roznic w jakosci. Jesli repackuje swoj wlasny rel, nie robie tej konwersji tylko doskanowuje jeszcze raz takie strony.

    Pliki w ostatecznej postaci wystarczy spakowac rarem, zmienic rozszerzenie na cbr, do nazwy dodac slowo "-repack" i gotowe. Na ogol z rela pdf o objetosci 100 stron, 100 mega uzyskuje ok. 20 megowy repack w cbr. Ale jeszcze raz podresle - repack to ostatecznosc, duzo lepiej jest po prostu zrobic dobry rel od samego poczatku.