Elektroniczna archiwizacja skryptów AGH


Biblioteka Główna Akademii Górniczo-Hutniczej realizuje opracowany w 1999 roku projekt elektronicznej archiwizacji Skryptów Uczelnianych.

Coraz mniej w zbiorach Biblioteki egzemplarzy starszych, wciąż poszukiwanych skryptów, a także coraz mniej miejsca w magazynach zadecydowały o podjęciu poszukiwań rozwiązania tych problemów. Jednym z zaproponowanych rozwiązań jest archiwizacja skryptów z wykorzystaniem nowoczesnych technik zapisu.

W trakcie realizacji projekt poszerzono o monografie polecane przez wykładowców Uczelni, a także stare książki z zakresu nauk technicznych.

Dla książek elektronicznych w katalogu komputerowym Biblioteki tworzone są opisy katalogowe. Od opisu katalogowego możliwe jest bezpośrednie przejście do pełnego tekstu książki elektronicznej.

Projekt elektronicznej archiwizacji książek jest zgodny z programem rozwoju Akademii Górniczo-Hutniczej, mającym między innymi na celu stopniowe dołączanie Miasteczka Studenckiego do uczelnianej sieci informatycznej i zapewnienie studentom bezpośredniego dostępu do zasobów informatycznych wspomagających proces uczenia się.

Wstęp

W listopadzie 1999 roku w Bibliotece Głównej Akademii Górniczo-Hutniczej uruchomiony został pilotażowy program pod nazwą „Elektroniczna archiwizacja skryptów AGH”.

Idea programu zrodziła się na skutek braku w zbiorach Biblioteki odpowiedniej liczby egzemplarzy starszych, a wciąż poszukiwanych Skryptów Uczelnianych AGH. Dodatkowym impulsem do podjęcia prac nad projektem elektronicznej archiwizacji skryptów okazały się narastające kłopoty z wygospodarowaniem odpowiedniej powierzchni magazynowej.

Podobne do omawianego projekty, wprawdzie jeszcze nie powszechne, są już znane w krajach o najwyższym stopniu zaawansowania technologii komputerowych. Jednym z nich jest zakrojony na dużą skalę program NEDLIB [1] [7] (Network European Deposit Library). Jest on realizowany przez europejskie biblioteki narodowe Holandii, Finlandii, Francji, Niemiec, Norwegii, Portugalii, Szwajcarii i Włoch. Uczestniczą w nim także instytuty naukowe i informatyczne. Program ma swoich sponsorów - firmy wydawnicze: Kluwer Academic, Elsevier Science i Springer Verlag. Prace nad nim rozpoczęły się w 1998 roku. Zakończenie programu przewiduje się w bieżącym roku.

Znany jest także projekt Gutenberg, [9] w ramach którego tworzone jest archiwum tekstów anglojęzycznych. W niemieckiej [5] wersji projektu poprzez sieć udostępnia się książki, w stosunku do których wygasło już prawo autorskie.

Celem kolejnego projektu, PANDORA [8] (Preserving and Accessing Networked Documentary Resources of Australia), jest udostępnianie poprzez sieć elektronicznych wersji publikacji australijskich.

W Polsce bardzo ciekawe rozwiązanie zaproponował Zakład Teorii Literatury w Instytucie Filologii Polskiej Uniwersytetu Gdańskiego [10]. Projektem gdańskim objęto dzieła rodzimej literatury pięknej. „Wirtualna Biblioteka Literatury Polskiej” jest w trakcie tworzenia; obecnie udostępnia około stu tytułów [4].

Rozwiązanie krakowskie głównie obejmuje współczesne dzieła z zakresu nauk technicznych, wobec których obowiązuje ustawa o prawie autorskim i prawach pokrewnych. Nowatorstwem rozwiązania jest integracja tekstów elektronicznych z katalogiem komputerowym Biblioteki Głównej AGH.

Prace przygotowawcze i realizacja pierwszego etapu projektu

Prace koncepcyjne trwały przez kilka miesięcy począwszy od roku 1998 i zakończone zostały opracowaniem wstępnych założeń (kwiecień 1999 roku). W założeniach przedstawiono zasady kwalifikowania skryptów do archiwizacji oraz określono technikę ich komputerowego zapisu.

Zasady kwalifikowania skryptów do archiwizacji

W pierwszej kolejności wszystkie skrypty umownie podzielono na dwie grupy:

skrypty nowsze, których teksty zapisane są w wersji elektronicznej (dowolny edytor tekstu);

skrypty starsze, które nie posiadają wersji elektronicznej.

Zdecydowano, że pod uwagę wzięte zostaną jedynie skrypty z grupy drugiej. Uznano, że skrypty z pierwszej grupy mogą z powodzeniem być udostępniane sieciowo lub na CD/ROM przez Uczelniane Wydawnictwa Naukowo-Dydaktyczne AGH, które powinny dysponować gotowym materiałem w postaci elektronicznej.

Pozostała więc grupa nie wznawianych a poszukiwanych skryptów, które należałoby zarchiwizować korzystając z nowoczesnych technik zapisu.

W obrębie tej grupy przygotowana została lista 60 najbardziej poszukiwanych skryptów. Sporządzenie listy powierzono pracownikom dwóch oddziałów Biblioteki Głównej AGH: Oddziałowi Udostępniania Zbiorów oraz Oddziałowi Magazynów, uznano bowiem, że do wykonania tego zadania są oni najlepiej przygotowani.

Wstępna analiza pozycji, które znalazły się na liście pozwalała stwierdzić, że:

mamy do czynienia ze skryptami z różnych dziedzin, które są przedmiotem studiów i badań w AGH;

większość skryptów napisana została przez dwóch lub więcej autorów; rzadziej są to prace pojedynczych autorów;

autorami skryptów są osoby w wieku średnim, nadal pracujące na AGH lub osoby starsze, będące już na emeryturze; część autorów nie żyje.

Istotnym elementem projektu było rozstrzygnięcie kwestii praw autorskich w taki sposób, by pozostawać w zgodzie z obowiązującą Ustawą [12]. W tym zakresie pomoc okazali prawnicy z Uniwersytetu Jagiellońskiego, którzy na potrzeby niniejszego projektu opracowali tekst oświadczenia, przedkładany każdorazowo do podpisu autorom książek planowanych do elektronicznej archiwizacji. Podpisując oświadczenie, autor wyraża zgodę na wprowadzenie swojego dzieła do pamięci komputera, do ogólnie dostępnych sieci komputerowych (m.in. do Internetu) oraz na zwielokrotnienie danego tekstu techniką cyfrową i optyczną.

Przyjęto zasadę, że o kolejności kwalifikowania do archiwizacji w głównej mierze decydować będą następujące czynniki:

autor jest osobą żyjącą,

jest jeden autor,

autor jest pracownikiem AGH,

autor nie jest pracownikiem AGH lecz Biblioteka jest w posiadaniu jego adresu domowego, numeru telefonu itp.

Objęcie projektem książek innych niż skrypty

Wkrótce po rozpoczęciu realizacji projektu listę tytułów poszerzono o polecane przez wykładowców Uczelni, a poszukiwane i często trudno dostępne książki, nie będące skryptami. W tych przypadkach, poza zgodą autorów, wymagana jest zgoda wydawnictwa, które dane dzieło opublikowało.

Trzecią grupę dzieł, które zdecydowano się umieszczać w sieci, stanowią stare cenne książki i ciekawe zabytkowe rękopisy. Biblioteka Główna AGH ma dopiero 80 lat i nie posiada takich skarbów, jak wiele wiekowych bibliotek uniwersyteckich czy klasztornych. Dzieła, które są w jej posiadaniu, mają jednak wartość historyczną dla nauk technicznych, szczególnie dla historii górnictwa i hutnictwa. Mają one także znaczenie dla historii samej Uczelni.

Wybór techniki elektronicznej archiwizacji

W pierwszej kolejności podjęto próby z zastosowaniem narzędzi OCR, które przekształciłyby zeskanowane obrazy (poszczególne strony skryptu) i doprowadziły je do postaci tekstowej. Takie rozwiązanie pozwoliłoby przeglądać książki w wersji elektronicznej w sposób dynamiczny. Próby wykazały jednak, że ze względu na bardzo niską jakość techniczną skryptów (pismo maszynowe, zła jakość powielenia, duża liczba mało czytelnych, często odręcznych rysunków i wzorów) użycie takich narzędzi jest mało skuteczne. Przy zastosowaniu wstępnie zaproponowanego toku praca sprowadzałaby się w zasadzie do przepisania całego skryptu litera po literze, wzór po wzorze. W wielu przypadkach większy sens miałoby wówczas napisanie skryptu od nowa, z jednoczesną jego aktualizacją.

Rys. 1. Zeskanowana strona skryptu – pierwszy etap przetwarzania

Zaproponowano więc inne rozwiązanie, polegające na skanowaniu tekstu i zapisywaniu go w formacie GIF. Przetworzony tekst umieszcza się na serwerze i udostępnia w sieciach rozległych (http://victoria.bg.agh.edu.pl/BG/skrypty/). Możliwe jest przeglądanie skryptu strona po stronie lub wybranie konkretniej strony. Możliwe jest także drukowanie każdej strony.

Rys. 2. Przykładowa strona skryptu w formacie GIF – końcowy etap przetwarzania

W przyszłości wszystkie teksty podręczników planuje się zapisywać także na dyskach optycznych i w tej postaci wypożyczać, podobnie jak tradycyjne książki.

W trakcie realizacji projektu pojawiły się dalsze wątpliwości dotyczące formatu postaci elektronicznej, wobec czego podjęto decyzję o przeprowadzeniu dodatkowych testów z wykorzystaniem innych formatów zapisu. Z formatem GIF porównano kolejno: PDF (Portable Document Format), DjVu (déjà vu), JPEG (Joint Photographic Experts Group).

Pierwszy z nich - PDF - jest uniwersalnym formatem dla dokumentów elektronicznych. Jego niewątpliwą zaletą jest możliwość stosowania interaktywnej nawigacji wewnątrz dokumentu, przechodzenie do innych dokumentów, także poprzez łącza internetowe. Format ten odrzucono ze względu na zbyt duże rozmiary pliku wynikowego przy tej samej czytelności, co w przypadku stosowania formatu GIF. Stwierdzono także, że format PDF raczej nadaje się do dokumentów tworzonych komputerowo w postaci tekstowej i uzupełnianych prostą grafiką (nie skanowanych).

DjVu stosuje najnowsze osiągnięcia w dziedzinie przetwarzania i kompresji obrazów. Przeznaczony jest do archiwizacji skanowanych dokumentów. Obraz zapisany w tym formacie jest około 5 do 8 razy mniejszy, niż odpowiedni w formacie GIF, co pozwala przyspieszyć dostęp do dokumentu przez obciążone łącza internetowe. Pliki wynikowe są mniejsze niż w formacie GIF, a dodatkowo możliwe jest powiększanie dokumentu (zoom) bez wyraźnej utraty jakości tekstu. Dokument wydrukowany na drukarce laserowej jest wyraźniejszy, chociaż na monitorze w zasadzie różnicy nie widać.

Mechanizm kompresji opiera się na rozwarstwianiu obrazu: na pierwszym planie pojawia się tekst jako element o dużej rozdzielczości, na drugim - tło o znacznie mniejszej rozdzielczości. Ze względu na bardzo słabą jakość tekstu skryptów program konwertujący źle przetwarza informację o obrazie. Jeżeli litera (lub jej fragment) nie odróżnia się znacząco od tła wówczas jest ona zapisywana w warstwie tła. Skanowanego dokumentu nie można poddawać bezpośredniej obróbce (obracanie, usuwanie plam, podkreśleń, cieni od załamań strony, itp.), co stanowi dużą niedogodność. Konieczne jest użycie trzech oddzielnych programów: obsługi skanera, obróbki grafiki, edytora DjVu. Na każdym etapie wynik pracy trzeba zapisać na dysku, aby w następnym go odczytać. Metoda ta jest czasochłonna, a stosowanie tego formatu przy mało czytelnych tekstach - nieefektywne.

JPEG wykorzystywany jest głównie do zapisu kolorowych fotografii. Nie nadaje się do zapisu grafiki o dużej liczbie kontrastowych krawędzi, wobec czego w projekcie archiwizacji mógłby być jedynie wykorzystywany w odniesieniu do starych dzieł, w których ważną rolę odgrywa kolor i faktura papieru.

Na podstawie przeprowadzonych testów stwierdzono, że w chwili obecnej najlepiej do celów archiwizacji nadaje się format GIF.

Drugi etap projektu - od opisu katalogowego do pełnego tekstu

W celu uporządkowania informacji o dostępnych w sieci elektronicznych wersjach książek księgozbioru Biblioteki Głównej AGH zdecydowano się na umieszczanie opisów katalogowych tych pozycji w katalogu komputerowym.

Do katalogowania dostępnych w sieci książek wykorzystywany jest projekt normy dla dokumentu elektronicznego [6] oraz format USMARC dla dokumentu elektronicznego. Istotne znaczenie w formacie odgrywa pole 856, które zawiera informację o lokalizacji dokumentu elektronicznego (np. adres URL).

001   dd 2000304901
006   m | d |
007   c \br \ca \dn
035   0028-32960
040   KR 93/JK\c KR 93/JK/ZP \d KR 93/KK
041 0 pol
100 1 Odlanicki-Poczobutt, Michał \d (1910- ).
245 00 Geodezja \h [dokument elektroniczny]. \n T. 1 / \c Michał Odlanicki-Poczobutt.
256   Dane tekstowe.
260   Kraków : \b Biblioteka Główna AGH, \c 2000.
500   Tyt. z ekranu tytułowego.
500   Projekt archiwizacji Skryptów Uczelnianych AGH i innych wydawnictw książkowych.
530   Dostępny również w formie drukowanej.
534   \p Wersja elektroniczna, oryg.: \c Kraków : AGH, 1979. \f
(Skrypty Uczelniane / Akademia Górniczo-Hutnicza im. S.Staszica w Krakowie, 0239-6114 ; nr 660).
     
650   Geodezja \x podręczniki akademickie.
856 4 \u http://winntbg.bg.agh.edu.pl/skrypty/3/ppframe.htm

Rys. 3. Opis bibliograficzny dokumentu elektronicznego w formacie USMARC

Odlanicki-Poczobutt, Michał (1910- )
1. Ćwiczenia z geodezji i topografii : praca zbiorowa /
Warszawa : Państ. Wydaw. Naukowe, 1975.
 
2. Ćwiczenia z geodezji i topografii : pod red. Michała ...
Warszawa : Państ. Wydaw. Naukowe, 1969.
Cz. 1.
Wyd. 4
3. Geodezja : Michał Odlanicki-Poczobutt
Warszawa : Państ. Przedsiębiorstwo Wydaw ...
Wyd. 4
4. Geodezja : Michał Odlanicki-Poczobutt
Kraków : AGH, 1979
T. 1.
5. Geodezja [dokument elektroniczny]. Michał.
Kraków : Biblioteka Główna AGH, 2000
T. 1
6. Niwelatory samopoziomujące / Michał Odlanicki-Poczobutt,
Kraków : AGH, 1975
 

Rys. 4. Indeks publikacji wybranego autora

W praktyce oznacza to, że gdy użytkownik w trakcie przeglądania katalogu komputerowego (http://victoria.bg.agh.edu.pl/AGH) natrafi na opis książki z komentarzem „dokument elektroniczny”, wówczas po wybraniu tej pozycji, a następnie odpowiedniej ikony, otrzymuje na ekranie pełny tekst danej pozycji.

Istnieje możliwość sporządzania opisów katalogowych i powiązań z elektronicznymi wersjami książek tworzonych przez inne instytucje. W założeniach do obecnego projektu przewiduje się jednak tworzenie opisów bibliograficznych jedynie dla książek elektronicznych powstających w Bibliotece Głównej Akademii Górniczo-Hutniczej. Te z kolei są kopiami książek tradycyjnych pochodzących ze zbiorów tejże Biblioteki.

Podsumowanie

Elektroniczne archiwum Skryptów Uczelnianych i innych dzieł jest w początkowej fazie tworzenia, niemniej każda sprowadzona do wersji elektronicznej książka jest natychmiast udostępniana w sieci Internet. Jednocześnie w katalogu komputerowym tworzone są opisy katalogowe i powiązania z pełnymi tekstami elektronicznymi. Obecnie dostępnych jest kilkanaście dokumentów w formie elektronicznej.

Równolegle trwają poszukiwania i testy innych narzędzi, które umożliwiłyby realizację pierwotnych założeń (tekst dynamiczny). Największą trudność w tworzeniu wersji elektronicznej dzieł z zakresu nauk technicznych sprawiają liczne, często mało czytelne, wzory i rysunki.

Przedstawione rozwiązanie, szczególnie ze względu na integrację pełnych tekstów książek elektronicznych z katalogiem komputerowym, jest nowością i wzbudza duże zainteresowanie zarówno użytkowników bibliotek jak i samych bibliotekarzy.

Projekt „Elektronicznej archiwizacji” koresponduje z programem rozwoju Akademii Górniczo-Hutniczej [11], szczególnie w części dotyczącej konsekwentnie realizowanego planu władz Uczelni, mającego na celu stopniowe dołączanie Miasteczka Studenckiego do uczelnianej sieci informatycznej i zapewnienie swoim studentom bezpośredniego dostępu do światowych zasobów informatycznych. Biblioteka swoim projektem przyłącza się do podjętego przez AGH eksperymentu wykorzystania środków i metod informatycznych dla wspomagania nauczania różnych przedmiotów.

Literatura

[1] Dialog mit Bibliotheken 1998 Vol. 10 Nr 3 s.18-20

[2] DOBRZYŃSKA-LANKOSZ E., Towards Virtual Library, Conference Proceedings on EUNIS 2000: Towards Virtual Universities, Poznań, 2000 s. 91-100

[3] FOX E.A., Digital libraries, Universities and Scholary Communication, Conference Proceedings on EUNIS 2000: Towards Virtual Universities, Poznań, 2000 s.225-234

[4] http://monika.univ.gda.pl/~literat/index.htm

[5] http://www.abc.de/gutenb/gutenb.htm

[6] http://www.bj.uj.edu.pl/indexp.html. W marcu 2000 r. norma „Opis bibliograficzny – dokumenty elektroniczne” została przez Polski Komitet Normalizacyjny ustanowiona i wkrótce ukaże się drukiem (PN-N-01152-13).

[7] http://www.konbib.nl/nedlib/

[8] http://pandora.nla.gov.au/pandora/

[9] http://promo.net/pg/

[10] JĘSIK A., Klikniesz i ... czytasz, Sprawy Nauki, 2000, nr 3-4, s. 10-11

[11] Ustawa o prawie autorskim i prawach pokrewnych z dn. 4 lutego 1994 r., Dz.U. Nr 24, poz. 83