Temat: internet

Dział: INTERNET

Dodano: Maj 06, 2023

Narzędzia:

Drukuj

Drukuj

Chcą zapisać w archiwum cały internet. "Przeglądać można na jednym komputerze"

Szwedzi archiwizują internet. To dziwne, ale nie niemożliwe (fot. Leon Seibert/Unsplash.com)

Ktoś zadał pytanie: jeśli od 1643 roku zachowujemy wszystkie drukowane w Szwecji gazety, to dlaczego dajemy zginąć ich cyfrowym odpowiednikom?

***

Ten tekst Daniela Zyśka pochodzi z archiwalnego wydania magazynu "Press" – nr 03-04/2023. Teraz udostępniamy go do przeczytania w całości za darmo. Przyjemnej lektury!

***

Pięć pięter pod powierzchnię ziemi – tyle należy zjechać windą z poziomu zero zabytkowego gmachu Biblioteki Królewskiej w Sztokholmie, aby dostać się do pierwszego na świecie założonego przez instytucję publiczną archiwum internetu. Gromadzony od 1997 roku zbiór obejmuje niedostępne już treści z ponad miliona stron z adresami zarejestrowanymi w Szwecji z końcówkami .se, .nu, .net oraz .org.

NA JEDNYM KOMPUTERZE

Można je przeglądać na jednym stacjonarnym komputerze o nazwie Kulturarw3. Nazwa pochodzi od zbitki słów „kultura”, „dziedzictwo” oraz „WWW”, a oznacza zapoczątkowany w 1996 roku przez bibliotekarza, informatyka i doktora fizyki kwantowej Fransa Lettenströma projekt mający na celu archiwizację zasobów internetu.

Jak wspominają pracownicy biblioteki, rok wcześniej podczas przerwy na kawę Lettenström zadał kolegom pytanie: „Jeśli od 1643 roku zachowujemy wszystkie drukowane w Szwecji gazety, to dlaczego pozwalamy zginąć ich cyfrowym odpowiednikom?”. Wizjoner nie uzyskał odpowiedzi od współpracowników, ale dostał wsparcie szefów oraz resortu kultury.

Nad stworzeniem światowego archiwum internetu w tym samym czasie pracował już amerykański miliarder Brewster Kahle, założyciel fundacji Internet Archive. Lettenström, mający na koncie pracę w ośrodku CERN w Genewie oraz uruchomienie w 1993 roku pierwszego serwera w szwedzkiej bibliotece w Luleå, udał się do San Francisco, aby namówić Amerykanina do podzielenia się oprogramowaniem. Misja nie wypaliła, ale zdobyte doświadczenie zaskutkowało zatrudnieniem przez Bibliotekę Królewską własnego programisty oraz zakupem bota do wychwytywania i zapisywania stron WWW. Szwedzi pierwszych prób kopiowania stron dokonali na domenach państw Ameryki Środkowej bez ich wiedzy.

Od pracującego w Bibliotece Królewskiej od początku lat 90. Pära Nilssona, dziś eksperta ds. zbiorów cyfrowych, dowiaduję się, że program do archiwizacji sieci nazywa się Heritrix, a archiwum jest zarządzane przez system NetarchiveSuite. Bot o adresie IP: 193.10.72.192/27 skanuje raz lub dwa razy w roku każdą szwedzką stronę internetową, a następnie zapisuje ją w formacie WARC. Ze znacznie większą częstotliwością, codziennie lub dwa razy w tygodniu, utrwalanych jest 150 portali należących do szwedzkich mediów oraz stron partii politycznych.

Gdy w wykutych w skale podziemiach biblioteki włączam komputer Kulturarw3, przekonuję się, że dla czytelników dostępny jest tylko zbiór obejmujący lata 1997–2012, z wyłączeniem 2010 roku. Decyduję się na sprawdzenie strony Instytutu Polskiego w Sztokholmie www.polskainstitutet.se, z której kilka lat temu zrezygnowało polskie Ministerstwo Spraw Zagranicznych. Na ekranie widoczny jest kalendarz z zaznaczonymi datami przeprowadzenia archiwizacji. Klikam na datę 19.10.2009 roku i dowiaduję się, że w tym dniu na stronie Instytutu Polskiego o godzinie 12.44.31 główną informacją było współorganizowane z ambasadą RP spotkanie w Sztokholmie z Adamem Michnikiem, zatytułowane „Lekcja godności”. O tym wydarzeniu nie ma śladu na nowej stronie www.instytutpolski.pl/stockholm.

Wśród Szwedów szeroką debatę o tym, co powinniśmy zachowywać w sieci, a co nie jest tego warte, wywołała celebrytka Alexandra „Kissie” Nilsson, kasując w 2020 roku swój popularny blog www.kissie.se. Pisała w nim o wszystkim i o niczym: o randkach, imprezach i ciuchach. „O, tak, nacisnęłam enter i już” – pokazała palcem w poświęconym jej reportażu w telewizji SVT. Blogerka decyzję argumentowała zmęczeniem i niechęcią do obrazu samej siebie sprzed lat oraz obecnością na YouTubie i Instagramie. W programie Kissie udaje się do Biblioteki Królewskiej, gdzie w towarzystwie jej wicedyrektora historyka Larsa Ilshammara ogląda swoje zachowane w archiwum Kulturarw3 naiwne wpisy. Okazuje się, że sprawia jej to radość. Po emisji na forach internetowych zawrzało: dlaczego Biblioteka Królewska zachowuje tego rodzaju treści? „Nie jest naszą rolą oceniać wartość zbiorów. W przyszłości może to być ciekawe źródło dla badaczy naszych czasów” – skomentował później Ilshammar w rozmowie ze Szwedzkim Radiem.

Analiza zawartości archiwum Kulturarw3 może być trudna. Zauważam, że brakuje możliwości wyszukiwania fraz jak w żywym internecie czy słów kluczy znanych z bibliotecznych katalogów. Powód? – Przez pierwsze lata archiwum nie było udostępniane, gdy zostało otwarte, musieliśmy dostosować przepisy o ochronie danych osobowych (szwedzka ustawa PUL), bo mamy do czynienia z ogromną liczbą prywatnych informacji, które ktoś być może celowo usunął. Z tego samego powodu utrudniony jest dostęp do zasobów, można je przeglądać jedynie na miejscu, w bibliotece – wyjaśnia Nilsson. Opowiada, że przypomina sobie jeden przypadek, gdy prywatna osoba zgłosiła zastrzeżenie: na zarchiwizowanej przez bibliotekę stronie internetowej widoczny był jej numer osobisty.

Zapewne podobne powody sprawiają, że w sieci swojego archiwum nie może prezentować działające tylko wirtualnie szwedzkie Muzeum Internetu, założone w 2014 roku przez fundację Internetstiftelsen. Od dostawcy internetu Tele2 organizacja otrzymała zbiór 50 tys. pierwszych, prostych graficznie, domowych stron tworzonych w latach 90. w archaicznej domenie Swipnet. – Uważamy, że jest to cenne dziedzictwo, jak zalążek Facebooka. Ludzie publikowali zdjęcia, pisali o swoich zainteresowaniach. Okazało się jednak, że w związku z wejściem rozporządzenia RODO nasza fundacja nie może przechowywać prywatnych stron – wyjaśnia mi Björn Appelgren z Internetstiftelsen. W 2018 roku kolekcja, mieszcząca się w niewielkim nośniku pamięci, trafia do Biblioteki Królewskiej na ręce Pära Nilssona i dziś jest dostępna w komputerze Kulturarw3 w oddzielnym katalogu.

Gdy przeglądam zawartość archiwum internetowego, wydaje mi się, że rzeczywiście przenoszę się do początku wieku. Treści ładują się powoli, jakbym znów łączył się przez modem. – A to dlatego, że do 2012 roku strony zapisywaliśmy na taśmach magnetycznych. Wybranie archiwalnej strony powoduje konieczność odnalezienia przez robota odpowiedniej taśmy i włożenia jej do czytnika – tłumaczy Nilsson. Dodaje, że obecnie oczywiście biblioteka wykorzystuje serwery, które szybko zapełniają znajdujące się pod gmachem magazyny wybudowane w latach 90. z myślą o tradycyjnych zbiorach. Lepsze byłyby archiwa w chmurze, ale Biblioteka Królewska nie może trzymać swoich zbiorów na zewnętrznych serwerach z powodów bezpieczeństwa.

Konieczność inwestycji w nowe technologie, a co za tym idzie wysokie koszty działalności, omal nie doprowadziły do rezygnacji z archiwizowania stron internetowych. W 2010 roku ówczesna dyrekcja Biblioteki Królewskiej wstrzymała na rok pracę Kulturarw3, a przeczesywanie szwedzkich stron zleciła fundacji Internet Archive, tej samej, która na początku nie chciała współpracować w sprawie oprogramowania. Ostatecznie pomysł outsourcingu nie sprawdził się, skala archiwizacji była mniejsza, co sprawiło, że wiele miejsc z sieci zniknęło bezpowrotnie.

IKEA NIE MUSI

W archiwizacji szwedzkiego internetu przełomem był 2015 rok, gdy po kilku latach debat, licznych ekspertyz oraz testów weszła w życie tzw. ustawa o e-obowiązku. Nowe prawo zobligowało urzędy publiczne oraz profesjonalnych wydawców do przekazywania bibliotece wszystkich swoich cyfrowych publikacji automatycznie poprzez RSS lub FTP. – W przepisach zawodowy twórca został zdefiniowany jako zarabiający w internecie pod warunkiem, że jest to jego główne źródło utrzymania. Nie jest więc nim prywatna osoba, nawet jeśli ma miliony czytelników – podkreśla Nilsson. – Nie jest nim Ikea, choć posiada bogate zasoby cyfrowe, cenne z uwagi na design, gdyż zarabia na sprzedaży mebli – dodaje mój rozmówca. Podobnie e-obowiązek nie obejmuje publikacji w mediach społecznościowych, powodując, że publikowane treści nie są zachowywane.

Dlaczego wprowadzono e-obowiązek zamiast zwiększyć częstotliwość zapisów Kulturarw3? – Bo oba zbiory różnią się i mogą się uzupełniać. Nowy obejmuje wszystkie treści, w tym zamknięte za paywallem, publikowane przez ważne społecznie podmioty, ale brakuje w nich struktury, układu strony, czyli tego, co można zobaczyć, przeglądając archiwum Kulturarv3. Ma to również swoją wartość – uważa Nilsson. I jeszcze jedna ważna uwaga: zbierane na mocy ustawy zasoby internetu są jedynie magazynowane, o ich udostępnianiu na razie nie ma mowy.

Jak i do czego wykorzystać miliardy internetowych plików i w jakiej formie prezentować zawarte w nich dane – to zadanie dla działającego od 2019 roku Laboratorium Biblioteki Królewskiej, miejsca współpracy grupy bibliotekarzy z naukowcami. Gdy zwiedzam ich lokale w budynku Garnisonen, w latach 70. największego kompleksu biurowego w Skandynawii, dowiaduję się, że w laboratorium głównym narzędziem pracy specgrupy są superszybkie komputery do przetwarzania danych. – Zajmujemy się analizą całości cyfrowego materiału, jaki trafia do biblioteki. Są to publikacje internetowe, telewizyjne, radiowe, a nawet gry komputerowe. Miesięcznie przybywa 45–60 terabajtów danych – wyjaśnia Love Börjesjon, szef laboratorium. Ostatnio unikatowe dane posłużyły do opracowania modelu języka szwedzkiego, potrzebnego programistom do rozwoju sztucznej inteligencji AI.

Jaka będzie przyszłość? Trwają opóźnione przez pandemię, a następnie zmianę rządu prace nad uchwaleniem nowelizacji ustawy o e-obowiązku, która ma naprawić jej niedoskonałości. Biblioteka Królewska liczy na zwiększenie funduszy na działalność cyfrową. Wkrótce, bo już wiosną, położone pięć poziomów pod ziemią archiwum Kulturarw3 będzie udostępniane na większej liczbie komputerów. Informatycy zapowiadają też przeniesienie danych z taśm magnetycznych na twarde dyski, co znacznie przyspieszy ładowanie stron.

***

„Press” do nabycia w dobrych salonach prasowych lub online (wydanie drukowane lub e-wydanie) na e-sklep.press.pl.

Czytaj też: Nowy "Press": Bianka Zalewska i jej dwa światy, Duklanowski od wrzutek, tata Maty i kryminały

Press

Daniel Zyśk, Sztokholm

* Jeśli znajdziesz błąd, zaznacz go i wciśnij Ctrl + Enter
Pressletter
Ta strona korzysta z plików cookies. Korzystając ze strony bez zmiany ustawień dotyczących cookies w przeglądarce zgadzasz się na zapisywanie ich w pamięci urządzenia. Dodatkowo, korzystając ze strony, akceptujesz klauzulę przetwarzania danych osobowych. Więcej informacji w Regulaminie.