Dział:

Dodano: Sierpień 30, 2019

Narzędzia:

Drukuj

Drukuj

Zanim wyłączą sieć

(fot. Pixabay)

Co dzień z internetu znikają cenne zasoby, których nikt nie zdążył zarchiwizować. Co robić, by twoje artykuły i filmy nie przepadły na zawsze?

W 1985 roku Kevin Vaughan, student dziennikarstwa, przeglądał w bibliotece mikrofilmy z artykułami „Denver Post” z 1961 roku, poszukując tekstów ulubionego profesora. Jego uwagę przykuł tekst o zderzeniu autobusu szkolnego z pociągiem, w wyniku którego zginęło 20 dzieci. Zdziwiony, że żyjąc w stanie Colorado, nigdy nie słyszał o tej tragedii, zanotował kilka szczegółów i schował kartkę do kieszeni.

Wrócił do niej ponad 20 lat później, będąc już doświadczonym dziennikarzem pracującym dla „The Rocky Mountain News”. W 2006 roku wydawca zgodził się, by Vaughan zrobił reportaż o tym, co stało się z rodzinami dzieci, które zginęły w 1961 roku. Tak powstał „The Crossing” – 34-odcinkowy reportaż multimedialny, który stał się wielkim medialnym wydarzeniem. Czytelnicy czekali na kolejne odcinki, tak jak czekamy na nowe sezony seriali. Vaughan za tę serię został finalistą Nagrody Pulitzera w 2008 roku.

Kilka miesięcy później gazeta „The Rocky Mountain News” została zamknięta, praktycznie z dnia na dzień. Jej strona zniknęła z internetu, a z nią reportaż Vaughana.

Historię „The Crossing” opisała Adrienne LaFrance w tekście „Raiders of the Lost Web” w „The Atlantic” cztery lata temu. Gorąco polecam ją każdemu, szczególnie dziennikarzom. Moją uwagę przykuło zdanie: „Jeśli 34-odcinkowy materiał dziennikarstwa śledczego, finalista Pulitzera, może zniknąć z internetu, to oznacza, że wszystko może zniknąć”.

Boleśnie przekonał się o tym redaktor internetowego serwisu włoskiej edycji CNN – Mario Tedeschini-Lalli. „Po 40 latach pracy dziennikarskiej przechodzę na emeryturę. Jeśli ktoś będzie chciał prześledzić moją karierę dziennikarską, to znajdzie sporo w bibliotekach i czytelniach, ale też zapewne zdziwi się, że większość mojego dorobku z ostatnich 20 lat przepadła” – pisze Tedeschini-Lalli w serwisie Medium.com. Bo włoska edycja serwisu CNN już nie istnieje, a opublikowane w niej teksty nie są dostępne w internecie.

DYSK W CHMURZE

Mając wszystko w zasięgu Google, zaczynamy tracić czujność. Nie archiwizujemy własnych treści, ufając, że serwery jakiejś firmy przetrzymają je dla potomnych. Czas skończyć z takim myśleniem i samemu tworzyć własne archiwa. Gotowe narzędzia istnieją, a problem jest tylko jeden: trzeba działać systematycznie.

Ja oparłem swój system archiwizowania na przeglądarce i dysku w chmurze (Google Drive, DropBox albo One Drive), który automatycznie tworzy kopię zapamiętanych plików. Polecam do archiwizacji używać innego serwisu w chmurze niż nasz podstawowy. Jeśli więc korzystamy z Google Drive, do archiwizacji załóżmy konto na DropBox czy OneDrive.

By dysk w chmurze tworzył automatycznie kopię w internecie, trzeba jeszcze zainstalować na komputerze niewielki program, który cały czas monitoruje zmiany na dysku komputera i w chmurze – i je synchronizuje. Każdy z producentów takich dysków na pewno podczas zakładania konta taki program nam zaproponuje. Ja używam Dysk Google (https://www.google.com/drive/download/). Aby go zacząć używać, trzeba mieć konto Google (może być Gmail), zainstalować aplikację i zalogować się do niej kontem Google oraz wskazać folder na dysku lokalnym, którego zawartość będzie automatycznie synchronizowana z chmurą Google. Identycznie zainstalujemy pozostałe dyski, jak DropBox (http://dropbox.com) czy MS OneDrive (https://onedrive.live.com/about/pl-pl/).

Aplikacja dysku w chmurze zintegruje się – w przypadku Windows – z eksploratorem plików, czyli zawartość dysku sieciowego (w chmurze) widzimy identycznie jak wszystkie inne foldery i pliki na komputerze. Można też swobodnie kopiować z dysku komputera na dysk w chmurze, a aplikacja sama na bieżąco synchronizuje zmiany.

Mając już skonfigurowany komputer, musimy podjąć dwie decyzje: co i w jakiej formie zapisywać oraz jak organizować na dysku archiwum.

Polecam zapamiętywanie każdego pliku w co najmniej trzech formach. Pierwsza: tekst w formie wysłanej do redakcji (najczęściej jest to plik edytora tekstów). Druga: wersja tekstu, jaka ukazała się na stronie internetowej zapamiętana w formie oczyszczonego pdf. Trzecia: zrzut ekranu opublikowanego tekstu w formacie png lub jpg. Poszczególne formy powinny mieć tę samą nazwę i różnić się tylko rozszerzeniem, np. docx, pdf i jpg.

Najpopularniejszym sposobem organizacji plików w archiwum na komputerze i dysku sieciowym jest tworzenie plików w folderach o nazwach kolejnych lat. Wtedy stosunkowo łatwo znaleźć tekst pod warunkiem, że pamiętamy, w którym roku został opublikowany. Freelancerzy pewnie będą woleli tworzenie folderów np. z nazwami redakcji, z którymi współpracują. Można też stworzyć system, w którym nazwy folderów pochodzą od głównej tematyki tekstu, ale mało kto ma tyle samozaparcia, by ten sposób archiwizowania utrzymać przez dłuższy czas.

KOPIE: TEKSTOWA, PDF, ZRZUT EKRANU

Po napisaniu tekstu i wysłaniu go do redakcji pierwszą rzeczą, którą robię, to nadaję plikowi nową nazwę, składającą się z aktualnej daty, nazwy redakcji i tytułu np.: „20181120_press_archiwizacja.docx”. Ważne, by trzymać się pewnych reguł, co później procentuje – czyli datę piszemy w formacie rok/miesiąc/dzień, bo dzięki temu, gdy w folderze uporządkujemy pliki według nazwy, będą one również posortowane według daty. Nazwy redakcji piszę małymi literami, bo komputery rozróżniają, czy coś jest pisane z małej czy dużej litery. System wykorzystujący datę umożliwia szybkie wyszukanie na komputerze plików z danego dnia.

Gdy tekst opublikowano na stronie internetowej, robię pozostałe kopie, czyli pdf i zrzut ekranu. Ostatnie wersje przeglądarki Firefox mają wbudowane wygodne narzędzie do robienia zrzutów ekranu: trzeba wejść na stronę z artykułem, kliknąć w trzy kropki w pasku adresu przeglądarki, wybrać z menu pozycję „Wykonaj zrzut ekranu” i skorzystać z opcji „zapisz widoczne” albo „zapisz całą stronę”. Pierwsza wykona zrzut tego, co jest widoczne na ekranie; druga powoduje, że przeglądarka przewinie stronę w dół i zapamięta całą. Tej funkcji nie ma w standardowym Chrome, ale są setki wtyczek, które ją wykonują.

Zrzut ekranu zapisuję na dysku komputera, zmieniam nazwę na taką samą, jaką przypisałem wcześniej plikowi z edytora tekstów, i kopiuję plik do konkretnego folderu dysku w chmurze, skąd zostanie automatycznie skopiowany do chmury.

Wykonanie właściwego pdf jest bardziej skomplikowane. W przeglądarce wybieramy polecenie „Drukuj”, potem urządzenie tworzące pdf – w Windows jest to „Microsoft to pdf”. Po chwili na dysku komputera jest plik pdf z zawartością strony. Całą zawartością, a więc reklamami, przyciskami, menu itd. Niekiedy dobrze jest taką kopię mieć, ale najczęściej lepiej jest przechować czysty tekst. Użytkownicy Firefoksa mają znowu łatwiej, bo w tej przeglądarce jest narzędzie „Poprawianie czytelności” (ikona strony maszynopisu). Wystarczy w nią kliknąć lub nacisnąć klawisz F9, by w ekranie przeglądarki mieć czysty artykuł. Korzystający z Chrome muszą sobie zainstalować jedną z wtyczek do czyszczenia tekstów – polecam bezpłatną Prints Friendly & PDF. Po zainstalowaniu wtyczki wygenerowanie oczyszczonej strony sprowadza się do kliknięcia w ikonę wtyczki w przeglądarce.

Oczyszczony tekst drukujemy jako pdf, zapisujemy na dysku, zmieniamy mu nazwę na zgodną ze schematem i kopiujemy do folderu dysku w chmurze.

INTERNET ARCHIVE

Na początku listopada 2017 roku nagle zbankrutowały dwa wielkie amerykańskie serwisy lokalnych informacji: DNAInfo i Gothamist. Ich strony internetowe zostały zamknięte. Dziennikarka serwisu z Nowego Jorku Danielle Tcholakian pisała na Twitterze: „Zamknięcie bez ostrzeżenia strony serwisu oznacza, że dziennikarze, którzy stracili pracę, stracili też materiały, które zrobili. Cała ta fenomenalna praca przepadła”.

Zamknięcie dwóch serwisów lokalnych odbiło się echem wśród dziennikarzy – prawie natychmiast powstały narzędzia umożliwiające odzyskanie co najmniej części tekstów. By nie być do tego zmuszonym, warto opanować technikę archiwizacji stron internetowych.

I nie chodzi już tylko o materiały własne, ale też różne internetowe dowody, które dziennikarze zbierają i używają później w materiałach. Myślę o stronach internetowych urzędów, tweetach czy postach na Facebooku np. polityków.

Od kilku lat istnieją co prawda serwisy służące do zarządzania zapamiętywanymi stronami, jak Pinboard, Historius czy Diigo, gdzie można dodać do założonego tam przez nas konta adres strony czy zakładki w przeglądarce (z tym że serwis przechowuje kopię dodanej strony; jeśli zniknie ona z internetu, możemy wyświetlić jej stan z dnia, gdy dodaliśmy ją do serwisu) – są to jednak niewielkie firmy, które także w każdej chwili mogą zniknąć z internetu.

Dlatego wielu dziennikarzy stawia na Internet Archive (http://archive.org), organizację non profit, która od połowy lat 90. postawiła sobie za cel archiwizowanie dorobku ludzkości w internecie (a przynajmniej tej części ważnej kulturowo) i udostępnianie tego archiwum bezpłatnie i bez reklam. Integralną częścią WebArchive jest narzędzie Wayback Machine (maszyna czasu: https://archive.org/web/). Umożliwia internautom przeglądanie różnych wersji zapisanych stron, dzięki czemu można np. prześledzić, jak zmieniały się strony serwisów albo co pisano i jak wyglądała strona NYTimes.com 6 grudnia 2017 roku.

Bez względu na to, czy serwis jeszcze istnieje czy nie, można otworzyć dowolną jego stronę pod warunkiem, że została wcześniej zapamiętana w Internet Archive. Jeśli tak, po wpisaniu w okienko „maszyny czasu” adresu strony, pokazuje się kalendarz z zaznaczonymi dniami, kiedy zostały zapisane kopie stron, np. Press.pl.

Po kliknięciu na wybrany dzień zobaczymy autentyczną stronę z tego dnia.

Strony w Internet Archive można zapamiętywać na dwa sposoby. Pierwszy: wchodzimy na https://archive.org/web/ i w okienku, gdzie jest Save Page Now, wpisujemy interesujący nas adres strony. Tak możemy archiwizować witryny ze swoimi tekstami, ale też te z wypowiedziami polityków czy artykułami, które mogą się nam przydać w pracy.

Drugi sposób oparty jest na wtyczce do przeglądarki – do zapisywania stron w Internet Archive najlepiej sprawdza się Wayback Machine dostępna zarówno dla Chrome, jak i Firefoksa.

O ile jednak dodanie strony do archiwum w Internet Archive jest łatwe, to znalezienie jej, jeśli nie znamy dokładnego adresu w archiwum, jest wyzwaniem. Głównie z powodu szybkości działania serwisu i możliwości jego wyszukiwarki. Dlatego najlepiej zaraz po zarchiwizowaniu strony w Internet Archive zapamiętać gdzieś jej adres albo adres kopii tej strony w Web Archive.

Jeśli np. zarchiwizuję artykuł https://www.press.pl/tresc/55216,w-pap-powstaje-zespol-wydarzen z Press.pl, dobrze jest gdzieś zapisać albo adres artykułu, albo adres jego kopii, czyli: https://web.archive.org/web/20181128092613/https://www.press.pl/tresc/55216,w-pap-powstaje-zespol-wydarzen. Szukając potem tej strony przez Wayback Machine, w okienku wyszukiwarki wpisujemy link do oryginalnego artykułu (https://www.press.pl/tresc/55216,w-pap-powstaje-zespol-wydarzen), a w dowolnej przeglądarce – link do jego kopii w Wayback Machine.

Press

(fot. Unsplash/Christopher Gower)

SAVE MY NEWS

Jako że zapamiętywanie linków jest niewygodne, Ben Welsh z „The Los Angeles Times” opracował dla Internet Archive narzędzie Save My News (http://www.savemy.news/), które ten proces automatyzuje. Korzystają z niego tysiące dziennikarzy do archiwizowania swoich tekstów albo robienia clippingów stron, które chcą mieć w archiwum.

Save My News jest bezpłatny. Trzeba tylko mieć konto na Twitterze, które służy do identyfikacji. W tym celu po wejściu na stronę http://www.savemy.news/ klikamy w „Sign in with Twitter”, co przeniesie nas do strony autoryzacji Twittera. To czynność jednorazowa i taką autoryzację możemy w każdej chwili cofnąć.

By dodać artykuł do Internet Archive – a przy okazji kilku innych podobnych serwisów, np. Archive.is – należy wpisać jej adres w okienku i kliknąć „Save”. Po chwili zobaczymy link do oryginalnej strony, datę archiwizacji i m.in. link o nazwie „archive.org”. To adres kopii archiwizowanej strony w serwisie Internet Archive.

W dodatku pod ostatnią archiwizowaną stroną jest przycisk „Download”, dzięki któremu możemy pobrać plik tekstowy o nazwie clip.csv, który zawiera dokładnie te same dane, czyli adres archiwizowanej strony, datę archiwizacji, adresy kopii. Można go otworzyć na swoim komputerze w Excelu lub innym programie wyświetlającym pliki tekstowe csv.

Save My News rozwiązuje dwa problemy: otrzymujemy szybko zapisane archiwalne wersje stron i kopie linków do archiwów. Przy czym pobraną bazę linków warto co jakiś czas dodawać do dysku w chmurze.

A gdy Save My News też z dnia na dzień zniknie z sieci? Jeżeli regularnie ściągaliśmy bazę zarchiwizowanych plików, są w niej adresy do źródła artykułów i kopii w Internet Archive.

A jeśli Internet Archive też zostanie zamknięty? – zapytacie. No cóż, na razie to jeden z filarów współczesnego internetu, podobnie jak Wikipedia czy Google.

Jeśli jeszcze kogoś nie przekonałem, że warto poświęcić kilka chwil na archiwizowanie materiałów w internecie, ostatnim argumentem jest ciąg dalszy historii reportażu „The Crossing”. Kevin Vaughan postanowił po kilku latach przywrócić swoje dzieło w internecie. Udało mu się skompletować źródła stron, na których były artykuły serii, i z pomocą syna odtworzyli ją pod nowym adresem: http://thecrossingstory.com/chapters/index.html.

Dzisiaj, gdy kliknąłem na nią, zobaczyłem, że jej już nie ma. Po raz drugi materiał finalista Nagrody Pulitzera zniknął z internetu. Na szczęście tym razem jest jego kopia – w Internet Archive.

Tekst ukazał się w magazynie "Press" nr 01-02/2019

 

Stanisław M. Stanuch

Pozostałe tematy weekendowe

Pawłowicz i sędziowie od „Emi” straszą media
„Naciągnięte. Jak Polki uwierzyły, że tylko...
Boski Matyszkowicz, szczery Szołajski, bojowy Wątły
* Jeśli znajdziesz błąd, zaznacz go i wciśnij Ctrl + Enter
Pressletter
Ta strona korzysta z plików cookies. Korzystając ze strony bez zmiany ustawień dotyczących cookies w przeglądarce zgadzasz się na zapisywanie ich w pamięci urządzenia. Dodatkowo, korzystając ze strony, akceptujesz klauzulę przetwarzania danych osobowych. Więcej informacji w Regulaminie.