Wydanie: PRESS 03-04/2024
Warsztat: AI przepisze na wczoraj
Ogłaszamy przewrót kopernikański w prasie i internecie. Koniec spisywania wywiadów
Kiedy w lipcu 2021 roku publikowaliśmy w „Press” tekst zatytułowany „Jak (nie) spisywać wywiadu”, o tak szerokim zastosowaniu sztucznej inteligencji jak dziś nie było jeszcze mowy, choć na rynku istniało już oprogramowanie, które umożliwiało transkrypcję nagrań audio. Magdalena Rigamonti, wówczas autorka cotygodniowego wywiadu w „Dzienniku Gazecie Prawnej” (dziś w Onecie), przyznawała, że godzina nagrania oznacza dla niej dziewięć godzin spisywania rozmowy. – Przy okazji tekst układam i redaguję – wspominała.
O programach do automatycznej transkrypcji nie miała jednak zbyt dobrej opinii. W większości przypadków okazywały się nieskuteczne i kompletnie nieprzydatne, zwłaszcza w przypadku pracy nad dłuższymi formami. Oprogramowanie sprzed kilku lat trudno porównywać dziś z tym, co przyniosła w ostatnich kilkunastu miesiącach rewolucja w dziedzinie AI.
Pierwsza fala narzędzi generatywnej sztucznej inteligencji skupiała się głównie na takich możliwościach jak pisanie tekstu czy tworzenie obrazów, jednak wraz z jej rozwojem AI coraz częściej jest wykorzystywana do przetwarzania innych typów danych, w tym plików dźwiękowych. Choć to wciąż nowa technologia – czasem zawodna – to już dziś specjalistyczne oprogramowanie do wykonywania transkrypcji może wyręczyć nas w jednym z najbardziej znienawidzonych dziennikarskich zadań.
Na potrzeby naszego eksperymentu postanowiliśmy przetestować pięć programów do automatycznej transkrypcji, które potrafią rozpoznawać i przetwarzać cyfrowy dźwięk w języku polskim. W przypadku plików o bardzo dobrej studyjnej jakości większość aplikacji dostępnych na rynku ze spisywaniem radzi sobie bardzo dobrze. W codziennej dziennikarskiej pracy bardzo rzadko zdarza się jednak, by nagrania były wolne od przypadkowych dźwięków, szumów czy rozmów prowadzonych w tle. Zadanie postanowiliśmy więc utrudnić.
Pierwszym nagraniem, które wykorzystaliśmy, był początek przemówienia premiera Donalda Tuska z Marszu Miliona Serc, który odbył się w październiku 2023 roku (oryginalny plik, z którego korzystaliśmy, można znaleźć na oficjalnym profilu Tuska na YouTubie). Na nagraniu – oprócz niosącego się echa – słychać okrzyki, oklaski, kibicowskie trąbki i syreny służb medycznych.
Drugim nagraniem jest rozmowa Magdy Mołek z aktorką Sonią Bohosiewicz dostępna na kanale dziennikarki „W twoim stylu” na portalu YouTube. Wykorzystaliśmy to nagranie dlatego, że rozmowy nagrywane są w formie zdalnej poprzez dostępne na rynku komunikatory, a dźwięk nie jest idealny (choć wciąż dobrej jakości). Taka forma wywiadu jest coraz częściej spotykana także w redakcjach, może więc dawać wyobrażenie, czy programy do automatycznej transkrypcji mogą poradzić sobie z wywiadem nagranym przez Skype’a, Google Meet, czy Microsoft Teams i czy są w stanie rozróżnić głosy występujące w nagraniu.
Obok prezentujemy transkrypcję wykonaną przez dziennikarza, a w ramkach efekt pracy poszczególnych programów.
Piotr Zieliński
Aby przeczytać cały artykuł:
Zapisz się na nasz newsletter i bądź na bieżąco z najświeższymi informacjami ze świata mediów i reklamy. Pressletter