AI przepisze na wczoraj. Sztuczna inteligencja świetnie spisuje wywiady. WARSZTAT
Oprogramowanie sprzed kilku lat trudno porównywać dziś z tym, co przyniosła w ostatnich kilkunastu miesiącach rewolucja w dziedzinie AI (fot. Andrea De Santis/Unsplash.com)
Ogłaszamy przewrót kopernikański w prasie i internecie. Koniec spisywania wywiadów.
***
Ten tekst Piotra Zielińskiego pochodzi z magazynu "Press" – wydanie nr 03-04/2024. Teraz udostępniamy go do przeczytania w całości dla najaktywniejszych Czytelników. Przyjemnej lektury!
***
Kiedy w lipcu 2021 roku publikowaliśmy w „Press” tekst zatytułowany „Jak (nie) spisywać wywiadu”, o tak szerokim zastosowaniu sztucznej inteligencji jak dziś nie było jeszcze mowy, choć na rynku istniało już oprogramowanie, które umożliwiało transkrypcję nagrań audio. Magdalena Rigamonti, wówczas autorka cotygodniowego wywiadu w „Dzienniku Gazecie Prawnej” (dziś w Onecie), przyznawała, że godzina nagrania oznacza dla niej dziewięć godzin spisywania rozmowy. – Przy okazji tekst układam i redaguję – wspominała.
O programach do automatycznej transkrypcji nie miała jednak zbyt dobrej opinii. W większości przypadków okazywały się nieskuteczne i kompletnie nieprzydatne, zwłaszcza w przypadku pracy nad dłuższymi formami. Oprogramowanie sprzed kilku lat trudno porównywać dziś z tym, co przyniosła w ostatnich kilkunastu miesiącach rewolucja w dziedzinie AI.
Pierwsza fala narzędzi generatywnej sztucznej inteligencji skupiała się głównie na takich możliwościach jak pisanie tekstu czy tworzenie obrazów, jednak wraz z jej rozwojem AI coraz częściej jest wykorzystywana do przetwarzania innych typów danych, w tym plików dźwiękowych. Choć to wciąż nowa technologia – czasem zawodna – to już dziś specjalistyczne oprogramowanie do wykonywania transkrypcji może wyręczyć nas w jednym z najbardziej znienawidzonych dziennikarskich zadań.
Na potrzeby naszego eksperymentu postanowiliśmy przetestować pięć programów do automatycznej transkrypcji, które potrafią rozpoznawać i przetwarzać cyfrowy dźwięk w języku polskim. W przypadku plików o bardzo dobrej studyjnej jakości większość aplikacji dostępnych na rynku ze spisywaniem radzi sobie bardzo dobrze. W codziennej dziennikarskiej pracy bardzo rzadko zdarza się jednak, by nagrania były wolne od przypadkowych dźwięków, szumów czy rozmów prowadzonych w tle. Zadanie postanowiliśmy więc utrudnić.
Pierwszym nagraniem, które wykorzystaliśmy, był początek przemówienia premiera Donalda Tuska z Marszu Miliona Serc, który odbył się w październiku 2023 roku (oryginalny plik, z którego korzystaliśmy, można znaleźć na oficjalnym profilu Tuska na YouTubie). Na nagraniu – oprócz niosącego się echa – słychać okrzyki, oklaski, kibicowskie trąbki i syreny służb medycznych.
Drugim nagraniem jest rozmowa Magdy Mołek z aktorką Sonią Bohosiewicz dostępna na kanale dziennikarki „W twoim stylu” na portalu YouTube. Wykorzystaliśmy to nagranie dlatego, że rozmowy nagrywane są w formie zdalnej poprzez dostępne na rynku komunikatory, a dźwięk nie jest idealny (choć wciąż dobrej jakości). Taka forma wywiadu jest coraz częściej spotykana także w redakcjach, może więc dawać wyobrażenie, czy programy do automatycznej transkrypcji mogą poradzić sobie z wywiadem nagranym przez Skype’a, Google Meet, czy Microsoft Teams i czy są w stanie rozróżnić głosy występujące w nagraniu.
Poniżej prezentujemy transkrypcję wykonaną przez dziennikarza, a w ramkach efekt pracy poszczególnych programów.
Przemówienie D. Tuska:
Niemożliwe stało się możliwym. Kiedy widzę to morze serc, kiedy widzę te setki tysięcy uśmiechniętych twarzy, to dobrze czuję, że przychodzi ten przełomowy moment w historii naszej ojczyzny. Przeżyłem już w swoim życiu kilka takich kluczowych chwil. Nikt nie wierzył wtedy, tak jak jeszcze niedawno, że takie zdarzenia, takie tłumy, takie emocje mogą przydarzyć się nam ponownie w naszej historii.
Dzisiaj następuje wielka zmiana. To jest sygnał wielkiego polskiego odrodzenia. Rozpoczynamy Milion, Marsz Miliona Serc tu w Warszawie. Warszawie, która też jest symbolem odrodzenia. Niektórzy dzisiaj nieliczni uciekli ze stolicy. Właśnie tego dnia nie chcieli Was widzieć, ale obraz, ale ta cała Polska, która dzisiaj się tu zebrała, pójdzie za nimi. Dzisiaj cały świat patrzy na Warszawę. Dzisiaj znowu wszyscy macie prawo czuć się dumni. Dzisiaj Polacy, Polki, cała nasza ojczyzna, ale też Europa i świat widzą, że Polska to jest bardzo dumna rzecz. Że Polska to jest bardzo ważna sprawa dla setek tysięcy, dla milionów ludzi.
Wywiad Magdy Mołek:
Magda Mołek: Dzień dobry, „W moim stylu”. No to dzisiaj Sonia Bohosiewicz o miłości, o dobroci i o stawaniu w prawdzie. Zaczynamy.
Soniu, dzień dobry!
Sonia Bohosiewicz: Dzień dobry!
Magda Mołek: Ojej. Wbijam do ciebie po energię, a tu takie uprzejme, słodkie dzień dobry. Dawaj tę swoją, tę jak to, fabrykę energii. Masz ją dzisiaj czy dzisiaj inny dzień?
Sonia Bohosiewicz: Poczekaj, spojrzę za okno. No, słońca dzisiaj nie ma, ale coś wykrzesamy, wykrzesamy. Wszystko dobrze.
Magda Mołek: Jak żyćko? Dobrze żyćko płynie?
Sonia Bohosiewicz: Bardzo dobrze. Nie ma momentów, żeby było źle.
Magda Mołek: Ale to jest i zawodowe, i tak zwane osobisto-prywatne, chociaż trudno rozłączyć, nie?
Sonia Bohosiewicz: Wiesz co, już tak jakoś od dłuższego czasu myślę o życiu, że niezależnie od tego, w którym ono, w którym jest momencie. Czy akurat jest ta zwyżka i akurat wszystko się splata dobrze, czy jest ten dołek i akurat przyszła jakaś informacja, która jest trudna i trzeba przez coś przebrnąć – to i tak cieszę się, że doświadczam przygody pod tytułem życie. I oczywiście jakby nie brzmiało to dziwacznie i wiesz, tchnie trochę, takim Paulo Coelho, ale naprawdę tak jest. I cieszę się i z tych ciężkich rzeczy, i z tych radosnych rzeczy. No bo absolutnie tak to wygląda. Nikt nie obiecywał, że będą tylko te szczyty i tylko te piki. Muszą być także doliny, zresztą bez tych dolin nie byśmy nie wiedzieli, że jesteśmy na szczycie. Tak to wygląda i nie ma się co od tego odżegnywać, więc dopóki jesteśmy... No słuchaj, są pieniądze, jest sława, jest zdrowie, jest wszystko. Jest miłość.
1. MYGOODTAPE
Strona: goodtape.io
Wersja bezpłatna: 3 nagrania/miesiąc (ograniczenie do 30 minut transkrypcji nagrania), w przypadku wersji bezpłatnej dłuższy czas oczekiwania na materiał niż w wersji płatnej
Wersja płatna: pierwszy miesiąc 9 euro (ok. 40 zł), kolejne 15 euro miesięcznie (ok. 65 zł)
Format: obsługuje większość formatów audio, preferowane są jednak pliki *.MP3
Opis: Wspiera ponad 90 języków, w tym polski. Aplikacja została stworzona z myślą o dziennikarzach, jest zoptymalizowana do transkrypcji wywiadów, ale jak informują pomysłodawcy, MyGoodTape używany jest w różnych branżach, takich jak marketing, biznes, badania czy produkcja wideo. Na stronie internetowej można przeczytać informacje na temat projektu (Good Tape ApS to duńska spółka z ograniczoną odpowiedzialnością należąca do Zetland ApS, znanej duńskiej gazety cyfrowej). Przesyłane nagranie jest w pełni zaszyfrowane i usuwane natychmiast po wykonanej transkrypcji. Good Tape opiera się na modelu sztucznej inteligencji OpenAI o nazwie Whisper.
Ocena: 4+/5
Zdecydowanie jedno z najlepszych narzędzi dostępnych na rynku. Świetnie radzi sobie z językiem polskim, nawet z nagraniami gorszej jakości. Co ważne, w gotowym tekście pojawia się interpunkcja i informacje na temat znaczników czasowych, co ułatwia pracę nad edycją materiału. W drugim nagraniu (Magda Mołek) oprogramowanie nie rozpoznało, że w wywiadzie występują dwie rozmówczynie, co w przypadku dłuższych form, np. wielogodzinnych wywiadów, może być kłopotliwe (by rozpoznawać rozmówców, trzeba przejść na płatną wersję Professional). Prosty interfejs, możliwość edycji transkrypcji i wprowadzania poprawek bezpośrednio w programie.
2. TURBOSCRIBE
Strona: turboscribe.ai
Wersja bezpłatna: maks. 3 pliki/dzień (ograniczenie do 30 minut transkrypcji nagrania), w przypadku wersji bezpłatnej dłuższy czas oczekiwania na materiał niż w wersji płatnej
Wersja płatna: 20 dolarów miesięcznie (ok. 80 zł) lub 120 dolarów rocznie (ok. 480 zł), nieograniczone transkrypcje
Format: obsługuje większość formatów audio (MP3, M4A, MP4, MOV, AAC, WAV, OGG, OPUS, MPEG, WMA, WMV, AVI, FLAC, AIFF, ALAC, 3GP, MKV, WEBM, VOB, RMVB, MTS, TS, QuickTime i DivX), pliki w wersji płatnej mogą mieć maksymalnie 10 godzin (5 GB)
Opis: Konwertuje pliki audio i wideo na tekst w ponad 98 językach z dużą dokładnością. Przy opcji płatnej można przesyłać nawet do 50 plików jednocześnie. Transkrypcje można pobrać w takich formatach jak: PDF, DOCX, SRT/VTT, CSV i TXT. Dodatkową opcją jest możliwość transkrypcji oryginalnego języka audio bezpośrednio na język angielski. Oprogramowanie rozpoznaje mówców (w momencie przesyłania pliku trzeba zaznaczyć, ilu rozmówców występuje w nagraniu). Dodatkowo można użyć sztucznej inteligencji, by usunąć szum tła i poprawić głos (przez twórców jest to zalecane tylko w ostateczności w przypadku plików o słabej jakości dźwięku).
Ocena: 4+/5
Oprogramowanie działa bardzo dobrze. Jakość wykonanej transkrypcji jest bardzo dobra, a sama transkrypcja jest wykonana szybciej niż np. w MyGoodTape. Na plus pojawiająca się interpunkcja i łatwy interfejs. Wystąpił problem w rozpoznawaniu dwóch rozmówców – program pomylił rozmówczynie, przypisując słowa nie tej osobie, która akurat udzielała wypowiedzi (wskazał Sonię Bohosiewicz, choć była to Magda Mołek).
3. DESCRIPT
Strona: descript.com
Wersja bezpłatna: 1 godz. (60 min) / miesiąc
Wersja płatna: 10 godz./miesiąc w pakiecie „Creator” (12 dol. – ok. 48 zł/mies. lub 144 dol. przy rozliczeniu rocznym – ok. 580 zł). 30 godz./miesiąc w pakiecie „Pro” (24 dol. – ok. 96 zł/mies. lub 144 dol. przy rozliczeniu rocznym – ok. 1160 zł).
Format: większość formatów audio na rynku (m.in. MP3, M4A, WAV).
Opis: Descript to bardzo rozbudowane narzędzie dla profesjonalistów. Umożliwia m.in. pisanie, nagrywanie, wykonywanie transkrypcji, edytowanie, a nawet udostępnianie filmów i podcastów. Możliwości programu w zakresie edycji audio i wideo są bardzo duże. Dzięki wsparciu AI potrafi np. usunąć szum tła i dopracowywać dźwięk dzięki nakładce Studio Sound, która daje studyjną jakość i imituje jakość materiału tak, jakby był on nagrywany w profesjonalnym studiu.
Ocena: 4/5
Pracę związaną z transkrypcją w Descript można ocenić wysoko. Nagranie spisuje dość precyzyjnie, choć nie jest to wyłącznie program do transkrypcji, więc jego interfejs może nieco przytłaczać początkujących użytkowników – na tle powyższych wygląda na skomplikowany w obsłudze i mało intuicyjny. Program do niedawna wymagał fizycznej instalacji oprogramowania na dysku. Obecnie dostępny jest także online z poziomu przeglądarki (wersja beta).
4. PINPOINT
Strona: journaliststudio.google.com/pinpoint
Wersja bezpłatna: narzędzie jest całkowicie darmowe, nie ma ograniczeń, jeśli chodzi o długość transkrypcji, ilość nagrań, dostępne miejsce na pliki
Wersja płatna: brak
Opis: Pinpoint to narzędzie stworzone przez Google’a, które ma pomagać dziennikarzom i pracownikom naukowym eksplorować i analizować duże zbiory dokumentów. Za jego pomocą można przeszukiwać setki tysięcy dokumentów, obrazów, e-maili, odręcznych notatek i plików audio pod kątem określonych słów lub wyrażeń, lokalizacji, organizacji i osób. Nie jest to więc jedynie narzędzie do wykonywania transkrypcji, a dużo więcej, i tak należy je traktować. Do programu można przesyłać pliki audio o długości do dwóch godzin, wówczas wykonywana jest transkrypcja na pliki tekstowe z możliwością ich przeszukiwania. Pinpoint obsługuje osiem języków transkrypcji audio (w tym język polski).
Ocena: 3/5
Transkrypcja wykonana w Pinpoincie w języku polskim wymagałaby dużej ilości pracy, by na jej podstawie mógł powstać wywiad (w języku angielskim działa znacznie lepiej). Niemniej narzędzie działa świetnie, jeśli chodzi o kwestie związane z przeszukiwaniem plików audio czy materiałów wideo (po przesłaniu plików wykonywana jest automatyczna transkrypcja). Jeśli zależy nam np. na znalezieniu interesującego fragmentu (lub fragmentów) z komisji śledczej czy zarchiwizowanych briefingów prasowych pod kątem konkretnego słowa lub frazy (zakładając, że interesuje nas np. słowo „wybory”), dzięki Pinpointowi łatwo odnajdziemy moment (lub momenty), w którym to słowo pada (nawet przy kilkudziesięciu godzinach nagrań).
5. BEEY
Strona: beey.io
Wersja bezpłatna: 3 nagrania/miesiąc (ograniczenie do 30 min transkrypcji)
Wersja płatna: 35 zł za godzinę transkrypcji (zakup kredytów bezpośrednio w aplikacji)
Format: MP4, MP3, WAV, AAC (audio MP4), VORBIS lub OPUS
Opis: Beey to aplikacja internetowa do automatycznej transkrypcji i tworzenia napisów audio i wideo, która powstała w Czechach. Działa dla większości języków europejskich. Jak informują twórcy oprogramowania, zapewnia ponad 90 proc. precyzji w przypadku większości nagrań w języku angielskim, niemieckim i czeskim. Automatyczne transkrypcje ich zdaniem nigdy nie są w 100 proc. dokładne, dlatego w edytorze Beey możemy szybko poprawić swoje transkrypcje lub skorzystać z pomocy profesjonalnego korektora i poprosić go o dopracowanie tekstu za nas. Maksymalna długość nagrania, które można transkrybować, wynosi sześć godzin. Zaleca się jednak transkrypcję nagrań w odcinkach dwugodzinnych lub krótszych. Dłuższe lub większe pliki mogą powodować błędy przetwarzania lub wolniejsze odpowiedzi aplikacji.
Ocena: 2/5
Narzędzie jest bardzo proste w obsłudze, jednak na tle innych dostępnych programów na rynku wypada słabo. Zawiera jednak ciekawe funkcje. Może transkrybować, a nawet tłumaczyć (na język obcy) filmy bezpośrednio z internetu. By to zrobić, zamiast przesyłania pliku, wystarczy wprowadzić adres url nagrania lub wideo z YouTube’a czy Facebooka. Program powinien radzić sobie także z nagraniami gorszej jakości – możemy zaznaczyć opcję, że nagranie zawiera szumy w tle lub inne zakłócające efekty. Istnieje także opcja rozpoznawania mówców (efekt transkrypcji pozostawia do życzenia, choć w samym podziale na rozmówców radził sobie lepiej niż pozostałe programy – omyłkowo rozpoznał cztery postacie).
***
„Press” do nabycia w dobrych salonach prasowych lub online (wydanie drukowane lub e-wydanie) na e-sklep.press.pl.
Czytaj też: Nowy "Press": Dunikowska-Paź o prawdzie w TVP, Głuchowski, Suwart i mistrz Gosztyła
Piotr Zieliński