Dział: TECHNOLOGIE

Dodano: Maj 19, 2025

Narzędzia:

Drukuj

Drukuj

Technologia w służbie prezydencji

Polska myśl technologiczna wpływa na teraźniejszość i przyszłość Europy. Aby to podkreślić, podczas naszej prezydencji zastosowano nowe rozwiązania, przydatne na przykład do tłumaczenia konferencji

Według badań Eurobarometru z 2023 roku języka angielskiego nie zna ponad połowa mieszkańców Europy. Poza tym nawet ci, którzy go znają, bywają czasem bezradni. W trakcie dyskusji podczas unijnych spotkań nie wszyscy wypowiadają się po angielsku. Gdybyśmy chcieli obejrzeć relację z takiego spotkania, automatyczny tłumacz z YouTube’a tego nie przełoży, bo można generować napisy tylko w jednym, wybranym języku.

Ten problem postanowił rozwiązać zespół pracujący nad zaprezentowaniem Polski, z okazji polskiej prezydencji w Radzie Unii Europejskiej, jako kraju innowacyjnego. W toku dyskusji nad różnymi pomysłami, w jaki sposób można by to zrealizować, wybrano dwie technologie, charakteryzujące się trzema wspólnymi cechami. Po pierwsze, stworzyli je Polacy. Po drugie, technologie te wykorzystują zaawansowane metody sztucznej inteligencji. Po trzecie, są innowacyjne. Chodzi o AI Dubbing firmy ElevenLabs oraz Proste Pismo Poznańskiego Centrum Superkomputerowo-Sieciowego – jednostki badawczej afiliowanej przy Instytucie Chemii Bioorganicznej Polskiej Akademii Nauk. Z tymi jednostkami zawarto umowy o współpracy przy przygotowywaniu materiałów związanych z polską prezydencją.

START-UP, KTÓRY ZACHWYCIŁ ŚWIAT

Większość filmów dystrybuowanych w Polsce nie jest w pełni dubbingowana, tylko nakłada się ścieżkę z polskim lektorem. Dwóch nastolatków, Piotra Dąbkowskiego i Mateusza Staniszewskiego, denerwował monotonny głos lektora w amerykańskich filmach, które z pasją oglądali. Staniszewski, absolwent Imperial College London, pracujący później w Palantir Technologies, oraz Dąbkowski – po studiach na Oxfordzie i Cambridge, zatrudniony w Google – zajmowali się uczeniem maszynowym i sztuczną inteligencją. W 2022 roku, jak opowiadali w wywiadach prasowych, zainspirowani swoimi doświadczeniami z dzieciństwa postanowili rozwiązać problem barier językowych w filmach i założyli start-up ElevenLabs.

Przedsięwzięcie dwóch 30-latków szybko zyskało popularność, osiągając ponad milion użytkowników i pozyskując znaczące fundusze, w tym 19 mln dolarów w rundzie A w czerwcu 2023 roku i 180 mln dolarów w rundzie C w 2025 roku, co podniosło wycenę firmy do 3,3 mld dolarów. Najbardziej znani na świecie inwestorzy, tacy jak Andreessen Horowitz i Sequoia Capital, docenili potencjał technologii głosowej, szczególnie w kontekście rosnącego rynku AI. Już po dwóch latach wycena start-upu wyniosła ponad miliard dolarów, a w styczniu 2025 roku oceniano jego wartość na ponad 3 mld dolarów.

KLONOWANIE GŁOSU

Dzisiaj ElevenLabs specjalizuje się w tworzeniu oprogramowania do syntezy mowy za pomocą sztucznej inteligencji. W ofercie są takie narzędzia jak zamiana tekstu na mowę w postaci generowania realistycznych głosów na podstawie tekstu, z uwzględnieniem emocji i intonacji. W odróżnieniu od syntetycznych generatorów mowy, znanych co najmniej od 20 lat, technologia ElevenLabs tworzy głosy, po których trudno poznać, że zostały sztucznie stworzone. Drugim, robiącym duże wrażenie elementem specjalizacji firmy jest technologia klonowania głosu dowolnej osoby dzięki tworzeniu syntetycznych głosów na podstawie nagrań. Jedną z najciekawszych spośród opracowanych technologii jest automatyzacja dubbingu (Dubbing AI), czyli możliwość zachowania oryginalnego głosu aktorów w różnych wersjach językowych.

Automatyzacja dubbingu pozwala nie tylko klonować głosy osób występujących w filmie, ale też dostosować ruch warg do wypowiadanych kwestii. Oczywiście z uwagi na specyfikę poszczególnych języków, np. różnice w długości słów, nie da się tego zrobić perfekcyjnie. Te drobne niezgodności dla przeciętnego widza są jednak praktycznie niezauważalne.

Zespół odpowiedzialny za przygotowanie polskiej prezydencji postanowił skorzystać z rozwiązania ElevenLabs. Dzięki temu można było pokazać, że mamy narzędzie, które odzwierciedla polską myśl technologiczną, promuje polskie talenty i umacnia wizerunek Polski jako kraju innowacyjnego. Ważne było też to, że żaden inny kraj Unii Europejskiej jeszcze takiego rozwiązania nie stosował.

PRZYPADEK TAJWAŃSKIEJ PARLAMENTARZYSTKI

Były wprawdzie różne próby, w tym ciekawy przypadek tajwańskiej parlamentarzystki dr Chen Ching-Hui, która we wrześniu 2024 roku nagle, tuż przed ważną sesją pytań i odpowiedzi z premierem Tajwanu, straciła głos z powodu obrzęku strun głosowych. Jej niedyspozycja groziła odwołaniem ważnej sesji i zapewne tak by się stało, ponieważ zgodnie z tajwańskim prawem parlamentarzysta musi osobiście zadać pytanie i nie można go zaprezentować w żadnej innej formie niż tylko wypowiadając na głos. Wynika to z postanowienia, że wszystkie mowy posłów muszą być skrupulatnie nagrane i zarchiwizowane.

Sytuacja wydawała się podbramkowa, ale asystent parlamentarzystki wraz z jej partyjnym kolegą wpadli na pomysł, by wykorzystać... technologię klonowania głosu ElevenLabs. Czasu było niewiele, bo zaledwie trzy godziny do rozpoczęcia sesji, ale się udało: podczas sesji odtworzono wygenerowany głos parlamentarzystki.

Ten pierwszy w historii tajwańskiego parlamentu – i kto wie, czy nie pierwszy tego typu na świecie – przypadek wykorzystania technologii sztucznej inteligencji w audio otworzył dyskusję nad jej szerszym zastosowaniem w pracach parlamentu.

Historia z Tajwanu pokazuje, że technologia klonowania i generowania głosu, kojarząca się najczęściej z rozrywką, może być też wykorzystywana jako pomoc dla osób, które z różnych powodów straciły głos, ale wcześniej został on gdzieś zarejestrowany. Zapewne wkrótce, dzięki nowym technologiom, będzie można klonować i generować głos w czasie rzeczywistym, co pozwoli takim osobom na porozumiewanie się z otoczeniem w sposób naturalny.

AUTOMATYCZNY DUBBING DLA KAŻDEGO

Z automatycznego dubbingu może teraz skorzystać każdy. Wystarczy nagrać wideo, otworzyć w przeglądarce stronę ElevenLabs, założyć konto i spróbować w darmowym planie, oczywiście z wieloma ograniczeniami, jak to działa. Wgrywamy film z polskim lektorem i po chwili na ekranie otrzymujemy transkrypcję z diaryzacją, czyli przypisanymi głosami, jeśli w rozmowie uczestniczyło więcej osób. Tekst możemy swobodnie edytować, usuwając ewentualne błędy czy podmieniając słowa albo nawet całe zdania. Kolejnym etapem jest wybór języka docelowego i głosu. Mamy możliwość sklonowania np. własnego głosu lub wybrania jednego z oferowanych przez ElevenLabs lektorów. Sam proces klonowania głosu też nie jest skomplikowany. System potrzebuje próbek w postaci nagrań osoby, której głos ma być sklonowany, i na tej podstawie tworzy jego klon. Teoretycznie może to być krótkie nagranie, ale zdecydowanie lepszy efekt uzyskamy, gdy będzie ich więcej, i to zarejestrowanych w różnych sytuacjach. Jest to szczególnie ważne, gdy zależy nam na jak najwierniejszym oddaniu emocji w generowanym przez ElevenLabs dubbingu. Na koniec otrzymamy plik wideo z dubbingiem w wybranym języku.

KLON GŁOSU POLITYKA

W przypadku współpracy podczas przygotowywania dubbingu do konferencji po nieformalnych spotkaniach ministrów krajów Unii sprawa nie była jednak taka prosta. Ze względu na rangę tych wydarzeń nie można było sobie pozwolić na żadne błędy i trzeba było ograniczyć ryzyko do minimum. Dlatego zanim podjęto współpracę z partnerami, najpierw musieli oni przejść rygorystyczny audyt bezpieczeństwa. W konferencjach biorą udział ministrowie i komisarze unijni, możliwość jakiejkolwiek ingerencji w te materiały mogłaby wyrządzić dużo szkody. Dlatego proces dubbingowania przebiegał nieco inaczej niż zazwyczaj. Po każdej konferencji specjalnie powołany zespół z ElevenLabs przygotowywał stenogram i pierwsze tłumaczenie. Ta transkrypcja zawierała zarówno tekst, jak i znaczniki określające dokładnie czas wypowiedzi. Następnie całość weryfikowali zawodowi tłumacze z zewnętrznej firmy, którzy mieli zadbać nie tylko o jak najlepsze tłumaczenie, ale również o oddanie „ducha” danego języka z jego specyfiką. Następnie transkrypcja wracała do zespołu ElevenLabs, który generował dźwięk, czyli zamieniał napisany tekst na głos, będący najczęściej sklonowanym głosem polityka. Tak opracowane wideo ostatecznie sprawdzali współpracujący z ElevenLabs native speakerzy. Ich zadaniem było wyłapanie ewentualnych niuansów w wypowiedziach sklonowanymi głosami.

KAŻDY MOŻE MÓWIĆ PO FRANCUSKU

Na jednej z konferencji po nieformalnym spotkaniu występowali Adam Szłapka, minister ds. Unii Europejskiej, oraz Piotr Serafin, komisarz Unii Europejskiej ds. budżetu, zwalczania nadużyć finansowych i administracji publicznej (https://www.youtube.com/live/30DpULcdTwE). Otwierając to wideo i klikając w ikonę narzędzi, możemy wybrać ścieżkę dźwiękową. Do dyspozycji jest oryginalna, w tym wypadku polska, bo obaj politycy mówili w swoim ojczystym języku, oraz angielska i francuska. Gdy przełączymy na przykład wystąpienie ministra Szłapki na ścieżkę francuską, to usłyszymy jego głos, tyle że po francusku. Minister zna oczywiście języki i w serwisie MamPrawoWiedzieć.pl deklarował, że swobodnie posługuje się językiem angielskim i ukraińskim. Nie dotyczy to jednak języka francuskiego. Porównując brzmienie głosu ministra mówiącego po polsku i po francusku, zauważymy niewielkie różnice. Wynikają one z tego, że trzeba zsynchronizować kilka elementów: długość wypowiedzi w obydwu językach, ale również ruch warg. Przy tłumaczeniu z jednego języka na drugi otrzymanie wiernej kopii głosu jest bardzo trudne.

GŁOSY Z BIBLIOTEKI

Nasz głos, podobnie jak wizerunek, podlega ochronie prawnej. Dlatego do dubbingowania konferencji wymagana była zgoda polityków na klonowanie ich głosu. Wyrazili ją m.in. Barbara Nowacka, Jakub Wiśniewski, Adam Szłapka, Piotr Serafin i Krzysztof Gawkowski.

Nawet gdyby ktoś nie udzielił na to zgody, nie powinno być problemu z dobraniem głosu lektora.

– Dysponujemy biblioteką ponad 5 tys. sklonowanych głosów. W ramach współpracy z polską prezydencją w Radzie UE wykorzystujemy dwa rodzaje głosów AI. Jeśli uczestnik lub uczestniczka konferencji wyrazi na to zgodę, w dubbingu używamy sklonowanego głosu tej osoby. W takim przypadku wypowiedzi tej osoby w każdym z trzech języków usłyszymy z wykorzystaniem tego samego głosu i tej samej intonacji. Jeśli nie mamy zgody, wykorzystujemy głos lektora z naszej biblioteki. Staramy się dobrać go tak, by barwa, tembr, a także płeć aktora były odpowiednie – tłumaczy Aleksandra Pędraszewska, dyrektor ds. bezpieczeństwa AI w ElevenLabs.

PROSTO I JASNO

Polskiej prezydencji zależy nie tylko na perfekcyjnym tłumaczeniu, ale również na tym, by dokumenty były tak napisane, aby nikt nie miał problemów z ich zrozumieniem. Zyskuje na tym odbiorca, ale pozwala to także zapobiegać dezinformacji, często bazującej na złej interpretacji dokumentów.

Urzędnicy, prawnicy i wszyscy pracujący w hermetycznym środowisku posługują się często specyficznym metajęzykiem, pełnym słów czy zwrotów, które dla przeciętnej osoby mogą być trudne do zrozumienia. Kwestią upraszczania języka komunikacji pomiędzy urzędem a obywatelem czy firmą i klientem od lat zajmują się Amerykanie. Już w czasach prezydentury Cartera wydano tam rozporządzenia nakazujące, by pisma urzędowe były sporządzane językiem zrozumiałym dla przeciętnego Amerykanina, który na dodatek często jest emigrantem i angielski nie jest jego pierwszym językiem. Efekt można było od razu zauważyć w amerykańskich edytorach tekstu, które mają funkcję pozwalającą na ocenę poziomu zrozumienia tekstu.

– Unia Europejska jest pod tym względem daleko w tyle i dopiero niedawno powstały pierwsze rozporządzenia, według których pisma urzędowe i inne oficjalne dokumenty powinny spełniać określone warunki – mówi dr inż. Tomasz Hoffmann z Poznańskiego Centrum Superkomputerowo-Sieciowego, współautor usługi Proste Pismo, której zadaniem jest upraszczanie dokumentów.

W Polsce już od co najmniej kilkunastu lat trwają badania nad prostą polszczyzną. W ubiegłym roku podczas Kongresu Efektywnej Komunikacji opublikowano dokument pt. „Prosty język – ustandaryzowane zasady” (https://jasnopis.pl/udostepnione/prosty-jezyk/standardy.pdf), w którym w sposób niezwykle prosty i atrakcyjny zaprezentowano sześć zasad upraszczania języka komunikacji. Efektem prac naukowców z kilku ośrodków jest aplikacja Jasnopis, której zadaniem jest upraszczanie języka dokumentów.

– Badania i prace, których efektem jest Proste Pismo, zaczęły się kilka lat temu od współpracy Urzędu Miasta Poznania z Uniwersytetem Adama Mickiewicza w Poznaniu – tłumaczy Hoffmann. Urzędnicy rozumieli, że dokumenty, które trafiają do obywateli, nie zawsze są dla nich zrozumiałe. W efekcie bardzo często klienci urzędu zwracali się do urzędników z prośbą o wyjaśnienie, co zabierało czas, który można by poświęcić na załatwienie innych spraw urzędowych. Zwrócenie się do UAM o pomoc w uproszczeniu dokumentów było czymś naturalnym, bo Poznań jest znanym w Polsce ośrodkiem badań nad językiem. Z czasem powstała potrzeba stworzenia narzędzia, w którym cały proces upraszczania by przebiegał. I tu wkroczyło PCSS, posiadające odpowiednią infrastrukturę i współpracujące z pozostałymi partnerami w zakresie rozwoju projektu.

Press

PROSTE PISMO TO APLIKACJA INTERNETOWA. Urzędnik wskazuje plik, który następnie zostaje pobrany z jego komputera, klika przycisk z funkcją upraszczania i maksymalnie po kilku minutach otrzymuje wersję bardziej zrozumiałą. Na ekranie z oryginalnym dokumentem i jego uproszczoną kopią widzimy wskaźnik w postaci suwaka, który mówi urzędnikowi, jak skomplikowany był tekst przed uproszczeniem i jaki jest po wykonaniu operacji

SZTUCZNA INTELIGENCJA LEPSZA NIŻ REGUŁY

Proste Pismo to aplikacja internetowa, a więc łączymy się z nią w przeglądarce. Aby z niej skorzystać, trzeba mieć login i hasło. Sam proces upraszczania w niej dokumentów jest wyjątkowo intuicyjny. Urzędnik wskazuje plik, który następnie zostaje pobrany z jego komputera, klika przycisk z funkcją upraszczania i maksymalnie po kilku minutach otrzymuje wersję bardziej zrozumiałą. Na ekranie z oryginalnym dokumentem i jego uproszczoną kopią widzimy wskaźnik w postaci suwaka, który mówi urzędnikowi, jak „skomplikowany” był tekst przed uproszczeniem i jaki jest po wykonaniu operacji. Stopień skomplikowania, czy według nomenklatury językoznawców „mglistości” tekstu, wyrażony jest w liczbach: im mniejsza liczba, tym mniej skomplikowany tekst.

Mglistość tekstu mierzy się specjalnymi wskaźnikami. Popularny jest indeks FOG, którego wartość oznacza liczbę lat edukacji potrzebną do zrozumienia tekstu. Bierze on pod uwagę liczbę słów, w tym uznanych za trudne, zdań oraz sylab w tekście. Zaprojektowano go dla oceny tekstów w języku angielskim. W polskim za słowa trudne uważa się te mające więcej niż cztery sylaby, a w angielskim – trzy.

– Proste Pismo korzysta zarówno ze zmodyfikowanego indeksu FOG (mglistości tekstu), jak i tzw. indeksu Pisarka. Jest to miara stopnia skomplikowania tekstu przystosowana do naszego języka, została opracowana przez prof. Walerego Pisarka – mówi Hoffmann.

Serwis ma też kilka przydatnych funkcji, m.in. zapisywania dokumentów w bazie oraz przygotowywania na ich podstawie szablonów pism, dzięki czemu można później automatycznie wygenerować pismo konkretnego typu adresowane do konkretnego odbiorcy, podając tylko np. imię i nazwisko odbiorcy oraz numer sprawy.

Na samym początku działania tego typu narzędzi tworzono reguły, ułatwiające wychwycenie w tekście określonych konstrukcji i upraszczanie ich według zdefiniowanych zasad. Jednak po pojawieniu się ChatGPT i innych modeli okazało się, że sztuczną inteligencję można z powodzeniem stosować do upraszczania tekstu. W PCSS zdecydowano się na wykorzystanie polskiego modelu Bielik, który rozwijany jest przez zespół SpeakLeash a.k.a Spichlerz we współpracy z Akademickim Centrum Komputerowym Cyfronet AGH. Integracja Bielika z Prostym Pismem zakończyła się powodzeniem, a poznański serwis jest wykorzystywany przez urzędników różnych instytucji i ministerstw przy opracowywaniu dokumentów związanych z polską prezydencją, a także broszur i materiałów reklamowych.

BRUKSELA SIĘ NAM PRZYGLĄDA

Inicjatywy polskiej prezydencji uważnie obserwują urzędnicy w Brukseli. Zarówno w oficjalnych, jak i prywatnych rozmowach podkreślają, że nasza prezydencja pokazała nie tylko ciekawe, ale również przydatne zastosowanie najnowocześniejszych technologii. Bardzo ważne są tu elementy, których nie widać, czyli opracowanie procedur bezpieczeństwa, weryfikacja prawna możliwości udostępniania głosu przez polityków czy kwestia przekonania urzędników. Świat brukselski dostrzega w naszych inicjatywach możliwość lepszego docierania ze swoimi informacjami do zwykłych Europejczyków. To szczególnie ważne w czasie niestabilnym politycznie, gdy europejskie społeczeństwa są zasypywane dezinformacją. Dla ElevenLabs i PCSS współpraca w ramach polskiej prezydencji stanowi uwiarygodnienie deklaracji, że potrafią spełnić najwyższe standardy administracji państwowych.

Najważniejsze jednak, że Polska na tym zyska, bo pokazaliśmy, że tworzymy produkty technologiczne najwyższej klasy.

PODCASTER ZE SKLONOWANYM GŁOSEM

Ciekawym przypadkiem wykorzystania technologii klonowania głosu w medycynie jest Ben Baldanza – były szef firmy Spirit Airlines, ale także pisarz i podcaster, u którego wykryto stwardnienie zanikowe boczne. Choroba wpłynęła na jego mowę, uniemożliwiając mu kontynuowanie prowadzenia popularnego podcastu. Ben i jego żona szukali rozwiązania, a pomoc przyszła ze strony fundacji Bridging Voice i ElevenLabs. Sklonowano głos Baldanzy na podstawie 200 odcinków jego podcastu, co pozwoliło mu na kontynuowanie jego pasji. Firma stworzyła specjalną inicjatywę Impact Program, której celem jest bezpłatne udostępnianie narzędzi do klonowania głosu i pomoc milionowi osób w wykorzystaniu tej technologii do komunikowania się, gdy utracą głos.

Publikacja powstała na zlecenie Kancelarii Premiera rady Ministrów

Pobierz dodatek >>

Stanisław M. Stanuch

* Jeśli znajdziesz błąd, zaznacz go i wciśnij Ctrl + Enter
Pressletter
Ta strona korzysta z plików cookies. Korzystając ze strony bez zmiany ustawień dotyczących cookies w przeglądarce zgadzasz się na zapisywanie ich w pamięci urządzenia. Dodatkowo, korzystając ze strony, akceptujesz klauzulę przetwarzania danych osobowych. Więcej informacji w Regulaminie.