Jak uczynić z maszyny artystę? Piotr Psyllos
Jak zabrzmi piosenka skomponowana przez AI, którą zaśpiewa sam Frank Sinatra? Czy nam się spodoba? Wywoła emocje? Czy komputer może rywalizować z żywym, czującym artystą? Nauczyć się improwizować? Jak wyposażyć go w kapitał twórczy i inspiracje? Zdecydowaliśmy się to sprawdzić. Oto efekt: 3 monologi („Miłość”, „Śmierć” i „Szczęście”) i 2 piosenki o Voice House w wykonaniu Elli Fitzgerald i Franka Sinatry. Wszystkie wykreowane przez sztuczne sieci neuronowe przy wsparciu jej „mistrza” Piotra Psyllosa.
To właśnie z nim Jarosław Kuźniar rozmawia o skomplikowanym procesie twórczym, bo tak wygląda on również w przypadku sztucznego mózgu. A raczej mózgów – okazuje się, że komputery, tak jak artyści z krwi i kości, potrafią ze sobą rywalizować.
- Podcasty
- Nie taka sztuczna inteligencja
- Jak uczynić z maszyny artystę? Piotr Psyllos
To właśnie z nim Jarosław Kuźniar rozmawia o skomplikowanym procesie twórczym, bo tak wygląda on również w przypadku sztucznego mózgu. A raczej mózgów – okazuje się, że komputery, tak jak artyści z krwi i kości, potrafią ze sobą rywalizować.
Transkrypcja
REDAKTOR J. KUŹNIAR: REDAKTOR J. KUŹNIAR: Sztuczna inteligencja na święta? Właśnie mamy coś, co - mam nadzieję - będzie dla niektórych zaskoczeniem, dla innych rozbawieniem, a dla jeszcze innych przerażeniem. Bo ty jesteś akurat z tych, których sztuczna inteligencja raczej pociąga, a nie przeraża. Ale zakładam, że jeśli ktoś usłyszy Franka Sinatrę, Ellę Fitzgerald albo usłyszy, że Szekspir może pisać w inny sposób niż do tej pory, no to może być przejęty.
P. PSYLLOS: Tak. Szczególnie, jeżeli mówimy o osobach nieświadomych. Bo takie pokutuje przekonanie, że komputery to są bezduszne maszyny, które mają pewne algorytmy całkowicie przewidywalne. I ci programiści, którzy tworzą te algorytmy, robią je w taki sposób, że są w stanie w 100 proc. przewidzieć, co te algorytmy wyprodukują, że to jest po prostu taka prosta matematyka. Coś wrzucam na wejście, otrzymuję na wyjściu i tutaj nie ma mowy o kreatywności, nie ma mowy o sztuce. Nic bardziej mylnego. Okazuje się, że sztuczna inteligencja może być kreatywna. Komputery mogą być kreatywne i ta dziedzina sztuki generatywnej, czyli takiej komputerowej twórczości, przez ostatnie 15 lat intensywnie się rozwija, bo nowe metody deep learningu np. się pojawiły i komputery coraz bardziej wchodzą w kalosze artystów. Tylko to też nie jest coś nowego, bo już w ubiegłym wieku takie komputery mieliśmy. Tylko wtedy te komputery były bardzo słabe i nie mieliśmy też wystarczającej ilości danych. Także np. te piosenki – a już takie w 1957 roku pierwsze powstawały dla kwartetu smyczkowego w Stanach Zjednoczonych, takie eksperymenty były prowadzone – nie były zbyt zaawansowane, ale już niektórzy krytycy muzyczni uważali, że oto nastał przełom i maszyny realnie mogą zastąpić artystów. Taka ciekawostka: nie wiem, czy wiesz, w ubiegłym wieku… Nie wiem, czy to nie jest kaczka dziennikarska, bo starałem się zweryfikować te informacje, ale nie ma zbyt wielu materiałów na ten temat. W ubiegłym wieku powstała taka piosenka, pewnie ją kojarzysz – zespół Hot Butter i piosenka „Popcorn” – od której „Sonda” się zaczynała kiedyś. Później Crazy Frog powstał na tej podstawie. Też została stworzona przy udziale maszyny. Komputer przeanalizował najbardziej wpadające w ucho melodie i później podpowiedział artyście, jak te dźwięki poustawiać, tak że wtedy to się zaczęło. Teraz się rozwija, mamy lepsze komputery, lepsze technologie… No i takie cybergrajki, myślę, że coraz częściej będą nam towarzyszyć.
REDAKTOR J. KUŹNIAR: REDAKTOR J. KUŹNIAR: Szanowni widzowie, zanim przejdziemy do sztuki napisanej przez sztuczną inteligencję, którą nakarmiliśmy Szekspirem, Nietzschem i Edgarem Allanem Poe, to też usłyszycie i Ellę Fitzgerald, i Franka Sinatrę, którzy świątecznie zaśpiewają coś, co jest ciekawe. Ale to w swoim czasie. Natomiast powiedziałeś, że sztuczna inteligencja przygotowała nuty twórcy, który wiedział, jak je poskładać. A skąd ona wie, żeby to miało melodię?
P. PSYLLOS: Tutaj mówimy o takim bardzo rozległym zagadnieniu, bo są różne podejścia. Jeżeli mielibyśmy w taki maksymalnie prosty sposób powiedzieć, jak komputer tworzy dzieła sztuki, piosenki, jak np. obrazy maluje? To się sprowadza do tego, że komputer generuje pewne losowe sekwencje dźwięków np. albo jakichś kształtów, jeżeli mówimy o obrazach. I te sekwencje przechodzą przez takie sito. To sito w etapie… Bo są wykorzystywane metody uczenia maszynowego i te metody kształtują to sito, żeby to sito np. przepuszczało takie – te przypadkowo przez komputer wygenerowane – sekwencje, żeby piosenka była w jakimś stylu. Bo to sito tak kształtujemy, żeby to, co przechodzi, było np. w stylu Sinatry, w stylu van Gogha, jeżeli mówimy tu o obrazach. Czyli mamy właśnie taki generator liczb losowych, sito przy pomocy metod sztucznej inteligencji, uczenia maszynowego kształtowane. No i to sito przepuszcza te rzeczy, które później dodajemy do utworu, składamy to, co wychodzi na wyjściu i mamy utwór. To w uproszczeniu, prawda? Tylko teoretyczne podstawy już były w latach 70. znane na AGH. Prof. Ryszard Tadeusiewicz już wtedy prowadził takie eksperymenty i symfonię Bacha też tworzył. Tylko wtedy komputery były bardzo proste i te metody nie były aż tak zaawansowane, jak teraz są.
REDAKTOR J. KUŹNIAR: Czyli tamta melodia nie była tak profesjonalna i nie brzmiała tak melodyczne, jak ta melodia?
P. PSYLLOS: Tak, bo tutaj największy problem jest – jeżeli mówimy o tych algorytmach – z koherencją, czyli ze spójnością. Okazuje się, że takie proste metody generowania piosenek nie mają żadnej spójności. Czyli mamy jakieś tam dźwięki poukładane na linii czasu, które są przypadkowe. I to naprawdę dobrze nie brzmiało kiedyś. Teraz sytuacja się poprawiła, bo mamy właśnie ten deep learning, czyli metody sztucznej inteligencji, które pozwalają robić coś, w ramach jakiegoś tam kontekstu. Tworzyć np. melodie, odnosząc się do tego, co już ten algorytm wcześniej skomponował. Te deep learningowe biblioteki czy transformatory, które przekształcają pewne sekwencje i generują na wyjściu, są w stanie tak układać te dźwięki, że one mają – jeżeli przeanalizujemy utwór np. 30-sekundowy – jakiś tam związek między sobą, jakiś tam sens. To nie jest przypadkowa zbieranina dźwięków tak, jak to kiedyś było, tylko ta melodia realnie ma jakiś sens i może imitować – tak, jak tutaj mieliśmy przykład Sinatry – czyjś styl melodyczny. I to nie jest coś, co się zmienia co 5 sekund – mówię tutaj o tym stylu – tylko jest ta koherencja, jest taka właściwość, że ta sztuczna inteligencja potrafi kontekstowo myśleć, pamięta, co wcześniej skomponowała i w odniesieniu do tego, co wcześniej wytworzyła, jest w stanie dalej kompletować.
REDAKTOR J. KUŹNIAR: Czyli mamy kontekst Sinatry i w ten kontekst jest łatwiej sztucznej inteligencji coś wpisać. Szanowni widzowie, to umówmy się, że teraz mamy oficjalną premierę Franka Sinatry na święta, które w swoim świątecznym klimacie - słychać to będzie w dzwoneczkach, w starociach, bo ta muzyka jest pięknie powtarzana także - zaśpiewa tekst, który opowiada podobno o Voice House. Wsłuchajcie się dobrze, a my za chwilę do was wracamy.
[PIOSENKA]
REDAKTOR J. KUŹNIAR: Wypisz wymaluj Frank Sinatra.
P. PSYLLOS: No, “My Way”, “New York, New York”…
REDAKTOR J. KUŹNIAR: “Voice House”...
P. PSYLLOS: No tak, tylko tam słyszę też Elvisa wpływy, tak trochę.
REDAKTOR J. KUŹNIAR: No tak. Ale właśnie: może być tak, że maszyna, niby nauczana Sinatry, gdzieś liznęła jakichś innych nut, które z automatu, tej matematyki, jej wpadają też na kodowanie?
P. PSYLLOS: Tak. Tak, to znaczy: jeżeli mówimy o tej bibliotece, którą tutaj wykorzystałem do komponowania tej przesłanki, która się nazywa Jukebox, no to nastąpił ogromny przełom. Bo ta biblioteka została nauczona na superkomputerze – i to kosztowało ileśset tysięcy dolarów – nauczona ponad miliona różnych piosenek wyprodukowanych przez ludzkość w przeszłości. I teraz słuchając tych piosenek – które jeszcze przy okazji miały towarzyszący im tekst i np. informacje o gatunku muzycznym albo o artyście – nauczyła się wiązać te rzeczy. Czyli sobie skojarzyła, że Sinatra zazwyczaj w takim stylu śpiewa, takie melodie temu, co śpiewa towarzyszą, taki np. tekst albo sposób intonacji, taki np. gatunek muzyczny jest mu właściwy i się nauczyła wiązać te wszystkie rzeczy i wykształcił się taki właśnie mózg elektronowy – cytując Lema można by powiedzieć – który możemy później wykorzystywać, żeby własne piosenki tworzyć. Jak to robimy? Jak już mamy ten algorytm nauczony, to warunkujemy ten sztuczny mózg – mówiąc w uproszczeniu – czyli zadajemy na jego wejściu tekst przez nas napisany albo przez sztuczną inteligencję, np. o Voice House. Zadajemy gatunek muzyczny, zadajemy np. artystę, wstawiamy tam na wejściu, jaki ma być artysta. Ponieważ sztuczna inteligencja wykształciła wewnątrz, w swojej strukturze, pewną reprezentację: czym jest głos Sinatry? Jaka jest idea tego? To jest w stanie od zera, całkowicie od zera – i to się różni od tych metod, które wcześniej były, bo wcześniej to się składało z takich cegiełek dźwiękowych, a tutaj mamy od zera – potrafi wygenerować dźwięk. Czyli te wszystkie brawa, te wszystkie instrumenty, które słyszymy, te chóry, które towarzyszą Frankowi, są wygenerowane przez sztuczną inteligencję.
REDAKTOR J. KUŹNIAR: Czy to jest w takim razie głos Franka Sinatry czy nie?
P. PSYLLOS: To jest bardzo głębokie pytanie. Bo czym jest głos Sinatry? Jeżeli mielibyśmy w ogóle zdefiniować…
REDAKTOR J. KUŹNIAR: Zarejestrowany kiedyś do mikrofonu głos Sinatry. Rozumiem, że sztuczna inteligencja się go osłuchała i wyprodukowała coś takiego?
P. PSYLLOS: Coś nowego, co nie jest głosem Sinatry, bo to jest… Jeżeli się bardzo, bardzo precyzyjnie wsłuchamy w to, co sztuczna inteligencja stworzyła, to jest trochę mieszanka Elvisa Presleya, Sinatry i kilku innych artystów, Beatlesów melodia też się tam pojawia, albo głosy artystów. Ale powiedzmy: ten wiodący głos to jest głos Sinatry tylko. To jest twór sztucznej inteligencji. Sinatra nigdy tego nie zaśpiewał. Sinatra nigdy tak nie śpiewał, nie śpiewał tego tekstu. Bo tu jeszcze bardzo ważna rzecz, nie wspomnieliśmy o tym: sztuczna inteligencja nie cytuje tego, co już zostało kiedyś skomponowane, tylko uczy się samej idei, czym się charakteryzuje idealny przebój, idealna piosenka. Później, gdy ma ten przepis na idealny przebój, idealną piosenkę, to jest w stanie coś całkowicie nowego skomponować, posługując się tymi głosami. I teraz: to jest taka zagwozdka prawna, czy…
REDAKTOR J. KUŹNIAR: Właśnie, czy ty jesteś autorem tego utworu, skoro ty nacisnąłeś guzik „zaśpiewaj mi to”, czy ona jako sztuczna inteligencja ma prawa własności? Jak to jest?
P. PSYLLOS: No tak… Pytałem wielu prawników. I okazuje się, że w polskim prawie nie ma definicji precyzyjnej – tak odpowiedzieli. Tutaj jest wiele wątpliwości. Z jednej strony, mamy do czynienia z jakimś tam głosem Sinatry i tutaj spadkobiercy autorskich praw majątkowych mogą się później odezwać i mogą być różne spory. Ale z drugiej strony, jeżeli mielibyśmy określić szczegółowo w jakich momentach ten głos jest faktycznie głosem Sinatry i gdzie tutaj to jest inspiracja, o której mówimy? Albo gdzie tutaj jest jakiś fragment zastrzeżony tymi prawami autorskimi? Tutaj by były kłopoty, bo to jest wszystko płynne. A ta płynność jest – jeżeli taki spór by nawet nastąpił – czymś, co może nam pomóc wygrać taki spór. Nie ma definicji precyzyjnej, prawda? Ja sam… Bo zastanawiałem się bardzo długo na ten temat i mam trudność z odpowiedzią na to pytanie: kto jest autorem? Bo ja nie jestem przecież autorem tego. Ja odpaliłem sztuczną inteligencję, warunkowałem ją albo jeżeli mówimy o tych piosenkach, które później puścimy…
REDAKTOR J. KUŹNIAR: Ale warunkowałeś, czyli ty jej narzuciłeś pewne ramy?
P. PSYLLOS: Pewne ramy, tak. A ta sztuczna inteligencja, ponieważ ma wiedzę pewną muzyczną, pewien taki kapitał muzyczny, który każdy kompozytor też posiada, bo zanim ktoś skomponuje jakąś symfonię, to musiał słuchać wcześniej jakichś utworów. Jeżeliby był zamknięty przez całe życie w wyciszonym pokoju, to by nie potrafił komponować utworów muzycznych. Tak samo sztuczna inteligencja- musi coś wcześniej przesłuchać, żeby się nauczyć idei melodii i później jest w stanie coś komponować, inspirować się jakimiś utworami. Ale ludzie też to robią, powstają remiksy.
REDAKTOR J. KUŹNIAR: Czyli nie ma właściciela?
P. PSYLLOS: No ja nie jestem, mi słoń kiedyś na ucho nadepnął… Naprawdę, ja nie jestem autorem. Sztuczna inteligencja też nie ma podmiotowości żadnej, nie ma intencjonalności w działaniu na razie. Chyba, że będzie kiedyś tzw. silna sztuczna inteligencja, którą Ray Kurzweil przewiduje w 2045 roku i będzie miała świadomość, wtedy będzie mogła się kłócić z nami: „Przecież ja to stworzyłam!”.
REDAKTOR J. KUŹNIAR: „Ja! Ja to napisałam!”. Przeczytam naszym słuchaczom dwa akapity z naszej korespondencji z Piotrem, a Piotr z kolei był po rozmowie ze swoimi prawnikami. Jeden z nich pisze tak czy odpowiada Piotrowi na zadane pytanie: „Nie ma żadnych publikacji czy orzeczeń, które bezpośrednio dotykałyby problemu sztuki tworzonej przez AI. Taka niepewność i brak uregulowania czegoś w prawie rodzi naturalne ryzyka. Próba dopasowania aktualnych przepisów do problemów nowych technologii również obarczona jest ryzykiem. Należy dodać, że ewentualne spory sądy zawsze rozpatrują na podstawie konkretnych sytuacji, czyli stanów faktycznych i to od ich interpretacji zależy ostateczne rozstrzygnięcie”. Czyli rozumiem, że tak samo będzie z Ellą Fitzgerald, którą nakarmiłeś maszynę jej dźwiękami i wyszło to, co chwilę nasi słuchacze usłyszą?
P. PSYLLOS: Tak. W ogóle z tymi wszystkimi piosenkami, które mają głos – to jest największy problem – i artystów, w przypadku których prawa autorskie nie wygasły. Po 70 latach od śmierci to wygasa, należy wtedy do domeny publicznej. I dlatego, jak te sztuki skomponowałem przy pomocy tych swoich sieci, to mogłem korzystać z dzieł Szekspira albo innych twórców, bo tutaj to nie jest objęte prawami autorskimi. W przypadku tych piosenek jazzowych, też takie utwory Midi będziemy puszczać, czyli bez głosu, gdzie sztuczna inteligencja samą linię melodyczną tworzy i gra przy pomocy np. pianina. Tam nie ma większego ryzyka, ponieważ tam nie ma głosu i te inspiracje, ta baza utworów, które służyły do uczenia sztucznej inteligencji, to też z odległych czasów pochodzi i tutaj praw autorskich nie ma. W przypadku Elli Fitzgerald albo Franka Sinatry jest większy problem. Tak naprawdę nie wiem, czy jest obecnie osoba, która mogłaby odpowiedzieć na pytania: komu przynależą te prawa autorskie i kto jest odpowiedzialny za to, co sztuczna inteligencja zrobiła? Niektórzy mówią, że to trochę przypomina sytuację tej małpy, kiedy były rozprawy sądowe bardzo intensywne… Kiedyś małpa w dżungli amazońskiej zrobiła zdjęcia aparatem, który został przez pewnego gościa – chyba był artystą – zostawiony. Zrobiła zdjęcie i to zdjęcie zaczęło się jakąś fenomenalną popularnością cieszyć. No i ten gość chciały, żeby prawa autorskie do tego zdjęcia mu przynależały. Mnóstwo rozpraw sądowych się odbyło. Okazało się na koniec, że sąd stwierdził, że to do domeny publicznej należy, ponieważ tego zdjęcia nie wykonała żadna istota rozumna. Sztuczna inteligencja nie jest istotą rozumną…
REDAKTOR J. KUŹNIAR: Ale po trosze twój rozum ma, mój rozum ma, prawda?
P. PSYLLOS: Po trosze tak, ale też do domeny publicznej, raczej chyba… Nie wiem, czy to możliwe.
REDAKTOR J. KUŹNIAR: Ciekawy spór. Ja myślę, że będzie okazja z Piotrem spotkać się nie raz w podcastowej wersji, żeby o także tych aspektach, problemach czy wyzwaniach ze sztuczną inteligencją rozmawiać. Natomiast wspomnieliśmy Ellę Fitzgerald, wcześniej słyszeliście już Franka Sinatrę doprawionego jeszcze Elvisem, no to czas na Ellę Fitzgerald, która śpiewa ten sam utwór poświęcony legendarnemu studiu Voice House.
[PIOSENKA]
REDAKTOR J. KUŹNIAR: Czy w przypadku Elli Fitzgerald, też poza nią samą ktoś jeszcze był?
P. PSYLLOS: Szumy były, które trochę przypominają stare płyty winylowe. Ukochana Ella, królowa jazzu plus jakiś tam chórek, który dośpiewywał i mnóstwo szumów różnych, które wynikają z niedoskonałości sztucznej inteligencji, które same w sobie też pewnie jakąś wartość artystyczną posiadają, wg mnie. To jest aglomerat wszystkiego w sumie. Przyznasz, że to fajne jest?
REDAKTOR J. KUŹNIAR: Brzmi doskonale. Tekst im się podoba też idealne.
P. PSYLLOS: Tekst to akurat nie sztucznej inteligencji, to moja inteligencja akurat to tworzyła. Nie jestem idealnym tekściarzem, jeszcze dużo do poprawienia tutaj jest, ale też możemy tutaj zaprząc… Tylko jest pewne ryzyko, bo nie wiemy, co ta sztuczna inteligencja na wyjściu wyprodukuje. Kiedyś miałem takie próby właśnie ze sztuczną inteligencją, która teksty różne pisała. Takie głupoty na wyjściu potrafiła wyprodukować, z wulgaryzmami włącznie… Po 22:00 będziemy mogli to cytować, ale to nie jest do zacytowania.
REDAKTOR J. KUŹNIAR: To prawda. Natomiast Piotr wspominał o tym, że będzie okazja posłuchać także dźwięków systemu Midi i w momencie, w którym nasza audycja się skończy i będziecie, szanowni słuchacze, mieli okazję posłuchać tego, co sztuczna inteligencja napisała w kontekście śmierci, w kontekście szczęścia i w kontekście miłości. Tam, te dźwięki Mili umieścimy. Przechodząc teraz właśnie do tekstów: czym nakarmiłeś sztuczną inteligencję, żeby napisała nam to, co napisała?
P. PSYLLOS: Tych utworów było bardzo dużo. Największym problemem, który miałem na samym początku, gdy ten system zacząłem tworzyć – a to było 2 lata temu przy okazji tworzenia pracy inżynierskiej, bo to był element pracy inżynierskiej – to było znalezienie danych, którymi będę mógł nakarmić sztuczną inteligencję. Zacząłem właśnie od Szekspira, bo to jest taki dataset, czyli baza danych, która jest najczęściej wykorzystywana i najbardziej popularna. I tutaj nie ma zbytniego problemu z prawami autorskimi. Także odgrzebałem różne teksty Szekspira i starałem się – bo chciałem monologi wygenerować – starałem się znaleźć przede wszystkim te monologi, które on wcześniej skomponował i powyciągać ze sztuk teatralnych takie fragmenty, które są w miarę spójne i które nie są częścią jakiegoś dzieła, gdzie jest dyskusja pomiędzy bohaterami. Np. w „Romeo i Juli” to dużo mamy takich kwestii, które polegają na tym, że jakiś bohater odpowiada innemu i to trudno akurat tego zbioru włączyć. Dlatego musiałem takie – to maszynowo zrobiłem – fragmenty powybierać, które tutaj będą najbardziej się nadawały. Ale później się okazało, że ta baza danych z tekstami Szekspira, nie jest wystarczająca. Także tam jeszcze dorzuciłem Nietzschego.
REDAKTOR J. KUŹNIAR: Mamy 70 proc. Szekspira, 15 proc. Nietzschego i 15 proc. Edgara Allana Poe. I to już jest kompletne według AI?
P. PSYLLOS: Nie, ja bym mógł jeszcze więcej. Tylko okazało się, że przy większej liczbie twórców z różnych gatunków to, co na wyjściu powstaje, to jest niezbyt spójne i to jest takie pomieszanie różnych gatunków. Najlepszą efektywność przy tym otrzymałem…
REDAKTOR J. KUŹNIAR: A jak to mierzysz?
P. PSYLLOS: To akurat jest subiektywne bardzo.
REDAKTOR J. KUŹNIAR: „Co ona mi tu napisała? Nie, to bez sensu. Dorzucę jej jeszcze Nietzschego... Już ma większy sens. Trochę więcej filozoficzne”.
P. PSYLLOS: Tak, to na tym bardzo często polega trenowanie tych modeli różnych sztucznej inteligencji. Akurat w tym projekcie wykorzystuję kilka modeli sztucznej inteligencji, które można by powiedzieć rywalizują trochę między sobą w komponowaniu tych sztuk. Bo każdy z modeli… I tutaj wykorzystuję różne np. kodery, transformatory tzw., czyli takie architektury, które wykorzystują sztuczne sieci neuronowe i do nich zalicza się słynny już algorytm GPT-2, już teraz zresztą wyszedł GPT-3, który właśnie jest takim koderem. I te kodery w moim projekcie, w moim programie, który napisałem, starają się partiami generować ten tekst. Maksymalnie ile mogą i maksymalnie spójnego to, co mogą wygenerować, to generują. Później, pod koniec każdego takiego fragmentu przesyłają swoje rozwiązania do takiej sieci neuronowej, którą stworzyłem, która jest takim sędzią, dyskryminatorem, który bierze na tapet to, co tamte sieci wygenerowały. I później analizuje, czy to przypomina ludzki utwór, czy jest jakoś tam spójne z tym, co było wcześniej wygenerowane i później wybiera – tak jak taki ludzki sędzia – te fragmenty, które dołączymy później do sztuki wyjściowej. Później znowu, od nowa to się zaczyna, czyli powstaje fragment na ileś tam linijek, kilkanaście, kilkadziesiąt i później to jest przetwarzane przy pomocy innej sieci z każdej, tej wcześniejszej sieci. I koniec końców, na wyjściu też takie sito mamy, wybieramy taki fragment, który najbardziej będzie pasował do tego, co już wcześniej tamte modele uczenia maszynowego, te kodery wytworzyły.
REDAKTOR J. KUŹNIAR: Czyli na końcu i tak decyduje człowiek?
P. PSYLLOS: No, a w ogóle na końcu, jak już wygeneruje to wszystko…
REDAKTOR J. KUŹNIAR: „Ale to jeszcze nie koniec, Jarek”.
P. PSYLLOS: No właśnie, to wszystko zależy. Bo tutaj mamy kilka etapów, czyli: etap fragmentu… Nie, jeszcze wcześniej jest etap słów, bo każda z tych sieci – a tam jest przynajmniej 5, bo różne konfiguracje testowałem – stara się te fragmenty w taki sposób tworzyć, że przewiduje kolejne słowa do tych, które już zostały wcześniej dodane. Czyli zaczynamy od słowa „miłość” np. „Miłość jest gruncie tak srogą tyranką”. Teraz zadaniem takiego modelu, jest dodawaniem kolejnych słów, które będą naturalną kontynuacją tego, prawda? Każdy z tych modeli, np. GPT-2, dodają kolejne słowa, starają się coś tam skomponować, pełnią rolę takiego kompozytora. I już gdy wygenerują jakiś fragment, który – tu już eksperymenty przeprowadziłem, ile mogę maksymalnie wygenerować, żeby to w miarę spójne i sensowne było – gdy już wygenerują taki fragment, trafia on do takiego właśnie dyskryminatora, który porównuje to z tym, co było wcześniej skomponowane. Dzięki temu lepszy efekt dostałem, niżelibym korzystał z jednego tego GPT-2, bo to się rozlatuje, po iluś tam wersach to w ogóle nie ma sensu. I na koniec mamy sztukę, która jest złożona z takich fragmentów i tych sztuk mogę 50 np. zrobić. To będzie, co prawda, trwało długo, nawet parę tygodni na superkomputerze, bo na uczelni mamy taki klaster obliczeniowy, z tego korzystałem. Po tych paru tygodniach mam 50 sztuk, no i np. wybieram taką, gdzie nie ma wulgaryzmów.
REDAKTOR J. KUŹNIAR: OK. Natomiast drobna uwaga do tego, co za chwilę nasi słuchacze będą mogli usłyszeć: nasi lektorzy, jeszcze nie chcę ich ujawniać teraz, ale powiedzieli: „Nie zawsze tam jest logicznie”. Ja mówię: „Ale nie poprawiajmy sztucznej inteligencji. Nawet jeżeli jest nielogicznie, to ty, szanowny lektorze, głosie mój kochany jesteś tym, który musi to zinterpretować”. Więc nielogiczność też trzeba interpretować.
P. PSYLLOS: To jest bardzo fajny przykład na kooperację maszyny z człowiekiem. Myślę, że to jest przyszłością sztuki. Sztuka będzie coraz częściej powstawała z udziałem komputerów. Już teraz przecież artyści, którzy np. tworzą melodie, to korzystają też z metod sztucznej inteligencji, żeby przeanalizować, co się tam kiedyś sprawdzało, jakie piosenki stały się hitami i zrobić coś bardzo podobnego. Dlatego to, co teraz w radiu słyszymy, to jest bardzo podobne do siebie.
REDAKTOR J. KUŹNIAR: Bardzo podobne, tak.
P. PSYLLOS: Taka papka, prawda? Która się niczym właściwie nie różni.
REDAKTOR J. KUŹNIAR: Choć, a propos radia, drobna dygresja: pamiętam, kiedyś jeszcze, pracując w Radiu Zet, była taka maszyna, która potrafiła łączyć, żeby to melodyczne pasowało do siebie. Czyli nie człowiek wybierał, że jak się skończy King Crimson... A, w Radiu Zet King Crimson. Dobra, jak się skończy The Police np., to zagrajmy Stinga, bo to ładnie się będzie łączyło. Nie, to maszyna składała i wtedy to było megaosiągnięcie, że ona coś tam programuje. I nagle okazywało, że Shakira co dwie godziny wpada na nowo albo jeszcze inaczej jest karmiona. Mało tego, to było podpięte oczywiście do badań słuchaczy, czyli jak słuchacz dostawał ileś plików i słyszał coś i w 2 sekundy przewijał dalej, to znaczy: pewnie nie chce słuchać, więc tego typu piosenki nie miały szans się pojawić za często. Więc to - myślę - może był też jakiś początek rzeczywiście współpracy człowieka i maszyny.
P. PSYLLOS: Tak, tylko to nie było kreatywne za bardzo.
REDAKTOR J. KUŹNIAR: No nie, w ogóle.
P. PSYLLOS: Młody Beksiński, który np. ze swoich audycji pewną sztukę tworzył, bo pisał swój tekst…
REDAKTOR J. KUŹNIAR: Tam był rzeczywiście i głos, i muzyka cudowna.
P. PSYLLOS: Tak, tak. I układał odpowiednio melodie w nawiązaniu do tekstu, do tych felietonów muzycznych, które tworzył. Sztuczna inteligencja, nawet najlepsza, nie jest w stanie jeszcze tego robić. A nawet jeżeli będzie w przyszłości robiła, czy będziemy wybierali audycje ludzkie, np. takiego przyszłego Beksińskiego, czy audycje sztucznej inteligencji? Z kim będziemy się utożsamiali? To jest pytanie.
REDAKTOR J. KUŹNIAR: Choć teraz, jak cię słucham, kiedy opowiadasz o muzyce, jak powstawała i o tych tekstach, o tych monologach, które powstały także, to zaskoczył mnie ten moment, w który mówisz, że z jednej maszyny coś wyszło, ale czułeś, że to jeszcze nie jest doszlifowane, że tak naprawdę szlifowałeś tę sztuczną inteligencję czy efekt jej pracy.
P. PSYLLOS: Na metapoziomie, tym ostatnim. Bo np. miałem sztukę, która z wielu wulgaryzmów się składała. Nie wiem, skąd one się pojawiły. Być może stąd, że te modele językowe GPT-2, to też uczyły się na podstawie mnóstwa informacji z internetu, stąd te informacje pochodziły i się trenowały. Samo wytrenowanie takiego modelu kosztowało około 150 tys. zł, na superkomputerze to trwało. Ja później to warunkuję, czyli ograniczam percepcję tej sztucznej inteligencji, żeby się skupiła na Szekspirze tylko. Tylko ona oczywiście nie jest taka pokorna i nie słucha się mnie w każdym przypadku…
REDAKTOR J. KUŹNIAR: ... jeszcze.
P. PSYLLOS: Jeszcze, tak. To jest pierwszy przejaw buntu maszyn, „Terminator”, Skynet się rodzi. I np. wulgaryzmami rzuca. No i nie wiem, czy taką chciałbyś mieć audycję…
REDAKTOR J. KUŹNIAR: Myślę, że przyjdzie moment na to, żebyś ty w swojej części pokazał rzeczywiście, że ona potrafi robić też takie rzeczy. Ale nawet - zobacz - ten moment, w który mówisz: Ograniczałem ją jakoś. Ja rozumiem powód. Natomiast czy to oznacza, że ona właściwie ma nieskończone możliwości?
P. PSYLLOS: Są skończone, bo jesteśmy ograniczeni przez dane, które wrzucamy do niej. Jesteśmy ograniczeni przez sprzęt, moglibyśmy tak naprawdę trenować ją na zasobach całej Biblioteki Aleksandryjskiej, internetu, w ogóle wszystkiego. Tylko, żeby to wytrenować… Np. ostatnie GPT-3 model był trenowany na bazie wielu różnych informacji pochodzących z internetu i samo wytrenowanie tego modelu, kosztowało ponad 4 mln dolarów. Czyli na to mogą pozwolić sobie duże korporacje, duże koncerny i też są nadal ograniczone tym czasem, które mogą poświęcić na trenowanie tego, sprzętem i też metodami pozyskiwania tych danych. Także jesteśmy ograniczeni, ale też człowiek jest ograniczony. Każdy artysta chciałby więcej wiedzieć, chciałby mieć więcej w głowie takich wzorców. Bo zauważ, że wszystko, co robimy – mówię tutaj o uczeniu się, o pracy naszego mózgu – to służy do tego, żeby tworzyć pewne algorytmy w mózgu, pewne wzorce rozwiązań. Te algorytmy później w naszym mózgu się wykształcają, bo przeczytaliśmy wiele różnych książek, posłuchaliśmy wiele różnych piosenek i później te algorytmy wykorzystujemy do tego, żeby tworzyć np. sztukę, jakieś tam dzieła. Czyli działamy trochę… Znaczy sztuczna inteligencja działa trochę tak, jak człowiek działa.
REDAKTOR J. KUŹNIAR: Czyli jestem umownie - przepraszam, pani Olgo, za ten przykład - jestem Olgą Tokarczuk, która idzie przez świat, czyta, czyta, czyta, więc naturalnie to się gdzieś odkłada, odkłada, odkłada, dlatego potem, kiedy ona siada do własnego pisania, siłą rzeczy jej mózg podrzuca pewne sformułowania, skojarzenia, emocje?
P. PSYLLOS: Tak, tak. I często ze swojej praktyki np. dziennikarskiej, radiowej, to możesz zauważyć, że z latami pracy w tym zawodzie, to słowa same pojawiają się, prawda? Nie trzeba się zastanawiać, bo już pewne wzorce takich rozwiązań w mózgu się wykształciły, pewne ścieżki neuronalne. No i wtedy np. możesz improwizować. Często mówi się w dziedzinach artystycznych, że żeby być dobrym artystą i dobrze improwizować, to wcześniej trzeba przesłuchać mnóstwo różnych piosenek, napisać wiele różnych tekstów, żeby te właśnie algorytmy w mózgu wykształcić. Gdy mamy te algorytmy, to możemy wtedy np. grać muzykę jazzową z zachowaniem wszystkich tych reguł. Laik tego nie zrobi, który nigdy jazzu się nie uczył, który zna tylko teoria z książki, prawda? Bo też te algorytmy się kształtują w czasie praktycznych ćwiczeń. Czyli jesteśmy taką siecią neuronalną trochę, nasz mózg pewne takie algorytmy tworzy. Tę sztukę też odbiera, tylko nie zapominajmy, że mózg nie służy do myślenia, tylko mózg służy do przeżycia. I widocznie sztuka coś takiego robi z naszym mózgiem, że ten mózg jakoś np. stymuluje do tego, żeby lepiej pracował i… Ponieważ myślenie pomaga w przeżyciu szalenie, jak się okazuje czasami, to może pomagać. Bo to są bardzo ciekawe pytania: skąd się w ogóle wzięła nasza percepcja sztuki? Dlaczego nam się sztuka podoba? Co sprawia, że ta sztuka nam się podoba? Bo zwierzętom… Mojemu kotowi…
REDAKTOR J. KUŹNIAR: Kotu?
P. PSYLLOS: O, właśnie.
REDAKTOR J. KUŹNIAR: I sztuczna inteligencja powiedziałaby na pewno poprawnie.
P. PSYLLOS: To jeszcze raz…
REDAKTOR J. KUŹNIAR: Nie wycinamy tego. Nie, niech będzie, że Psyllos nie zna się na gramatyce. Bez sztucznej inteligencji nie daje rady.
P. PSYLLOS: Dobrze. Sztuczna inteligencja jest lepsza niż naturalna głupota, jak to mówią.
REDAKTOR J. KUŹNIAR: Mojemu kotu?
P. PSYLLOS: Kotu, tak. Właśnie, kotu? Psu też…
REDAKTOR J. KUŹNIAR: Spodobałyby się inne obrazy niż tobie, tak?
P. PSYLLOS: Polska język trudna język. Jeszcze raz: przykładowo mój pies nie ma żadnych wrażeń estetycznych ze słuchania tych piosenek, które skomponowałem. To jest bardzo ważne pytanie: jak nasz mózg odbiera sztukę? Bo gdy to poznamy, to te algorytmy będą jeszcze lepsze. Jeżeli prześwietlimy nasz mózg i dowiemy się – to kognitywistyka tym się zajmuje też – dowiemy się, na czym polega ta percepcja sztuki, jakie kombinacje melodii, jakie kombinacje barw, które widzimy sprawiają, że nasz mózg coś lubi albo czegoś nie lubi. I to też rodzi kolejne zastosowania tych przyszłych metod. Wyobraźmy sobie, że będą takie interfejsy człowiek-maszyna, mózg-komputer i przy pomocy tych interfejsów artyści będą mogli połączyć się z komputerem i wtedy będą mogli bezpośrednio rejestrować treść swoich myśli. Czyli te melodie, które się rodzą w ich głowach, będą mogły być zapisywane przez komputer i później odtwarzane, nie będzie tego etapu pośredniego. Często niektórzy mają problem z przełożeniem tego, co słyszą w swoich myślach na papier, w cudzysłowie. A tutaj nie byłoby takiego problemu, bo mielibyśmy połączenie bezpośrednio z mózgiem i treść naszych myśli by była przekładana na melodię, na słowa, na obrazy. Ten Beksiński, stary tym razem, kiedyś też wspominał i w kontekście melodii w swoich listach o tym pisał. On uważał w ogóle, że jeżeli chodzi o sztukę, to muzyka jest prawdziwą sztuką, a nie malowanie.
REDAKTOR J. KUŹNIAR: O jeszcze jedną rzecz na koniec chciałem cię zapytać: wspomniałeś o tym, że gdybyśmy ewentualnie dołożyli maszynie jeszcze więcej rzeczy, to ona by dłużej tworzyła to, co tworzyła. Nasi słuchacze za moment... Bo zakładam, że najpierw słuchacie tego, co teraz mówimy, a potem przechodzicie do „Śmierci”, „Miłości” i „Szczęścia”, tych monodramów przygotowanych przez sztuczną inteligencję. Właśnie od czego zależy, jak szybko ona pracuje... Jak szybko ona tworzy, przepraszam cię sztuczna inteligencjo, że tylko powiedziałem o pracy, to jest przecież tworzenie. Jaki to jest czas? Czego potrzeba, żeby to przyspieszyć albo wydłużyć?
P. PSYLLOS: Od wielu czynników zależy to, w jakim czasie to dzieło powstanie. Od budowy np. sztucznej inteligencji, od architektury, ile warstw tej głębokiej sieci wykorzystamy, ile danych na wejście będziemy chcieli wrzucić, ile razy będziemy te dane chcieli pokazać w sztucznej inteligencji. Tutaj sztuczna inteligencja pełni rolę takiego dziecka trochę, takiej tabula rasa trochę. Niezapisanej karty, której pokazujemy właśnie np. melodie i ona uczy się tego. Im więcej razy pokazujemy to i bardziej różnorodny zbiór tych piosenek, to tym lepiej się nauczy. Informatycy powiedzieliby, że lepiej będzie aproksymowała funkcje, czyli nauczy się właśnie idei melodii, idei idealnego obrazu. Dlatego, to zależy od architektury, od danych, od tego, jak będziemy chcieli uczyć tę sztuczną inteligencję i od tego, na czym uczymy. Bo sztuczna inteligencja jest pewnym algorytmem, pewnym programem. Na razie, bo też już teraz widać inny kierunek, idziemy w stronę sprzętu, który będzie miał sztuczną inteligencję zaimplementowaną, czyli takich neuropodobnych architektur, ale o tym może zaraz. Na razie ta sztuczna inteligencja jest w formie programu. Ten program na czymś musimy uruchomić. Moglibyśmy to uruchomić na komputerze wodnym, to wtedy by lata świetlne trwało…
REDAKTOR J. KUŹNIAR: Ale to zależy właśnie od tego, że jak będziemy mieli, nie wiem, komputery kwantowe, to będzie sztuczna inteligencja jeszcze bardziej inteligentna? Te, które mamy dzisiaj więcej nie potrafią, niż ona już potrafi?
P. PSYLLOS: Znaczy to, co mamy dzisiaj, to jeszcze ostatnie soki możemy z tego wycisnąć, bo rozbudowujemy te komputery, informacje są w równoległy sposób przetwarzane, dokładamy karty graficzne, chmury obliczeniowe są potężne, dzisiaj możemy sobie z domu połączyć się z taką chmurą. Trochę zapłacimy, ale to, czym dysponujemy w ten właśnie sposób, łącząc się, jest czymś bardzo szybkim, jeżeli wybieramy taką opcję. I na tym szybkim czymś sztuczna inteligencja szybciej się nauczy czegoś, niż np. na moim komputerze domowym, który jest bardzo ograniczony. Możemy iść w bardziej rozbudowany sprzęt, szybszy sprzęt, ale też możemy trochę zmienić paradygmat i np. przejść na komputery kwantowe. Też już teraz okazuje, że bliżej jesteśmy tych komputerów, niż dalej. Na razie jeszcze z utrzymaniem stanów stabilnych jest problem, ale komputery kwantowe będą w przyszłości, będziemy mogli szybciej te obliczenia przeprowadzać. Ale też np. komputery neuromorficzne są przyszłością. Jeszcze o tym się nie mówi, ale będzie się mówiło. Zresztą ta słynna firma Gartner, która zajmuje się przewidywaniem trendów, też wskazuje te technologie neuromorficzne jako te, które zmienią w przyszłości nasz świat. To polega na bardzo prostej rzeczy, bo tworzymy coś na obraz i podobieństwo naszego mózgu, ale już nie w formie programu komputerowego, tylko w formie konkretnych chipów. Czyli takich właśnie neuromorficznych, czyli neuropodobnych – „morfos” – „podobne” z języka greckiego – architektur, które przypominają w pewnym sensie mózg, tylko są uproszczone oczywiście znacznie bardziej. I już teraz mamy takie technologie, które pozwalają nam osiągnąć złożoność niewyobrażalną wcześniej, 5 lat temu jeszcze albo 10 lat temu, przy pomocy takiej niewielkiej skrzyneczki, która pobiera mniej niż suszarka do włosów, a ma neuronów więcej niż małpa np. Już dzisiaj możemy to zrobić, tylko to jest jeszcze uproszczone, nieidealnej i bardziej w laboratoriach to się dzieje niż np. w domach prywatnych użytkowników, którzy chcieliby inteligencję na takich sprzętach uruchamiać. Ale to jest przyszłość, idziemy w tym kierunku. Już zresztą pierwsze takie czipy w naszych smartfonach się pojawiają, tylko są jeszcze na razie proste. W przyszłości to będzie bardziej zaawansowane i wtedy dopiero, możliwości sztucznej inteligencji przed nami się ukażą i to takiej sztucznej inteligencji, która będzie 10 razy, a nawet i 100 razy bardziej zaawansowana niż najlepsza sztuczna inteligencja, która obecnie jest. Tutaj mówię o perspektywie dziesięcioletniej. Co będzie za lat 30, 40? To nikt nie wie. Są futurolodzy tacy, jak Ray Kurtzweil, którzy mówią, że w 2045 roku nastanie osobliwość technologiczna, czyli tzw. silna sztuczna inteligencja, inna od tej, którą teraz mamy. My mamy teraz słabą, czyli taką, która się sprawdza, w jakiś takich wąskich zastosowaniach. Silna będzie odróżniała się od tamtej, bo ona będzie na poziomie ludzkim, a nawet w pewnym momencie przerośnie poziom ludzki. I to jest właśnie ten moment osobliwości, który być może w tym 2045 roku nastanie. I wtedy dopiero będzie się działo, jeżeli mówimy tutaj o sztuce i w ogóle twórczości człowieka.
REDAKTOR J. KUŹNIAR: Mamy 2020 rok, szczęśliwie go żegnamy, licząc oczywiście, że 2021 będzie lepszy. Więc to, co wspólnie z Piotrem Psyllosem przygotowaliśmy, to sztuka AI na święta od Voice House. „Szczęście”, „Śmierć” i „Miłość”. Wszystko, co dotyczy tego projektu, czyli napisanie tej sztuki to jest AI. Muzyki, którą słyszeliście w naszej rozmowie- to jest AI. Plakatów, grafik do tego wszystkiego - to jest AI. Ale stoi za tym człowiek Piotr Psyllos. Chciałbym, żebyśmy jednak zostawili sobie moment, w którym poznajecie Piotra i jego drogę do takiego, a nie innego zafascynowania sztuczną inteligencją, bo wierzę, że w nowym roku będziemy mieli szansę, żebyście mogli specjalnych audycji Piotra posłuchać. Teraz idźcie i słuchajcie o miłości, o szczęściu i o śmierć od sztucznej inteligencji. Dobrych świąt.
P. PSYLLOS: Niech moc sztucznej inteligencji będzie z wami.
Prowadzący
Jarosław Kuźniar – dziennikarz, host, szkoleniowiec public speaking. Uczy liderów storytellingu, budowania historii, dbania o narrację ludzi i marek.W jego 30-letnim doświadczeniu dużą rolę odegrała praca w mediach: prasa, radio, telewizja i digital, m.in. Trójka, Radio ZET, TVN24, TVN, Onet. Obecnie mentor Voice House Academy, CEO Kuźniar Media i redaktor naczelny Voice House. Autor „The Host”, podręcznika skutecznego mówienia do ludzi.