Signaali: Tekoälyavusteisen videon syntyprosessi

Vuosi 2023 on ollut ehdottomasti tekniikan alalla tekoälyn vuosi. Johtotähtenä on ollut ChatGPT ja sen kilpailijat. Minulla ei ole kummempaa tietokonetaustaa, joten tekoälysovellusten teknisten ratkaisujen ymmärtäminen jää pintapuoleiseksi. Tulokulmani tekoälyyn onkin arkikäyttäjän ja tietotyöläisen kulma: mitä tällä hypetetyllä tekoälyllä voi siis ihan oikeasti tehdä?

Olen muutaman vuoden aikana kysellyt Tekniikan museolla vierailevilta opettajilta, mitä he toivoisivat museolta. Lyhyehköt videot ovat aina toivelistalla ihan kärjessä. Päätin tarttua tuumasta toimeen ja tehdä videon, jolle voisi olla käyttöä useamman aineen oppitunneilla – jokaiselle jotain. Lopputulos on suunnattu ennen kaikkea lukio-opetuksen materiaaliksi. 

Annetaan ChatGPT:n kertoa itsestään: ”ChatGPT on OpenAI:n kehittämä tekoälymalli, joka perustuu GPT (Generative Pre-trained Transformer) -arkkitehtuuriin. Sen tarkoituksena on tuottaa ihmisen kaltaista tekstiä vastauksena erilaisiin kysymyksiin tai pyyntöihin. ChatGPT kykenee käsittelemään monenlaisia aiheita, kuten keskustelemaan yleistiedosta, tarjoamaan neuvontaa, kirjoittamaan luovia tekstejä ja paljon muuta. Se oppii valtavasta määrästä tekstiä, jonka avulla se pystyy tuottamaan yksityiskohtaisia ja kontekstiin sopivia vastauksia. Malli on suunniteltu parantamaan ihmisen ja koneen välistä vuorovaikutusta, tarjoten käyttäjilleen rikastuttavia ja informatiivisia keskustelukokemuksia.”

Ainakin ChatGPT lupailee paljon. Päätin laittaa tekoälyn tositestiin luomalla videon tekoälyavusteisesti. Tekniikan museon näyttelyssä minuun kolahtaa mahdollisuus kertoa tekniikan ja yhteiskunnan kehityksen tarinoita eri näkökulmista. Teknistä kehitystä voidaan tarkastella talouden, innovaatioiden, koulutuksen tai vaikka tuotannon näkökulmasta. Halusin laajan ja teknisen käsitteen. Signaalin kulku on musiikkiteknologiassa aivan keskeistä ja ajatus nousikin mielen päälle väännellessäni vapaapäivänä syntetisaattorin potentiometrejä. 

Ryhdyin tenttaamaan ChatGPT4-ohjelmaa signaalista, signaalin välityksen ja prosessoinnin historiasta, Eric Tigerstedtistä, morsetuksesta ja sen sellaisesta. Asiavirheet menevät siis kätevästi automaattisen tietojenkäsittelyn (ATK) piikkiin.

Muutama huomio käytökokemuksesta: ChatGPT ymmärtää suomea. Jopa reippaasti näppäilyvirheitä sisältävät kysymykset tuottavat ihan tolkullisia suomenkielisiä vastauksia. Pidän tätä merkittävänä kehitysaskeleena ihmisen ja tietokoneen vuorovaikutukselle. Ennen piti opetella HTML-kielen alkeet, jos aikoi tehdä kotisivut. Tiedonhaun kursseilla opeteltiin loogisten operaattoreiden käyttöä tiedonhaussa. Useissa ohjelmissa ne olivat englanniksi tai niitä korvattiin symboleilla: plussilla, miinuksilla ja hipsuilla. ChatGPT ymmärtää luonnollista kieltä luonnollisine operaattoreineen. Lisäksi se osaa esimerkiksi kirjoittaa HTML-kieltä pyynnöstä. Kielen ja sen ymmärtämisen kysymykset ovat keskeisiä puheenaiheita kasvatuksen ja koulutuksen saralla. Toivottavasti kehittyvä tekniikka tarjoaa tulevaisuudessa lisää apuneuvoja kaikenlaisten kommunikaatiohaasteiden ylittämiseen. 

Lopullinen käsikirjoitus syntyi luovana prosessina, jossa pallottelin tekstiä minun ja ChatGPT:n välillä. Mukaan päätyi jonkin verran ChatGPT:n ehdottamia osuuksia ja jonkin verran asioita, jotka nousivat museon näyttelyistä. Lisäksi halusin kytkeä videon jollakin tavalla ajankohtaisiin keskusteluihin.

ChatGPT suosii jostain syystä listoja kaikissa vastauksissa. Niistä ei oikein syntynyt mielenkiintoista tekstiä, joten draaman kaaren rakentaminen ja tekstin tasojen lisääminen jäivät tällä erää ihmistyöksi. Pallottelukaverina ja syötteenä ChatGPT oli oivallinen.  

Keskustelujen varrella tekoäly hallusinoi välillä omiaan, mutta enimmäkseen se pysyi asiassa. Eli aivan kuin olisi oikean ihmisen kanssa työskennellyt. Kohtuullisen suuri ero oli ChatGPT:n versioiden 3 ja 4 välillä. Uudempi oli kaikin tavoin parempi. Suuri ihanuus ChatGPT:n käyttöliittymässä on mainosten puute. Googlaamisen hinta maksetaan katsomalla kohdennettuja mainoksia. 

Luovassa prosessissa ChatGPT oli oikein kannustava. Luetutin sille tekstin raakileita ja pyysin kommentteja. Tsemppaus oli taattua. Mielenkiinnolla odotan, milloin ChatGPT ryhtyy toimimaan tässä suhteessa proaktiivisesti.

Kun käsikirjoitus oli valmis luin ja nauhoitin tekstin. Olohuone toimi studiona ja mikrofonina käytin kannettavan omaa mikrofonia. Ääni oli tuossa vaiheessa mielestäni ihan ok. Tein Logic Pro X -ohjelmalla kevyttä äänen prosessointia: vähensin hälyä, laitoin kompressointia, eq ja vähän reverbiä. Toisin sanoen: katsoin muutaman tutoriaalin Youtubesta ja sovelsin. Logic Pro:n presetit toimivat hyvin. Sitten leikkelin ääntä. Taukoja lyhyemmiksi ja rykimiset pois. ChatGPT:n vinkit äänenkäsittelyn suhteen jäivät sen verran abstrakteiksi, että Youtube vei tässä voiton.

Viimeinen askel tekoälyn kanssa oli kuvitus. ChatGPT:n kuvat piirtää DALL-E, ja mielestäni ne toimivat mukavasti tekstin tukena. Ainakin kuvissa on paljon ruokaa mielikuvitukselle ja tilaa vapaalle assosioinnille.  Otin käsikirjoituksesta kappaleen tai kaksi, liitin sen komentoriville ja komensin rengin töihin mahtisanoilla: ”Tee kuva tästä tekstistä:”  Päätin, että annan ChatGPT:lle valtaa ja vastuuta kuvituksen suhteen. Suurin osa kuvista oli sellaisenaan oikein toimivia, muutaman pyysin tekemään uudelleen: joku raja dalimaisuudellekin on asetettava, vaikka sitten ihmisen toimesta. Joissain vaiheessa tajusin, että isompia kuvia saa pyytämällä.  Mahtikomento päivittyi tuossa kohdassa muotoon: ”Tee iso vaakatasossa oleva kuva tästä aiheesta:”

Esimerkiksi edellisen kappaleen syöttäminen komentoriville toi seuraavan vastauksen: 

Tässä on luotu laaja kuva, joka kuvastaa tekoälyn ja DALL-E:n integroimista luovassa prosessissa. Kuvassa näkyy kirjoittaja työpöytänsä ääressä syöttämässä tekstiä tietokoneen komentoriville, ja hänen yläpuolellaan on suuri näyttö, joka esittää DALL-E:n luomaa kuvitteellista ja abstraktia visualisointia. Huone on täynnä erilaisia tekoälyn luomia kuvia, jotka ilmentävät tekoälyn monipuolisuutta visuaalisten sisältöjen tuottamisessa. Kohtaus vangitsee tekoälyn taian ja potentiaalin luovissa prosesseissa, vihjaillen futuristisesta teknologiasta ja ihmisen sekä tekoälyn yhteistyön voimasta. (ChatGPT4)

Halusin laittaa videoon myös valokuvia museon kokoelmista. Käytetty menetelmä oli saman tyyppinen: valitsin käsikirjoituksesta hakusanoja, ja tein hakuja museon kuvakokoelmista. Kuvien sisältöjä saa arvailla ja kysyä.

Videon koostamisessa ChatGPT oli hyödytön, eikä minulla ollut hommasta juurikaan kokemusta. Ihmiskunta on kuitenkin tuottanut videoita viimeistään Lumieren veljesten elokuvan ensi-esityksestä lähtien (1895), eli kuinka vaikeaa se voi olla? Siis kuvia peräkkäin ja noloimmat siirtymät käyttöön. Amerikkalaisen dokumentaristi Ken Burns kehitti panorointi ja zoomaustekniikan elävöittämään still-kuvia. Hyödynsin iMovie-ohjeman tarjoamaa Ken Burns efektiä täysin sumeilematta. Muutama panorointi jäi aika lennokkaaksi, mutta minkäs enää tässä vaiheessa teet? Kun tekee itse, säästää ja saa juuri sellaisen kun sattuu tulemaan. Nopeasti valmis on parempi kuin ikuisesti keskeneräinen ja niin edelleen.

Sekä ChatGPT että DALL-E on opetettu aineistoilla, jonka oikeat ihmiset ovat luoneet. Kysymykset tekijänoikeuksista tuntuvat nousevan helpommin esiin puhuttaessa kuvasta ja äänestä. Työtä, luovuutta ja tekijyyttä on yhtälailla käytetty myös tekoälyjen takana olevien opetusaineistojen luonnissa alkuperäisen materiaalin tuottajien jäädessä vaille kiitosta. Sama kuvio on taustalla esimerkiksi kielenkäännösohjelmissa, joita on käytetty hyvällä omalla tunnolla viimeiset viisitoista vuotta.

1970-luvun lopulla artistit alkoivat leikkaamaan ja liimaamaan eri äänitteistä ja visuaalisista lähteistä palasia yhteen. Funkin ja soulin rytmeille löydettiin uusia käyttötapoja kehittyvässä hip-hop kulttuurissa. Vinyylilevyille tallennetuista äänisignaaleista otettiin näytteitä (sample), jotka saivat uuden elämän uusissa musiikkikappaleissa. Lainaaminen on tässä yhteydessä arvostamista. Leikkaa-sekoita-liimaa on todennäköisesti yleisin tapa tehdä tietotyötä: alakoulun esitelmistä väitöskirjoihin. Tällaiseen työskentelyyn ChatGPT:n kaltaiset sovellukset tuovat selkeästi lisää tehoa. Kysyttäessä ChatGPT tuotti lähdeviitteitä. Tosin konepellin alla ohjelma etsi tuotettuun tekstiin sopivia viitteitä, eikä aidosti pohjannut vastauksia käytettyihin lähteisiin. Onko tämä sitten ero vai yhtäläisyys tekoälyn ja ihmisen välillä?

Käytännössä suuriin kielimalleihin perustuvat tekoälysovellukset ovat olleet kaiken kansan ulottuvilla vasta tämän vuoden ajan ja uusia soveltamisaloja putkahtelee tämän tästä. Lupauksia jostain vielä suuremmasta leijuu eetterissä. Aika näyttää, minne mennään ja millä vauhdilla. 

Lopuksi: Chat GPT:n komentorivin alla on pienellä printillä tärkeä huomautus: ChatGPT can make mistakes. Consider checking important information. — Kelvollinen neuvo totuuden jälkeisessä ajassa.


Käytitkö materiaalia ryhmän kanssa? Millaisia kysymyksiä nousi esiin keskusteluissa? Onko apukysymyksille tarvetta? Mistä teknologiaan liittyvästä teemasta haluaisit videon?

Tommi Rikkinen

Museolehtori

tommi.rikkinen@tekniikanmuseo.fi