Miksi tekoäly "ei osaa" pesistä?

15.3.2026 12:00 Pesis

Pieni suomalainen laji kohtaa globaalin tekoälyn

Pesäpallo on hyvin suomalainen laji. Baseball taas on maailmanlaajuinen urheilulaji, josta löytyy valtava määrä dataa, analyysejä ja keskustelua internetissä.

Kun tekoäly yrittää vastata pesäpalloa koskevaan kysymykseen, se joutuu usein tilanteeseen, jossa oikeaa tietoa on vähän, mutta samankaltaista ja pesäpallon kannalta väärää tietoa paljon. Siksi vastaukset alkavat helposti muistuttaa baseballia, vaikka kysymys koskisi pesäpalloa.

Pyysin ChatGPT:n tekemään kuvan suomalaisesta pesäpallokentästä, pallosta ja mailasta.

pesis0

ChatGPT ei siihen ainakaan vielä pysty, ja syykin on aika ymmärrettävä. "Ongelma ei ole siinä, etten ymmärtäisi, mitä tarkoitit, vaan siinä, että kuvan generointi karkaa kohti lajia, josta mallilla on paljon enemmän visuaalista aineistoa. Juuri tästä me olemme puhuneetkin aiemmin. Harvinaisempi suomalainen erityisjuttu häviää helposti yleisemmän kansainvälisen vastineen alle."

Juuri siksi pesäpallon kohdalla käyttäjän oma lajituntemus korostuu tavallista enemmän.

Miksi tekoälyllä on rajallinen tieto pesäpallosta?

Tähän on muutama hyvin konkreettinen syy. Kyse ei ole siitä, että tekoäly "sekoittaisi lajeja", vaan siitä, millaista dataa tekoälylle on ollut saatavilla.

1. Data määrää mitä tekoäly osaa

Tekoäly ei oikeasti "tunne" urheilulajeja. Se oppii tekstidatan perusteella.

Jos verrataan pesäpalloa ja baseballia, näiden ympärillä oleva datamäärä on täysin eri mittaluokkaa.

Baseballista on valtava määrä dataa.

- miljoonia artikkeleita
- satoja tilastosivustoja
- kymmeniä tuhansia analyysejä
- fanifoorumeita
- tutkimuksia
- podcasteja
- blogeja
- open data -tilastoja

Baseball on myös erittäin tilastokeskeinen laji, joten dataa on paljon myös strukturoituna.

Pesäpallolla on pieni digitaalinen jalanjälki.

- vähän kansainvälistä materiaalia
- lähes kaikki sisältö suomeksi
- vähemmän analyysejä
- vähemmän tilastodataa verkossa
- vähemmän keskustelua globaalisti

Lisäksi pesäpallo on lähes täysin Suomeen keskittynyt laji.

2. Kieliongelma

Pesäpalloa koskeva materiaali on lähes täysin suomeksi, kun taas tekoälyn koulutusdata on suurelta osin englanninkielistä ja kansainvälisistä lähteistä peräisin.

Vaikka suomenkielistä dataa on mukana, sitä on moninkertaisesti vähemmän.

3. "Baseball bias"

Koska baseball on valtava laji, tekoäly on nähnyt paljon enemmän tekstiä tilanteista kuten

- pitcher
- batter
- inning
- strike
- base

Jos konteksti ei ole täysin selvä, malli täydentää puuttuvan tiedon todennäköisimmän lajin mukaan, ja se laji on usein baseball.

Tämä ei ole virhe logiikassa, vaan todennäköisyysmallin luonnollinen seuraus.

4. Lajien pinnallinen samankaltaisuus

Pesäpallo ja baseball muistuttavat toisiaan ulkoisesti.

- maila
- pallo
- pesät
- eteneminen

Jos tekoäly ei ole täysin varma lajista, se voi "liukua" baseballiin, koska siitä on enemmän esimerkkejä datassa.

5. Pesäpallon analyysiä on verkossa vähän

Baseballissa analyysi on lähes oma tieteenalansa:

- sabermetrics
- expected stats
- WAR
- launch angle -analyysi

Pesäpallossa analyysiä on julkaistu verkossa paljon vähemmän. Osa keskustelusta tapahtuu seurojen sisällä, osa paikallislehdissä ja osa maksumuurien takana.

Tekoäly ei siis näe kaikkea tätä.

Miksi tekoälyn kanssa voi silti keskustella pesäpallosta?

Kun käyttäjä antaa tekoälylle riittävästi kontekstia, esimerkiksi:

- pelaajista
- rooleista
- taktiikoista
- kotiutuslyöntikilpailuista
- pelin rytmistä

malli pystyy pysymään paremmin pesäpallon maailmassa eikä "valu" baseballiin.

Toisin sanoen tekoäly toimii paremmin, kun keskustelussa on mukana ihminen, joka tuntee lajin.

Yksi mielenkiintoinen havainto

Jos tekoälyltä kysyy pesäpallosta englanniksi, baseballiin liittyvät virhetulkinnat lisääntyvät helposti. Jos kysymys esitetään suomeksi, malli pysyy paljon paremmin pesäpallossa.

Mitä tarkempi konteksti ja mitä parempi lajituntemus keskusteluun tuodaan, sitä paremmin tekoäly pysyy oikealla radalla.

Ilman sitä pesäpallo alkaa helposti muuttua baseballiksi. ⚾

------------------------------------------

Lisäys 8.4.2026

Pesäpallo ja tekoäly on mielenkiintoinen yhdistelmä.

Moni ajattelee edelleen, että tekoäly joko osaa tai ei osaa. Oma kokemukseni on, että asia ei mene ihan niin yksinkertaisesti. Yksinään tekoäly ei oikeastaan tunne pesäpalloa kovin hyvin. Se valuu liian helposti baseballin suuntaan, etenkin jos puhutaan kuvista. Siinä tulee raja vastaan nopeasti.

Mutta kun mukana on ihminen, joka tuntee lajin, tilanne muuttuu paljon.

Olen tehnyt jo muutaman vuoden ajan yhteistyötä ChatGPT:n kanssa maksullisen version puolella, ja sen aikana olemme rakentaneet pesäpalloon liittyviä taulukoita, tilastointia, ohjelmalogiikkaa, tekstejä ja erilaisia käytännön ratkaisuja. Se ei ole onnistunut siksi, että tekoäly tietäisi kaiken pesäpallosta valmiiksi, vaan siksi, että minä tiedän mitä haen, huomaan virheet ja pystyn syöttämään oikeaa aineistoa tueksi silloin kun sitä tarvitaan.

Siinä tämä yhteistyö on parhaimmillaan. Minä tuon mukaan lajituntemuksen, kerron erikoistilanteet, ja tarvittaessa tarkat säännöt. Tekoäly taas auttaa rakentamaan, jäsentämään, vertailemaan ja viemään asioita nopeasti eteenpäin. Yhdessä siitä tulee paljon enemmän kuin kumpikaan yksin.

Kuvien tekemisessä seinä tulee edelleen vastaan. Suomalainen pesäpallo häviää liian helposti globaalin baseball-aineiston alle. Mutta tekstissä, logiikassa ja ohjelmissa yhteistyö voi toimia yllättävänkin hyvin.

Tämä on ainakin oma kokemukseni. Ei tekoäly korvaa lajituntemusta. Mutta oikeissa käsissä se voi olla todella hyvä työpari.

Mitä ChatGPT sanoo meidän yhteistyöstä?

Kun teemme yhdessä pesäpalloon liittyviä tekstejä, taulukoita, analyysejä tai ohjelmia, onnistuminen perustuu siihen, että sinä tuot keskusteluun oikean lajikontekstin. Sinä tiedät mitä haluat, huomaat virheet ja pystyt oikaisemaan heti, jos jokin alkaa valua baseballiin. Silloin minä en joudu arvaamaan tyhjästä, vaan saan sinulta suunnan, rajat ja tarvittaessa myös säännöt, termit, rakenteet ja korjaukset.

Juuri siksi me olemme voineet tehdä pesäpallotaulukoita, pesäpallotilastointia, ohjelmalogiikkaa, raportteja, sääntöihin pohjautuvia ratkaisuja.

Niissä työ ei perustu siihen, että mallin pitäisi “nähdä” valmis pesäpallomaailma omasta muististaan täydellisenä, vaan siihen, että se pystyy käsittelemään hyvin annettua rakennetta, sääntöjä, esimerkkejä ja korjauksia.

Sinun kohdallasi onnistuminen tulee käytännössä tästä:

1. Sinulla on oikea lajituntemus
Tämä on tärkein syy. Sinä huomaat heti, jos jokin termi, tilastologiikka tai pelitilanne menee väärin. Kaikki käyttäjät eivät huomaa. Silloin virhe ehtii jäädä vastaukseen elämään.

2. Sinä annat tarvittaessa oikean aineiston
Kun olet antanut esimerkiksi pelisäännöt 2026 ja kilpailumääräykset 2026, työ ei enää perustu pelkkään yleiseen mallimuistiin. Silloin käytössä on oikea kehys. Se nostaa tarkkuutta paljon.

3. Pesäpallon ohjelmointi on sääntö- ja logiikkatyötä
Ohjelma ei tarvitse “kulttuurista tuntumaa” samalla tavalla kuin kuva. Se tarvitsee:

mitä tapahtuma tarkoittaa
miten se tallennetaan
mitä siitä lasketaan
mikä on poikkeus
mikä ei kuulu mukaan

Tällaisessa minä olen hyödyllinen, koska pystyn rakentamaan logiikkaa hyvin, kun säännöt tunnetaan.

4. Meillä on jatkuvuutta
Sinun kanssa ei tehdä yhtä irrallista kysymystä, vaan kokonaisuutta. Keskustelussa kertyy yhteinen toimintatapa. Tiedän jo valmiiksi, että pesäpallossa pienikin virhe on oikea virhe eikä “sinne päin”. Se parantaa lopputulosta paljon.

5. Sinä testaat etkä niele kaikkea sellaisenaan
Tämäkin on iso syy. Et ota vastausta vastaan vain siksi, että se kuulostaa hyvältä. Sinä tarkistat. Se pakottaa myös minut pysymään tarkempana.

Siksi joku muu ei välttämättä onnistu heti. Jos käyttäjä kysyy vain yleisesti “tee pesäpallosta analyysi” eikä itse tunne lajia tarkasti, vastaus voi kuulostaa hyvältä mutta sisältää väärää logiikkaa. Sinun kanssa näin ei käy yhtä helposti, koska viet keskustelua oikeaan suuntaan koko ajan.

Ja sitten se kuvapuoli.

Siinä tulee seinä vastaan juuri siksi, että kuvaa ei voi samalla tavalla “ankkuroida” sääntöihin ja korjauksiin kuin ohjelmalogiikkaa. Vaikka kirjoittaisit oikein, kuvamalli yrittää silti rakentaa näkymän sen perusteella, mitä se on nähnyt eniten. Ja siinä baseball jyrää pesäpallon. Tekstissä ja koodissa tämän voi korjata keskustelulla, rakenteella ja aineistolla. Kuvissa sitä ei saa yhtä hyvin hallintaan.

Eli lyhyesti:

Me onnistumme, koska sinä tuot lajitiedon ja oikean aineiston, ja minä pystyn rakentamaan sen päälle logiikkaa, tekstiä ja ohjelmia. Kuvissa tämä sama ohjaus ei toimi yhtä tarkasti, ja siksi juuri niissä tulee raja vastaan.

Tuo on oikeastaan koko ero.