Kultturomiikkaa

Viime tammikuussa amerikkalainen tiedelehti Science julkaisi huomiota herättävän artikkelin. Siinä lanseerattiin englanninkielinen käsite "culturomics", jonka olen kääntänyt muotoon kultturomiikka.

Luonnontieteissä on viime vuosina nimetty miikka-loppuisilla nimillä tutkimuksen alueita, joissa tutkitaan valtavan suuria tietoaineistoja sitä varten kehitettyjen tietokoneohjelmien avulla. Tiedostot ovat niin suuria, että niiden tutkiminen tavanomaisilla menetelmillä on käytännössä mahdotonta.

Tunnetuin tällainen hanke oli ihmisen perimän selvittäminen ja erilaisten ohjelmistotyökalujen kehittäminen sen systemaattiseen tutkimiseen. Syntyi käsite genomiikka.

Tammikuussa julkaistu tutkimus keskittyi maailman kirjallisuuteen.

Siinä sinänsä ei ole mitään kummallista, että joku tutkii kirjallisuutta. Ei liioin siinä, että apuna käytetään digitoituja tiedostoja.

Siinä puolestaan on, että tutkitaan samalla kertaa miljoonia kirjoja. Tutkijat ovat nyt saaneet oivan uuden työkalun, joka on kaikkien käytettävissä ja jossa vain mielikuvitus asettaa rajat kiinnostavien kysymysten esittämiseen. On avautumassa aarreaitta eri kielten, kulttuurien ja yhteiskuntien kehityksestä kiinnostuneille.

129 miljoonaa kirjaa Maailmassa arvioidaan kaikkina aikoina julkaistun noin 129 miljoonaa kirjaa. Tähän lukuun eivät sisälly kausijulkaisut eivätkä tieteelliset lehdet ja muut vastaavat, ainoastaan varsinaiset kirjat.

Hakukonejätti Google on käynnistänyt valtavan urakan, jonka tavoitteena on digitoida sivu sivulta kaikki mainitut 129 miljoonaa kirjaa. Hanketta toteutetaan eri puolilla maailmaa olevien suurimpien yliopistokirjastojen toimesta.

Syntyvä tietopankki tulee toivottavasti olemaan kaikkien tutkijoiden saatavilla. Tällä hetkellä ei tosin ole kenellekään selvää, missä määrin tekijänoikeuksiin liittyvät kysymykset tulevat rajaamaan kirjapankin käyttöä. Nyt on noin viisitoista miljoonaa kirjaa digitoituna, joista puheena olevaan tutkimukseen tutkijat valitsivat viiden miljoonan kirjan otoksen.

Tässä vaiheessa luotu tietopankki sisältää noin 500 miljardia sanaa. Niistä valtaosa, kuten kaikista painetuista kirjoistakin, on englanninkielisiä. Otos sisältää runsaasti myös ranskan-, saksan-, venäjän-, ja kiinankielisiä teoksia. Vanhimmat kirjat ovat 1500-luvulta mutta ymmärrettävästi valtaosa on painettu 1800 ja 1900-luvuilla.

Tiedoston kokoa kuvaa se, että se on jo nyt noin tuhat kertaa suurempi kuin ihmisen genomin sisältämä tiedosto. Jonoon asetettuna kirjainten muodostama nauha yltäisi kymmenen kertaa kuuhun ja takaisin. On selvää, että kukaan ihminen ei pysty tällaista määrää koskaan lukemaan.

Uusi työkalu Millaisiin kysymyksiin tällaisella uudella lähestymistavalla sitten saadaan vastauksia?

Voi esimerkiksi kysyä, kuinka monta sanaa valitussa kielessä esiintyy kunakin aikana. Artikkelin mukaan englanninkielisiä sanoja oli noin puoli miljoonaa vuonna 1900, ja luku oli jo yli miljoona vuonna 2000. Uusien sanojen ilmaantuminen ei muissa kielissä ole ymmärrettävästi ollut yhtä nopeata. Luku on selvästi suurempi kuin parhaidenkaan sanakirjojen sisältö.

On saatu uusi oivallinen työkalu tarkastella niin kieleen ilmaantuvia uusia sanoja kuin ajan myötä kieliopissa tapahtuvia muutoksia, esimerkiksi epäsäännöllisten verbien taivutusta. Nyt jos koskaan olisi kiinnostavaa olla kielentutkija.

Kultturomiikan mahdollisuudet eivät kuitenkaan rajoitu pelkästään kielten tutkimukseen. Vuosisatojen aikana kirjoitettujen tekstien systemaattinen tarkastelu avaa uusia ovia ja mahdollisuuksia myös erilaisten yhteiskunnallisten ilmiöiden tutkimiseen. Nähdään mitkä trendit ovat nousussa ja mitkä laskussa.

Esimerkiksi uskontoihin, aatteisiin ja tasa-arvoon liittyvien ilmiöiden esiintyminen ja systemaattinen tarkastelu avaa mielenkiintoisia mahdollisuuksia ymmärtää uudella tavalla erilaisten yhteiskuntien vaiheita ja kehitystä.

Tutkimuksen mukaan Jumalaa tarkoittavan sanan suhteellinen esiintymistiheys kirjoissa alkoi laskea 1850-luvulla. Lasku jatkui viime vuosisadan puoleen väliin ja tasaantui sen jälkeen. Mahtaisiko johtua siitä, että vielä 1800-luvun alussa kirkon piirissä tuotettiin merkittävä osa kaikesta painetusta tekstistä.

Nainen menee ohi Sanojen mies ja nainen esiintymisen vertailu kirjoissa on myös mielenkiintoinen ja kuvannee yhteiskunnissa meneillään olevia muutoksia sukupuolten välisessä tasa-arvossa.

Mies-sanan esiintyvyystiheys oli 1800-luvulla moninkertainen nais-sanaan verrattuna. Ero alkoi pienentyä noin sata vuotta sitten. Aluksi se tapahtui mies-sanan frekvenssin pienentymisenä mutta vasta 1960-luvulta nais-sanan frekvenssin nopeana lisääntymisenä. Ero tasoittui 1980-luvulla, ja vuosituhannen vaihteessa nais-sana esiintyi kirjoissa jo useammin kuin sana mies.

Tutkijat kysyivät esimerkiksi sitä, miten sensuurin vaikutus näkyy kirjoissa.

Saksankielisestä kirjallisuudesta katosi 1930-luvulla suuri joukko nimiä ja sanoja, jotka eivät sopineet rakenteilla olevan kansallissosialistisen valtion suunnitelmiin. Esimerkkinä mainittakoon taiteilija Marc Chagall, jonka nimi hävisi saksankielisestä kirjallisuudesta tyystin 1930-luvulla. Samaan aikaan häneen nimensä esiintyvyys englanninkielisessä kirjallisuudessa puolestaan voimakkaasti lisääntyi.

Venäjänkielisessä kirjallisuudesta puolestaan esimerkiksi Leon Trotski ja monet muut poliitikot katosivat 1930-luvun lopulla. Trotski koki nopean uuden tulemisen venäläisiin kirjoihin Neuvostoliiton hajottua.

Kultturomiikka avaa uuden, tietointensiivisen tavan tarkastella eri ilmiöiden ilmaantumista ja katoamista painetusta tekstistä. Kaikkien maailman kirjojen digitointi avaa uuden ikkunan menneeseen maailmaan.

Usean alan tutkijoille avautuu nyt ennen näkemätön mahdollisuus yhdistää oman alansa ja informatiikan osaaminen. Näin voidaan saada uutta ymmärrystä niin historiasta kuin meneillään olevasta ajasta.

Kirjoittaja on Itä-Suomen yliopiston akateeminen rehtori.

Mitä tunnetta artikkeli sinussa herättää? Ilmaisemalla tunteesi näet toisten reaktiot.

Uusimmat

Pääkirjoitukset

Kaupunkien kasvuun liittyy epävarmuuksia

KuPS teki Kuopiosta taas jalkapallokaupungin

Väki vähenee, pidot paranee

Lisää lääkäreitä

Hyökkäyksiä karjataloutta vastaan ei pidä hyväksyä

Amerikkalaiset vaihtuivat venäläisiin

Ystävyys ei ole pakollista

Työhuone, tuleva innovaatio

Taas näyttää, että kyllä britit nyt lähtevät EU:sta

Saalistilastoista löytyy ikäviä viestejä

Savon Sanomien uutiskirje

Tilaa päivän tärkeimmät uutiset. Saat joka iltapäivä kuusi juttua, jotka ainakin kannattaa lukea. Uutiskirjeen tilaaminen on maksutonta.