Ein språkteknologisk kvardag

Olga (92) bur framleis heime. Det kan ho gjere fordi ho har god hjelp i teknologien rundt seg: Treng ho å skru på lyset, seier ho det høgt. Kjøleskapet bestiller ekstra mjølk når det ikkje er meir igjen, og ho snakkar til ei mobil eining når ho treng ekstra tilsyn frå eldresenteret, som også reknar ut kva medisin ho treng for hjartet.

Når i historia menneska byrja å nytte tale for å kommunisere med einannan, er omdiskutert, men skriftspråket har eksistert berre i ein liten parentes i historia. Dei siste ti åra har vi sett ei rivande utvikling attende til talen.

Men kva om teknologien ikkje skjønner kva Olga seier? Når GPS-en sender ein ut på feil veg, kan det vere frustrerande. Når telefonen ringer opp ein ekskjærast fordi namnet var snarlikt namnet til den ein skulle ringe, eller ein fekk noko anna frå restaurantmenyen enn det ein trudde ein hadde bestilt, er det til å leve med. Men kva når helsa di er i hendene på taleteknologien?

Ifølge ei undersøking blant amerikanske legar gjort hausten 2018 svarte 62 prosent at dei brukte taleattkjenning i jobben.24 Den store uroa var knytt til presisjonen og semantikken i taleattkjenninga. Globale aktørar som Microsoft, Google, Amazon og IBM lagar kognitiv teknologi med eit engelskspråkleg utgangspunkt. Taleteknologi i menneske–maskin-kommunikasjon er ein global trend, og den kommande eldrebølga har blant anna sett fart i utviklinga av kunstig intelligens, av mobilteknologi og e-helse. Om Fatima, fødd i Pakistan, på gamleheim i Oslo, Kjell, oppdaling heile livet, eller 92 år gamle Olga skal få korrekt og rett hjelp gjennom talekommando, må teknologien skjønne kva dei seier. Det skjer ikkje av seg sjølv.

Bakgrunn

Opprettinga av ein norsk språkbank var det største enkeltståande tiltaket som blei varsla i stortingsmeldinga Mål og meining. Ein heilskapleg norsk språkpolitikk.25 Ein slik språkbank skulle vere ei samling av digitale språkdata til bruk for private og offentlege aktørar i utvikling av språkteknologiske tenester og produkt med norsk tale og tekst.

Ein norsk språkbank blei sett på som sentral i arbeidet med å sikre norsk som samfunnsberande språk også i den digitale framtida. Bakgrunnen var at ein såg konturane av ei utvikling der norsk kunne tape terreng ved innføring av ny teknologi og digitale løysingar. Dei internasjonale kommersielle aktørane på feltet prioriterte større språk, særleg engelsk, i utviklinga av språkteknologiske produkt. Språkbanken skulle motverke denne utviklinga ved å tilby oppdaterte, gratis og lisensfrie språkdata for utvikling av norsk språkteknologi og slik gjere det lettare og meir økonomisk attraktivt å utvikle språkteknologiske produkt på norsk.

Situasjonen i dag

Med sin samfunnsomveltande styrke blir digitaliseringa kalla den fjerde industrielle revolusjonen. Språkteknologien, uløyseleg knytt til digitaliseringa, er i ferd med å få fotfeste på stadig fleire samfunnsområde. Ein premiss for utviklinga er kapasitetsauken i dataoverføring på nettet, industrialisering av datalagring og prosessering i nettsky og spreiing av forbrukarelektronikk kopla til nettet. No bruker ni av ti nordmenn nettet ein gjennomsnittsdag, og vi bruker stadig meir tid påkopla.26

Nordmenn er også raskt ute med å bruke ny teknologi. Før dei var tilgjengelege på norsk, var smarthøgtalarar som Amazons Alexa og Google Home27 allereie tatt i bruk av over 120 000 nordmenn.28 På mange måtar er dette typisk for språkteknologiske forbrukarvarer: Dei norskspråklege versjonane kjem seinare på marknaden, og dei er ofte dårlegare enn dei engelskspråklege versjonane.

Dersom alle skal kunne bruke dialekta si når dei kommuniserer med slike maskiner, må programvara vere mata med dei språkdataa som trengst for å kjenne att og forstå ulike dialekter. Utviklar ein talestyrt programvare med støtte for berre éi dialekt, vil programvara aldri kunne forstå noko anna enn denne eine dialekta.

Med stadig sterkare gjennomslag for produkt baserte på språkteknologi er det endå viktigare, også i eit demokratisk perspektiv, å legge til rette for at desse produkta kan komme på norsk.

Teknologiselskap som lanserer eit slikt produkt på norsk, kan grovt sett velje to ulike framgangsmåtar:

  1. Produktet er på engelsk og set fortløpande om til norsk, og taledata blir nytta til å forbetre produktet gjennom maskinlæring.
  2. Produktet er laga frå botnen spesielt for norsk språk.

Ein kan ikkje vente at internasjonale aktørar vel den siste framgangsmåten, sidan slike aktørar ofte vil prøve å nå fleire språk med same produkt. I begge tilfella må ein samarbeide med næringslivet og utviklarar for å syte for at produkta blir av best mogleg kvalitet.

Tilke Judd, sjefsutviklar i Google, har peikt på at det ikkje nødvendigvis er talet på brukarar av eit språk som har mest å seie når selskapet utviklar nye produkt. Det avgjerande er derimot kor store og gode språkdata som er tilgjengelege for det aktuelle språket.29 Dersom vi vel å sette lit til dette, vil det seie at sjølv eit språk som norsk med sine knapt 5,3 millionar brukarar kan vere interessant for utvikling av språkteknologi – vel å merke dersom dei nødvendige språkdataa er tilgjengelege.

Språkteknologi er all teknologi som rettar seg mot eller tar i bruk menneskeleg språk. Teknologien blir brukt på så ulike område som søk på internett, automatisk omsetting (maskinomsetting), dikteringsverktøy, talesyntese og rettskrivingsprogram, for å nemne nokre få døme. Teknologien er tverrfagleg og blir til i skjeringsfeltet mellom lingvistikk og informatikk. Til grunn for all språkteknologi ligg språkdata i ei eller anna form, til dømes ordbøker og termlister, store tekstmengder (stordata) eller meir avgrensa tekstmengder frå eit særskilt fagområde (domenespesifikke tekstar).

Eit løft for norsk språkteknologi

Det finst inga fersk systematisk kartlegging av kva som er utvikla av norske språkressursar. Den siste Meta-Net-rapporten frå 2012 synte at norsk den gongen stod svakt rusta språkteknologisk.30 Ideen bak ein norsk språkbank var å betre stoda for utvikling av språkteknologi på norsk. Sidan utbygging og innsamling av naudsynte språkdata kan vere kostbart, har det til no blitt løyvd om lag 72 millionar kroner til utvikling av Språkbanken.

Snart ni år etter at Språkbanken blei oppretta, meiner vi at ein kan slå fast at banken ikkje tener det formålet han var tiltenkt. Det manglar viktige språkdata i banken, og han er for lite kjent både blant utviklarar og aktørar som potensielt kan bidra med innhald. Samstundes er behovet for språkdata for å utvikle norsk språkteknologi større enn nokon gong tidlegare. Utvalet stiller spørsmål ved om Språkbanken er rett organisert for formålet – å gi grunnlagsdata for å kunne utvikle språkteknologi på norsk. På dette området vil det også vere ein føresetnad å kunne jobbe på tvers av dei skandinaviske landa. Norsk er eit lite språkområde, men vi har språkfellesskap med Sverige og Danmark. Saman med grannelanda våre vil vi kunne vere ein større og meir interessant marknad for dei største selskapa.

Vi har sett korleis ein med utgangspunkt i frigitte data har kunna utvikle nye tenester til det beste for brukarane på andre samfunnsområde. Kartverkets data er gjorde tilgjengelege for både offentlege og private aktørar. Vêrtenester som yr.no er gjort moglege gjennom offentlege vêrdata. Dersom vi skal syte for språkteknologi på norsk for både skrift og tale, vil vi vere avhengige av offentleg-privat samarbeid som tar opp i seg erfaringar som er gjorde på andre område. Industrien aleine vil ikkje ha nok insentiv i marknaden til å utvikle norskspråklege ressursar som strekk til, og det offentlege har ikkje kompetansen som trengst.

Vi innser at det er knytt spørsmål om rettar til språkdata. Eitt av dei største korpusa i Språkbanken er Norsk aviskorpus. Skal det gjerast tilgjengeleg for aktørar for å utvikle språkteknologi på norsk, må spørsmål om rettar avklarast. Noko av det viktigaste er oppdaterte ordbøker og ordlister i digitalisert form. Dersom ein skal utvikle meir fag- eller områdespesifikk teknologi, må ein også ha tilgang til spesifisert terminologi for dette faget eller området. Både ordboksarbeid og terminologisk arbeid er altså føresetnader for norsk språkteknologi. I denne samanhengen er det viktig å skape gode vilkår for terminologisk arbeid og gi tilgang til all norskspråkleg terminologi, samla på éin stad, til fri bruk for dei som måtte ha nytte av han. På same måte må ordbøker for bokmål og nynorsk vere fritt tilgjengelege for nedlasting og gjenbruk.

Språkteknologi som forstår det norske språkmangfaldet

Utvikling av maskinlæring og kunstig intelligens har gjort taleteknologien viktigare enn det ein såg for seg i Mål og meining. Dagleg samlar dei mobile einingane inn enorme mengder data, som i stadig større utstrekning blir gjorde tilgjengelege for tredjepartsutviklarar. Helseteknologien er berre eitt samfunnsområde der tale i aukande grad tar over for skrift. Nytta rett kan taleteknologien gi nye grupper tilgang til samfunnsdeltaking.

I Noreg har vi høg toleranse for variasjon i munnleg språkbruk, særleg for skilnader mellom dialekter, og det er eit viktig demokratisk prinsipp at alle har rett til å bruke sitt eige språk og si eiga dialekt. Det eksisterer heller ikkje noko (normert) standardtalemål for norsk, slik det er vanleg for mange andre språk. Ei av dei største språkpolitiske utfordringane i vår tid er derfor å sørge for gode rammevilkår og gode nok data til at det er mogleg å utvikle teknologi som tar høgde både for likestilling av skriftspråka nynorsk og bokmål og har stor talemålstoleranse.

Lite land langt framme
Mange andre land har liknande utfordringar som Noreg innan språkteknologi. Dei store kommersielle aktørane prioriterer store språk først, medan små språk gjerne hamnar bak i køen. Like fullt er det nokre som lykkast: Eit døme på det er latvisk språk, som blir brukt av rundt 1,5 millionar menneske. Før landet skulle ha formannskapet i EU i 2015, kom styresmaktene med ei storstilt satsing på latvisk språkteknologi.

– Vi har fått staten og regjeringa med på laget og fått dei til å skjønne utfordringane vi står overfor. Det trur eg er årsaka til at vi har lykkast, seier Jānis Ziediņš, prosjektansvarleg for språkteknologi ved det statlege kulturinformasjonssenteret i Latvia.

Ei av suksesshistoriene i det latviske arbeidet er maskinomsettaren hugo.lv. Han er fritt tilgjengeleg for alle og set betre og meir nøyaktig om til og frå latvisk enn det Google Translate gjer. Årsaka er at omsettaren har blitt mata med språkdata frå spesifikke fagfelt, slik som juss. Det hadde ikkje vore mogleg dersom statlege etatar og organ ikkje hadde gått med på å dele omsettingane og språkdataa sine, seier Ziediņš.

Utvalet tilrår