Takk for at du vil dele artikkelen

Den du deler artikkelen med, kan lese og eventuelt lytte til heile artikkelen.
Det gjer vi for at fleire skal oppdage DAG OG TID.

Namnet ditt vert synleg for alle du deler artikkelen med.

TeknologiFeature

Samtale med datamaskiner

Kvar veke les vi inn utvalde artiklar, som abonnentane våre kan lytte til.
Lytt til artikkelen
Samtalen med datamaskina vert stadig meir realistisk.

Samtalen med datamaskina vert stadig meir realistisk.

Samtalen med datamaskina vert stadig meir realistisk.

Samtalen med datamaskina vert stadig meir realistisk.

5834
20221021
5834
20221021

«Siri, kva tid går neste toget til Voss?» Mange snakkar til Siri eller Alexa for å utføre praktiske gjeremål. Vi kan føre ein stadig meir realistisk «samtale» med maskiner og får stadig betre svar. Snart kan du spørje Siri kvifor vossingar er så glade i bygda si, og få eit ganske fornuftig svar.

Når du brukar Siri på mobilen, merkar du knapt den ressurskrevjande databehandlinga som trengst for at du skal få eit relevant svar. Spørsmålet ditt vert nemleg sendt over internett til gigantiske serverar der programma jobbar raskt og smart for å finne ut av ting.

«Samtalen» føreset at fire modular verkar saman som eit system. Den fyrste modulen må klare å kjenne igjen talehandlinga di, deretter må den andre modulen analysere det språklege føremålet med det du sa, den tredje må produsere ein relevant språkleg respons, og til slutt må den fjerde modulen skape ei talehandling som uttalar det prosessane i dei førre modulane kom fram til.

Modul 1 identifiserer tale­språk i den lyden som mikrofonen fangar opp, og omset dei til skriftleg tekst, altså talegjenkjenning. Den første generasjonen av slike system blei tatt i bruk på 1990-talet. Systema kjende att ord og setningar på telefonen og kunne setje deg over til ei anna avdeling, bestille flybillettar eller overføre pengar. Då måtte ein i dei fleste tilfelle svare veldig tydeleg på enkle ja- og nei-spørsmål. Nordisk språkteknologi på Voss skulle bli verdsleiande på dette området, men gjekk diverre konkurs.

Det kan vere mykje støy rundt deg når du snakkar. Modul 1 må kunne kjenne att byrjinga og slutten på talestraumen og vere i stand til å handtere avbrot og om nødvendig spørje om informasjon på nytt. Det er vanleg å ha eit startord, slik som «Hey, Google», for at systemet ikkje skal reagere på all slags tale som blir ytra i nærleiken.

Norske dialekter er utfordrande for talegjenkjenninga. Ein ekte vossing seier: «Ka ti gaor da nesta tooje te Voss». Gjenkjenninga fungerer betre jo større database av alt kjende ord programma har frå språket ditt.

Taleflyten vert sampla omtrent 16.000 gonger kvart sekund for å fange opp flest mogleg nyansar i ordval, frasering, tonehøgd og andre forhold som er viktige for å transkribere talen nøyaktig. Modulen gjettar på kva som vart sagt, og gjettinga vert justert med språkmodellar som tek form av nevrale nettverk som er trena på store dømesamlingar.

På engelsk vil til dømes ordet the vanlegvis bli følgt av eit substantiv, slik som i the machine. Det nevrale nettverket kjenner igjen mønster når ein person snakkar, og leverer endelege forslag til setningar. Talegjenkjenning har no ein feilprosent på berre cirka 6 prosent på engelsk.

Modul 2 omformar tekstane til numeriske verdiar som eit analysesystem kan handsame. Modulen representerer språkleg meining ved å kode orda og setningar som mangedimensjonale vektorar. Meininga vert bygd inn i vektoren. Verdien på dei ulike dimensjonane seier kor mykje ei setning er prega av ein viss meiningsdimensjon.

Nevrale nettverk blir trena til å kode ord og setningar i vektorar ved å analysere svært store korpus med transkribert menneskeleg tale. Det er denne trena kunstig intelligens-modellen som finn ut kva ei gitt talehandling betyr. Utviklinga innan maskinlæring har gjort det praktisk gjennomførleg å få datamaskiner til å forstå kva vi seier.

Modul 3 produserer den språklege responsen som datamaskina skal komme med. Den første måten dette vart gjort på, var å utløyse eit svar som var laga på førehand. Viss du spør Siri kva tid neste tog går, vil ho søke i databasen til Vy og respondere med setninga: «Neste tog til Voss går klokka (tid).» Modulen kan òg hente ein passande respons frå ein database og kombinere med ferdige setningar, til dømes: «Håpar du får ein strålande tur!» Ein slik statisk respons kan føre til mange situasjonar der datamaskina gjev absurde svar.

Men maskinlæring har gjort det mogleg for systemet å lage nye setningar heilt sjølv. Eit forskarteam brukte til dømes ein database med 62 millionar dialogar hentar frå spelefilmteksting. Dei utvikla modellar for lingvistiske stilar ut frå kva ein person i filmen typisk seier når nokon snakkar til han, og desse stilane kunne brukast til å generere responsar for taleassistentar. Slik teknologi vil etter kvart kunne svare meiningsfullt på spørsmålet om kvifor vossingar er så glade i bygda si.

Modul 4 ytrar den språklege responsen som den førre modulen laga. Det fanst system for å lage syntetisk tale alt på 1970-talet. Dei nyaste systema brukar ein kombinasjon av menneskestemmer og digitalt produserte lydar.

For at programmet skal kunne ytre setningar med passande trykk og tonefall, blir skodespelarar hyrte inn til å uttale ord i mange variasjonar. Dei les inn orda med eit tonefall som er ironisk, spørjande, konstaterande eller irritert. Synteseprogrammet deler orda opp i småbitar og bygger dei opp att til setningar som uttrykker dei responsane modul 3 har generert.

Og igjen spelar maskinlæring ei stor rolle. Det finst system som kan generere språklydar ut frå 24.000 samplingar per sekund, og dei kombinerer menneskeskapte lydar med heilt syntetiske lydar. Nevrale nettverk vel ut dei lydkombinasjonane som passar best, og éi enkel setning frå datamaskina kan vere bygd opp av fleire hundre lydbitar. Det har òg vorte mogleg å syntetisere stemma til enkeltpersonar, som til dømes Barack Obama, og stemma hans kan dermed brukast til å seie kva som helst.

Samtalen med datamaskina vert stadig meir realistisk. Infrastrukturen er på plass, og dei største firmaa, slike som Apple og Amazon, kan utvide løysingane sine til fleire språk. Det er berre eit tidsspørsmål før samtalen er like god på norsk som på engelsk.

Lars Nyre
og Bjørnar Tessem

Digital tilgang til DAG OG TID – heilt utan binding

Prøv ein månad for kr 49.
Deretter kr 199 per månad. Stopp når du vil.


Eller kjøp eit anna abonnement

«Siri, kva tid går neste toget til Voss?» Mange snakkar til Siri eller Alexa for å utføre praktiske gjeremål. Vi kan føre ein stadig meir realistisk «samtale» med maskiner og får stadig betre svar. Snart kan du spørje Siri kvifor vossingar er så glade i bygda si, og få eit ganske fornuftig svar.

Når du brukar Siri på mobilen, merkar du knapt den ressurskrevjande databehandlinga som trengst for at du skal få eit relevant svar. Spørsmålet ditt vert nemleg sendt over internett til gigantiske serverar der programma jobbar raskt og smart for å finne ut av ting.

«Samtalen» føreset at fire modular verkar saman som eit system. Den fyrste modulen må klare å kjenne igjen talehandlinga di, deretter må den andre modulen analysere det språklege føremålet med det du sa, den tredje må produsere ein relevant språkleg respons, og til slutt må den fjerde modulen skape ei talehandling som uttalar det prosessane i dei førre modulane kom fram til.

Modul 1 identifiserer tale­språk i den lyden som mikrofonen fangar opp, og omset dei til skriftleg tekst, altså talegjenkjenning. Den første generasjonen av slike system blei tatt i bruk på 1990-talet. Systema kjende att ord og setningar på telefonen og kunne setje deg over til ei anna avdeling, bestille flybillettar eller overføre pengar. Då måtte ein i dei fleste tilfelle svare veldig tydeleg på enkle ja- og nei-spørsmål. Nordisk språkteknologi på Voss skulle bli verdsleiande på dette området, men gjekk diverre konkurs.

Det kan vere mykje støy rundt deg når du snakkar. Modul 1 må kunne kjenne att byrjinga og slutten på talestraumen og vere i stand til å handtere avbrot og om nødvendig spørje om informasjon på nytt. Det er vanleg å ha eit startord, slik som «Hey, Google», for at systemet ikkje skal reagere på all slags tale som blir ytra i nærleiken.

Norske dialekter er utfordrande for talegjenkjenninga. Ein ekte vossing seier: «Ka ti gaor da nesta tooje te Voss». Gjenkjenninga fungerer betre jo større database av alt kjende ord programma har frå språket ditt.

Taleflyten vert sampla omtrent 16.000 gonger kvart sekund for å fange opp flest mogleg nyansar i ordval, frasering, tonehøgd og andre forhold som er viktige for å transkribere talen nøyaktig. Modulen gjettar på kva som vart sagt, og gjettinga vert justert med språkmodellar som tek form av nevrale nettverk som er trena på store dømesamlingar.

På engelsk vil til dømes ordet the vanlegvis bli følgt av eit substantiv, slik som i the machine. Det nevrale nettverket kjenner igjen mønster når ein person snakkar, og leverer endelege forslag til setningar. Talegjenkjenning har no ein feilprosent på berre cirka 6 prosent på engelsk.

Modul 2 omformar tekstane til numeriske verdiar som eit analysesystem kan handsame. Modulen representerer språkleg meining ved å kode orda og setningar som mangedimensjonale vektorar. Meininga vert bygd inn i vektoren. Verdien på dei ulike dimensjonane seier kor mykje ei setning er prega av ein viss meiningsdimensjon.

Nevrale nettverk blir trena til å kode ord og setningar i vektorar ved å analysere svært store korpus med transkribert menneskeleg tale. Det er denne trena kunstig intelligens-modellen som finn ut kva ei gitt talehandling betyr. Utviklinga innan maskinlæring har gjort det praktisk gjennomførleg å få datamaskiner til å forstå kva vi seier.

Modul 3 produserer den språklege responsen som datamaskina skal komme med. Den første måten dette vart gjort på, var å utløyse eit svar som var laga på førehand. Viss du spør Siri kva tid neste tog går, vil ho søke i databasen til Vy og respondere med setninga: «Neste tog til Voss går klokka (tid).» Modulen kan òg hente ein passande respons frå ein database og kombinere med ferdige setningar, til dømes: «Håpar du får ein strålande tur!» Ein slik statisk respons kan føre til mange situasjonar der datamaskina gjev absurde svar.

Men maskinlæring har gjort det mogleg for systemet å lage nye setningar heilt sjølv. Eit forskarteam brukte til dømes ein database med 62 millionar dialogar hentar frå spelefilmteksting. Dei utvikla modellar for lingvistiske stilar ut frå kva ein person i filmen typisk seier når nokon snakkar til han, og desse stilane kunne brukast til å generere responsar for taleassistentar. Slik teknologi vil etter kvart kunne svare meiningsfullt på spørsmålet om kvifor vossingar er så glade i bygda si.

Modul 4 ytrar den språklege responsen som den førre modulen laga. Det fanst system for å lage syntetisk tale alt på 1970-talet. Dei nyaste systema brukar ein kombinasjon av menneskestemmer og digitalt produserte lydar.

For at programmet skal kunne ytre setningar med passande trykk og tonefall, blir skodespelarar hyrte inn til å uttale ord i mange variasjonar. Dei les inn orda med eit tonefall som er ironisk, spørjande, konstaterande eller irritert. Synteseprogrammet deler orda opp i småbitar og bygger dei opp att til setningar som uttrykker dei responsane modul 3 har generert.

Og igjen spelar maskinlæring ei stor rolle. Det finst system som kan generere språklydar ut frå 24.000 samplingar per sekund, og dei kombinerer menneskeskapte lydar med heilt syntetiske lydar. Nevrale nettverk vel ut dei lydkombinasjonane som passar best, og éi enkel setning frå datamaskina kan vere bygd opp av fleire hundre lydbitar. Det har òg vorte mogleg å syntetisere stemma til enkeltpersonar, som til dømes Barack Obama, og stemma hans kan dermed brukast til å seie kva som helst.

Samtalen med datamaskina vert stadig meir realistisk. Infrastrukturen er på plass, og dei største firmaa, slike som Apple og Amazon, kan utvide løysingane sine til fleire språk. Det er berre eit tidsspørsmål før samtalen er like god på norsk som på engelsk.

Lars Nyre
og Bjørnar Tessem

Nordisk språkteknologi på Voss skulle bli verdsleiande på dette området, men gjekk diverre konkurs.

Emneknaggar

Fleire artiklar

President Joe Biden ser på ein kvantedatamaskin hos teknologiselskapet IBM i New York hausten 2022. For tida går det føre seg eit globalt kappløp for å utvikle stadig kraftigare utgåver.

President Joe Biden ser på ein kvantedatamaskin hos teknologiselskapet IBM i New York hausten 2022. For tida går det føre seg eit globalt kappløp for å utvikle stadig kraftigare utgåver.

Foto: Andrew Harnik / AP / NTB

Samfunn

Mot ein ny teknologisk tidsalder

Om få år kan verda stå overfor ein kvanteteknologisk revolusjon. I Noreg bur næringsliv og tryggingsmiljø seg på ei omvelting ingen enno kjenner dimensjonane av.

Christiane Jordheim Larsen
President Joe Biden ser på ein kvantedatamaskin hos teknologiselskapet IBM i New York hausten 2022. For tida går det føre seg eit globalt kappløp for å utvikle stadig kraftigare utgåver.

President Joe Biden ser på ein kvantedatamaskin hos teknologiselskapet IBM i New York hausten 2022. For tida går det føre seg eit globalt kappløp for å utvikle stadig kraftigare utgåver.

Foto: Andrew Harnik / AP / NTB

Samfunn

Mot ein ny teknologisk tidsalder

Om få år kan verda stå overfor ein kvanteteknologisk revolusjon. I Noreg bur næringsliv og tryggingsmiljø seg på ei omvelting ingen enno kjenner dimensjonane av.

Christiane Jordheim Larsen

Foto: NTB

DiktetKunnskap
Jan Erik Vold

«Arne Paasche Aasen var ein av dei mest produktive poetane i Noreg.»

Denne havsvala har fått ring kring beinet og skal snart flyge av garde. Mykje står att å lære om arten, som særleg sjømenn har møtt inntil nyleg.

Denne havsvala har fått ring kring beinet og skal snart flyge av garde. Mykje står att å lære om arten, som særleg sjømenn har møtt inntil nyleg.

Foto: Lars Tore Mubalegh-Håvardsholm

DyrFeature
Naïd Mubalegh

Julefuglen i augustnatta

Havsvala tel blant dei minste sjøfuglane i verda. Ho er omtrent stor som ein sporv, men kan leve lenger enn tretti år.

Angela Merkel vart forbundskanslar i 2005.

Angela Merkel vart forbundskanslar i 2005.

Foto: Michael Sohn / AP / NTB

BokMeldingar
Bernt Hagtvet

Angela Merkel har mykje å læra oss om korleis politikk vert hamra ut – med fornuft.

Opprørssoldatar ved ei brennande kiste i mausoleet til Hafez al-Assad, som styrte Syria frå 1970 til han døydde i 2000. Mausoleet til den tidlegare diktatoren står i landsbyen Qardaha i Latakia-provinsen nordvest i landet.

Opprørssoldatar ved ei brennande kiste i mausoleet til Hafez al-Assad, som styrte Syria frå 1970 til han døydde i 2000. Mausoleet til den tidlegare diktatoren står i landsbyen Qardaha i Latakia-provinsen nordvest i landet.

Foto: Aaref Watad / AFP / NTB

Samfunn

I oska etter Assad

Ikkje alle i Syria jublar over at diktaturet har falle.

Per Anders Todal
Opprørssoldatar ved ei brennande kiste i mausoleet til Hafez al-Assad, som styrte Syria frå 1970 til han døydde i 2000. Mausoleet til den tidlegare diktatoren står i landsbyen Qardaha i Latakia-provinsen nordvest i landet.

Opprørssoldatar ved ei brennande kiste i mausoleet til Hafez al-Assad, som styrte Syria frå 1970 til han døydde i 2000. Mausoleet til den tidlegare diktatoren står i landsbyen Qardaha i Latakia-provinsen nordvest i landet.

Foto: Aaref Watad / AFP / NTB

Samfunn

I oska etter Assad

Ikkje alle i Syria jublar over at diktaturet har falle.

Per Anders Todal

les DAG OG TID.
Vil du òg prøve?

Her kan du prøve vekeavisa DAG OG TID gratis i tre veker.
Prøveperioden stoppar av seg sjølv.

Komplett

Papiravisa
Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Digital

Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Komplett

Papiravisa
Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Digital

Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis