JavaScript is disabled in your web browser or browser is too old to support JavaScript. Today almost all web pages contain JavaScript, a scripting programming language that runs on visitor's web browser. It makes web pages functional for specific purposes and if disabled for some reason, the content or the functionality of the web page can be limited or unavailable.

Takk for at du vil dele artikkelen

Den du deler artikkelen med, kan lese og eventuelt lytte til heile artikkelen.
Det gjer vi for at fleire skal oppdage DAG OG TID.

Namnet ditt vert synleg for alle du deler artikkelen med.

TeknologiFeature

Samtale med datamaskiner

Kvar veke les vi inn utvalde artiklar, som abonnentane våre kan lytte til.
Lytt til artikkelen
Samtalen med datamaskina vert stadig meir realistisk.

Samtalen med datamaskina vert stadig meir realistisk.

Samtalen med datamaskina vert stadig meir realistisk.

Samtalen med datamaskina vert stadig meir realistisk.

5834
20221021
5834
20221021

«Siri, kva tid går neste toget til Voss?» Mange snakkar til Siri eller Alexa for å utføre praktiske gjeremål. Vi kan føre ein stadig meir realistisk «samtale» med maskiner og får stadig betre svar. Snart kan du spørje Siri kvifor vossingar er så glade i bygda si, og få eit ganske fornuftig svar.

Når du brukar Siri på mobilen, merkar du knapt den ressurskrevjande databehandlinga som trengst for at du skal få eit relevant svar. Spørsmålet ditt vert nemleg sendt over internett til gigantiske serverar der programma jobbar raskt og smart for å finne ut av ting.

«Samtalen» føreset at fire modular verkar saman som eit system. Den fyrste modulen må klare å kjenne igjen talehandlinga di, deretter må den andre modulen analysere det språklege føremålet med det du sa, den tredje må produsere ein relevant språkleg respons, og til slutt må den fjerde modulen skape ei talehandling som uttalar det prosessane i dei førre modulane kom fram til.

Modul 1 identifiserer tale­språk i den lyden som mikrofonen fangar opp, og omset dei til skriftleg tekst, altså talegjenkjenning. Den første generasjonen av slike system blei tatt i bruk på 1990-talet. Systema kjende att ord og setningar på telefonen og kunne setje deg over til ei anna avdeling, bestille flybillettar eller overføre pengar. Då måtte ein i dei fleste tilfelle svare veldig tydeleg på enkle ja- og nei-spørsmål. Nordisk språkteknologi på Voss skulle bli verdsleiande på dette området, men gjekk diverre konkurs.

Det kan vere mykje støy rundt deg når du snakkar. Modul 1 må kunne kjenne att byrjinga og slutten på talestraumen og vere i stand til å handtere avbrot og om nødvendig spørje om informasjon på nytt. Det er vanleg å ha eit startord, slik som «Hey, Google», for at systemet ikkje skal reagere på all slags tale som blir ytra i nærleiken.

Norske dialekter er utfordrande for talegjenkjenninga. Ein ekte vossing seier: «Ka ti gaor da nesta tooje te Voss». Gjenkjenninga fungerer betre jo større database av alt kjende ord programma har frå språket ditt.

Taleflyten vert sampla omtrent 16.000 gonger kvart sekund for å fange opp flest mogleg nyansar i ordval, frasering, tonehøgd og andre forhold som er viktige for å transkribere talen nøyaktig. Modulen gjettar på kva som vart sagt, og gjettinga vert justert med språkmodellar som tek form av nevrale nettverk som er trena på store dømesamlingar.

På engelsk vil til dømes ordet the vanlegvis bli følgt av eit substantiv, slik som i the machine. Det nevrale nettverket kjenner igjen mønster når ein person snakkar, og leverer endelege forslag til setningar. Talegjenkjenning har no ein feilprosent på berre cirka 6 prosent på engelsk.

Modul 2 omformar tekstane til numeriske verdiar som eit analysesystem kan handsame. Modulen representerer språkleg meining ved å kode orda og setningar som mangedimensjonale vektorar. Meininga vert bygd inn i vektoren. Verdien på dei ulike dimensjonane seier kor mykje ei setning er prega av ein viss meiningsdimensjon.

Nevrale nettverk blir trena til å kode ord og setningar i vektorar ved å analysere svært store korpus med transkribert menneskeleg tale. Det er denne trena kunstig intelligens-modellen som finn ut kva ei gitt talehandling betyr. Utviklinga innan maskinlæring har gjort det praktisk gjennomførleg å få datamaskiner til å forstå kva vi seier.

Modul 3 produserer den språklege responsen som datamaskina skal komme med. Den første måten dette vart gjort på, var å utløyse eit svar som var laga på førehand. Viss du spør Siri kva tid neste tog går, vil ho søke i databasen til Vy og respondere med setninga: «Neste tog til Voss går klokka (tid).» Modulen kan òg hente ein passande respons frå ein database og kombinere med ferdige setningar, til dømes: «Håpar du får ein strålande tur!» Ein slik statisk respons kan føre til mange situasjonar der datamaskina gjev absurde svar.

Men maskinlæring har gjort det mogleg for systemet å lage nye setningar heilt sjølv. Eit forskarteam brukte til dømes ein database med 62 millionar dialogar hentar frå spelefilmteksting. Dei utvikla modellar for lingvistiske stilar ut frå kva ein person i filmen typisk seier når nokon snakkar til han, og desse stilane kunne brukast til å generere responsar for taleassistentar. Slik teknologi vil etter kvart kunne svare meiningsfullt på spørsmålet om kvifor vossingar er så glade i bygda si.

Modul 4 ytrar den språklege responsen som den førre modulen laga. Det fanst system for å lage syntetisk tale alt på 1970-talet. Dei nyaste systema brukar ein kombinasjon av menneskestemmer og digitalt produserte lydar.

For at programmet skal kunne ytre setningar med passande trykk og tonefall, blir skodespelarar hyrte inn til å uttale ord i mange variasjonar. Dei les inn orda med eit tonefall som er ironisk, spørjande, konstaterande eller irritert. Synteseprogrammet deler orda opp i småbitar og bygger dei opp att til setningar som uttrykker dei responsane modul 3 har generert.

Og igjen spelar maskinlæring ei stor rolle. Det finst system som kan generere språklydar ut frå 24.000 samplingar per sekund, og dei kombinerer menneskeskapte lydar med heilt syntetiske lydar. Nevrale nettverk vel ut dei lydkombinasjonane som passar best, og éi enkel setning frå datamaskina kan vere bygd opp av fleire hundre lydbitar. Det har òg vorte mogleg å syntetisere stemma til enkeltpersonar, som til dømes Barack Obama, og stemma hans kan dermed brukast til å seie kva som helst.

Samtalen med datamaskina vert stadig meir realistisk. Infrastrukturen er på plass, og dei største firmaa, slike som Apple og Amazon, kan utvide løysingane sine til fleire språk. Det er berre eit tidsspørsmål før samtalen er like god på norsk som på engelsk.

Lars Nyre
og Bjørnar Tessem

Digital tilgang til DAG OG TID – heilt utan binding

Prøv ein månad for kr 49.
Deretter kr 199 per månad. Stopp når du vil.

«Siri, kva tid går neste toget til Voss?» Mange snakkar til Siri eller Alexa for å utføre praktiske gjeremål. Vi kan føre ein stadig meir realistisk «samtale» med maskiner og får stadig betre svar. Snart kan du spørje Siri kvifor vossingar er så glade i bygda si, og få eit ganske fornuftig svar.

Når du brukar Siri på mobilen, merkar du knapt den ressurskrevjande databehandlinga som trengst for at du skal få eit relevant svar. Spørsmålet ditt vert nemleg sendt over internett til gigantiske serverar der programma jobbar raskt og smart for å finne ut av ting.

«Samtalen» føreset at fire modular verkar saman som eit system. Den fyrste modulen må klare å kjenne igjen talehandlinga di, deretter må den andre modulen analysere det språklege føremålet med det du sa, den tredje må produsere ein relevant språkleg respons, og til slutt må den fjerde modulen skape ei talehandling som uttalar det prosessane i dei førre modulane kom fram til.

Modul 1 identifiserer tale­språk i den lyden som mikrofonen fangar opp, og omset dei til skriftleg tekst, altså talegjenkjenning. Den første generasjonen av slike system blei tatt i bruk på 1990-talet. Systema kjende att ord og setningar på telefonen og kunne setje deg over til ei anna avdeling, bestille flybillettar eller overføre pengar. Då måtte ein i dei fleste tilfelle svare veldig tydeleg på enkle ja- og nei-spørsmål. Nordisk språkteknologi på Voss skulle bli verdsleiande på dette området, men gjekk diverre konkurs.

Det kan vere mykje støy rundt deg når du snakkar. Modul 1 må kunne kjenne att byrjinga og slutten på talestraumen og vere i stand til å handtere avbrot og om nødvendig spørje om informasjon på nytt. Det er vanleg å ha eit startord, slik som «Hey, Google», for at systemet ikkje skal reagere på all slags tale som blir ytra i nærleiken.

Norske dialekter er utfordrande for talegjenkjenninga. Ein ekte vossing seier: «Ka ti gaor da nesta tooje te Voss». Gjenkjenninga fungerer betre jo større database av alt kjende ord programma har frå språket ditt.

Taleflyten vert sampla omtrent 16.000 gonger kvart sekund for å fange opp flest mogleg nyansar i ordval, frasering, tonehøgd og andre forhold som er viktige for å transkribere talen nøyaktig. Modulen gjettar på kva som vart sagt, og gjettinga vert justert med språkmodellar som tek form av nevrale nettverk som er trena på store dømesamlingar.

På engelsk vil til dømes ordet the vanlegvis bli følgt av eit substantiv, slik som i the machine. Det nevrale nettverket kjenner igjen mønster når ein person snakkar, og leverer endelege forslag til setningar. Talegjenkjenning har no ein feilprosent på berre cirka 6 prosent på engelsk.

Modul 2 omformar tekstane til numeriske verdiar som eit analysesystem kan handsame. Modulen representerer språkleg meining ved å kode orda og setningar som mangedimensjonale vektorar. Meininga vert bygd inn i vektoren. Verdien på dei ulike dimensjonane seier kor mykje ei setning er prega av ein viss meiningsdimensjon.

Nevrale nettverk blir trena til å kode ord og setningar i vektorar ved å analysere svært store korpus med transkribert menneskeleg tale. Det er denne trena kunstig intelligens-modellen som finn ut kva ei gitt talehandling betyr. Utviklinga innan maskinlæring har gjort det praktisk gjennomførleg å få datamaskiner til å forstå kva vi seier.

Modul 3 produserer den språklege responsen som datamaskina skal komme med. Den første måten dette vart gjort på, var å utløyse eit svar som var laga på førehand. Viss du spør Siri kva tid neste tog går, vil ho søke i databasen til Vy og respondere med setninga: «Neste tog til Voss går klokka (tid).» Modulen kan òg hente ein passande respons frå ein database og kombinere med ferdige setningar, til dømes: «Håpar du får ein strålande tur!» Ein slik statisk respons kan føre til mange situasjonar der datamaskina gjev absurde svar.

Men maskinlæring har gjort det mogleg for systemet å lage nye setningar heilt sjølv. Eit forskarteam brukte til dømes ein database med 62 millionar dialogar hentar frå spelefilmteksting. Dei utvikla modellar for lingvistiske stilar ut frå kva ein person i filmen typisk seier når nokon snakkar til han, og desse stilane kunne brukast til å generere responsar for taleassistentar. Slik teknologi vil etter kvart kunne svare meiningsfullt på spørsmålet om kvifor vossingar er så glade i bygda si.

Modul 4 ytrar den språklege responsen som den førre modulen laga. Det fanst system for å lage syntetisk tale alt på 1970-talet. Dei nyaste systema brukar ein kombinasjon av menneskestemmer og digitalt produserte lydar.

For at programmet skal kunne ytre setningar med passande trykk og tonefall, blir skodespelarar hyrte inn til å uttale ord i mange variasjonar. Dei les inn orda med eit tonefall som er ironisk, spørjande, konstaterande eller irritert. Synteseprogrammet deler orda opp i småbitar og bygger dei opp att til setningar som uttrykker dei responsane modul 3 har generert.

Og igjen spelar maskinlæring ei stor rolle. Det finst system som kan generere språklydar ut frå 24.000 samplingar per sekund, og dei kombinerer menneskeskapte lydar med heilt syntetiske lydar. Nevrale nettverk vel ut dei lydkombinasjonane som passar best, og éi enkel setning frå datamaskina kan vere bygd opp av fleire hundre lydbitar. Det har òg vorte mogleg å syntetisere stemma til enkeltpersonar, som til dømes Barack Obama, og stemma hans kan dermed brukast til å seie kva som helst.

Samtalen med datamaskina vert stadig meir realistisk. Infrastrukturen er på plass, og dei største firmaa, slike som Apple og Amazon, kan utvide løysingane sine til fleire språk. Det er berre eit tidsspørsmål før samtalen er like god på norsk som på engelsk.

Lars Nyre
og Bjørnar Tessem

Nordisk språkteknologi på Voss skulle bli verdsleiande på dette området, men gjekk diverre konkurs.

Emneknaggar

Fleire artiklar

St. Vincent er artistnamnet til Annie Clark.

St. Vincent er artistnamnet til Annie Clark.

Foto: Alex Da Corte

MusikkMeldingar

Ditt første andedrag er eit skrik

På plata All Born Screaming vender St. Vincent tilbake til, og reindyrkar, det som for mange har definert det kunstnarlege uttrykket hennar.

Øyvind Vågnes
St. Vincent er artistnamnet til Annie Clark.

St. Vincent er artistnamnet til Annie Clark.

Foto: Alex Da Corte

MusikkMeldingar

Ditt første andedrag er eit skrik

På plata All Born Screaming vender St. Vincent tilbake til, og reindyrkar, det som for mange har definert det kunstnarlege uttrykket hennar.

Øyvind Vågnes
Det oppstår misvisande biletet av at covid-19 forårsakar Alzheimer, meiner Preben Aavitsland ve FHI.

Det oppstår misvisande biletet av at covid-19 forårsakar Alzheimer, meiner Preben Aavitsland ve FHI.

Foto: Erik Johansen / NTB

Ordskifte
PrebenAavitsland

Meir om seinfølgjer

Den årlege rapporten FHI har publisert, syner at dødeligheita blant personar under 40 år har vore nokså stabil sidan 2015.

Gukesh kan verta den klart yngste verdsmeisteren i historia. Carlsen var nesten fem år eldre då han vann kandidatturneringa og vart verdsmeister i 2013.

Gukesh kan verta den klart yngste verdsmeisteren i historia. Carlsen var nesten fem år eldre då han vann kandidatturneringa og vart verdsmeister i 2013.

Foto: Maria Jemeljanova / Fide

SjakkKunnskap
Atle Grønn

«Sjølv har eg heller aldri sett ein så mogen 17-åring, korkje på eller utanfor sjakkbrettet.»

Line Eldring har leidd utvalet som tilrår at Noreg både bør vidareføre og utvide samarbeidet med EU på nye område framover. Ho la nyleg fram utgreiinga «Norge og EØS: Utviklinger og erfaringer» for utanriksminister Espen Barth Eide.

Line Eldring har leidd utvalet som tilrår at Noreg både bør vidareføre og utvide samarbeidet med EU på nye område framover. Ho la nyleg fram utgreiinga «Norge og EØS: Utviklinger og erfaringer» for utanriksminister Espen Barth Eide.

Foto: Terje Pedersen / NTB

PolitikkSamfunn
Eva Aalberg Undheim

Veksande fjernstyre

Tilknytinga vår til EU veks og veks, både gjennom EØS-avtalen og utanfor, ifølgje ei ny utgreiing. Og det er få som kjenner heilskapen.

Forfattar Karin Haugane arbeider også som omsetjar.

Forfattar Karin Haugane arbeider også som omsetjar.

Foto: Catharina Caprino

BokMeldingar

Draum og traume

Karin Haugane skriv dikt med ein særeigen mytisk og forheksande dåm over seg.

Sindre Ekrheim
Forfattar Karin Haugane arbeider også som omsetjar.

Forfattar Karin Haugane arbeider også som omsetjar.

Foto: Catharina Caprino

BokMeldingar

Draum og traume

Karin Haugane skriv dikt med ein særeigen mytisk og forheksande dåm over seg.

Sindre Ekrheim

les DAG OG TID.
Vil du òg prøve?

Her kan du prøve vekeavisa DAG OG TID gratis i tre veker.
Prøveperioden stoppar av seg sjølv.

Komplett

Papiravisa
Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Digital

Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Komplett

Papiravisa
Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis

Digital

Digital utgåve av papiravisa
Digitale artiklar
Digitalt arkiv
Lydavis