Samtale med datamaskiner
Samtalen med datamaskina vert stadig meir realistisk.
«Siri, kva tid går neste toget til Voss?» Mange snakkar til Siri eller Alexa for å utføre praktiske gjeremål. Vi kan føre ein stadig meir realistisk «samtale» med maskiner og får stadig betre svar. Snart kan du spørje Siri kvifor vossingar er så glade i bygda si, og få eit ganske fornuftig svar.
Når du brukar Siri på mobilen, merkar du knapt den ressurskrevjande databehandlinga som trengst for at du skal få eit relevant svar. Spørsmålet ditt vert nemleg sendt over internett til gigantiske serverar der programma jobbar raskt og smart for å finne ut av ting.
«Samtalen» føreset at fire modular verkar saman som eit system. Den fyrste modulen må klare å kjenne igjen talehandlinga di, deretter må den andre modulen analysere det språklege føremålet med det du sa, den tredje må produsere ein relevant språkleg respons, og til slutt må den fjerde modulen skape ei talehandling som uttalar det prosessane i dei førre modulane kom fram til.
Modul 1 identifiserer talespråk i den lyden som mikrofonen fangar opp, og omset dei til skriftleg tekst, altså talegjenkjenning. Den første generasjonen av slike system blei tatt i bruk på 1990-talet. Systema kjende att ord og setningar på telefonen og kunne setje deg over til ei anna avdeling, bestille flybillettar eller overføre pengar. Då måtte ein i dei fleste tilfelle svare veldig tydeleg på enkle ja- og nei-spørsmål. Nordisk språkteknologi på Voss skulle bli verdsleiande på dette området, men gjekk diverre konkurs.
Det kan vere mykje støy rundt deg når du snakkar. Modul 1 må kunne kjenne att byrjinga og slutten på talestraumen og vere i stand til å handtere avbrot og om nødvendig spørje om informasjon på nytt. Det er vanleg å ha eit startord, slik som «Hey, Google», for at systemet ikkje skal reagere på all slags tale som blir ytra i nærleiken.
Norske dialekter er utfordrande for talegjenkjenninga. Ein ekte vossing seier: «Ka ti gaor da nesta tooje te Voss». Gjenkjenninga fungerer betre jo større database av alt kjende ord programma har frå språket ditt.
Taleflyten vert sampla omtrent 16.000 gonger kvart sekund for å fange opp flest mogleg nyansar i ordval, frasering, tonehøgd og andre forhold som er viktige for å transkribere talen nøyaktig. Modulen gjettar på kva som vart sagt, og gjettinga vert justert med språkmodellar som tek form av nevrale nettverk som er trena på store dømesamlingar.
På engelsk vil til dømes ordet the vanlegvis bli følgt av eit substantiv, slik som i the machine. Det nevrale nettverket kjenner igjen mønster når ein person snakkar, og leverer endelege forslag til setningar. Talegjenkjenning har no ein feilprosent på berre cirka 6 prosent på engelsk.
Modul 2 omformar tekstane til numeriske verdiar som eit analysesystem kan handsame. Modulen representerer språkleg meining ved å kode orda og setningar som mangedimensjonale vektorar. Meininga vert bygd inn i vektoren. Verdien på dei ulike dimensjonane seier kor mykje ei setning er prega av ein viss meiningsdimensjon.
Nevrale nettverk blir trena til å kode ord og setningar i vektorar ved å analysere svært store korpus med transkribert menneskeleg tale. Det er denne trena kunstig intelligens-modellen som finn ut kva ei gitt talehandling betyr. Utviklinga innan maskinlæring har gjort det praktisk gjennomførleg å få datamaskiner til å forstå kva vi seier.
Modul 3 produserer den språklege responsen som datamaskina skal komme med. Den første måten dette vart gjort på, var å utløyse eit svar som var laga på førehand. Viss du spør Siri kva tid neste tog går, vil ho søke i databasen til Vy og respondere med setninga: «Neste tog til Voss går klokka (tid).» Modulen kan òg hente ein passande respons frå ein database og kombinere med ferdige setningar, til dømes: «Håpar du får ein strålande tur!» Ein slik statisk respons kan føre til mange situasjonar der datamaskina gjev absurde svar.
Men maskinlæring har gjort det mogleg for systemet å lage nye setningar heilt sjølv. Eit forskarteam brukte til dømes ein database med 62 millionar dialogar hentar frå spelefilmteksting. Dei utvikla modellar for lingvistiske stilar ut frå kva ein person i filmen typisk seier når nokon snakkar til han, og desse stilane kunne brukast til å generere responsar for taleassistentar. Slik teknologi vil etter kvart kunne svare meiningsfullt på spørsmålet om kvifor vossingar er så glade i bygda si.
Modul 4 ytrar den språklege responsen som den førre modulen laga. Det fanst system for å lage syntetisk tale alt på 1970-talet. Dei nyaste systema brukar ein kombinasjon av menneskestemmer og digitalt produserte lydar.
For at programmet skal kunne ytre setningar med passande trykk og tonefall, blir skodespelarar hyrte inn til å uttale ord i mange variasjonar. Dei les inn orda med eit tonefall som er ironisk, spørjande, konstaterande eller irritert. Synteseprogrammet deler orda opp i småbitar og bygger dei opp att til setningar som uttrykker dei responsane modul 3 har generert.
Og igjen spelar maskinlæring ei stor rolle. Det finst system som kan generere språklydar ut frå 24.000 samplingar per sekund, og dei kombinerer menneskeskapte lydar med heilt syntetiske lydar. Nevrale nettverk vel ut dei lydkombinasjonane som passar best, og éi enkel setning frå datamaskina kan vere bygd opp av fleire hundre lydbitar. Det har òg vorte mogleg å syntetisere stemma til enkeltpersonar, som til dømes Barack Obama, og stemma hans kan dermed brukast til å seie kva som helst.
Samtalen med datamaskina vert stadig meir realistisk. Infrastrukturen er på plass, og dei største firmaa, slike som Apple og Amazon, kan utvide løysingane sine til fleire språk. Det er berre eit tidsspørsmål før samtalen er like god på norsk som på engelsk.
Lars Nyre
og Bjørnar Tessem
Er du abonnent? Logg på her for å lese vidare.
Digital tilgang til DAG OG TID – heilt utan binding
Prøv ein månad for kr 49.
Deretter kr 199 per månad. Stopp når du vil.
«Siri, kva tid går neste toget til Voss?» Mange snakkar til Siri eller Alexa for å utføre praktiske gjeremål. Vi kan føre ein stadig meir realistisk «samtale» med maskiner og får stadig betre svar. Snart kan du spørje Siri kvifor vossingar er så glade i bygda si, og få eit ganske fornuftig svar.
Når du brukar Siri på mobilen, merkar du knapt den ressurskrevjande databehandlinga som trengst for at du skal få eit relevant svar. Spørsmålet ditt vert nemleg sendt over internett til gigantiske serverar der programma jobbar raskt og smart for å finne ut av ting.
«Samtalen» føreset at fire modular verkar saman som eit system. Den fyrste modulen må klare å kjenne igjen talehandlinga di, deretter må den andre modulen analysere det språklege føremålet med det du sa, den tredje må produsere ein relevant språkleg respons, og til slutt må den fjerde modulen skape ei talehandling som uttalar det prosessane i dei førre modulane kom fram til.
Modul 1 identifiserer talespråk i den lyden som mikrofonen fangar opp, og omset dei til skriftleg tekst, altså talegjenkjenning. Den første generasjonen av slike system blei tatt i bruk på 1990-talet. Systema kjende att ord og setningar på telefonen og kunne setje deg over til ei anna avdeling, bestille flybillettar eller overføre pengar. Då måtte ein i dei fleste tilfelle svare veldig tydeleg på enkle ja- og nei-spørsmål. Nordisk språkteknologi på Voss skulle bli verdsleiande på dette området, men gjekk diverre konkurs.
Det kan vere mykje støy rundt deg når du snakkar. Modul 1 må kunne kjenne att byrjinga og slutten på talestraumen og vere i stand til å handtere avbrot og om nødvendig spørje om informasjon på nytt. Det er vanleg å ha eit startord, slik som «Hey, Google», for at systemet ikkje skal reagere på all slags tale som blir ytra i nærleiken.
Norske dialekter er utfordrande for talegjenkjenninga. Ein ekte vossing seier: «Ka ti gaor da nesta tooje te Voss». Gjenkjenninga fungerer betre jo større database av alt kjende ord programma har frå språket ditt.
Taleflyten vert sampla omtrent 16.000 gonger kvart sekund for å fange opp flest mogleg nyansar i ordval, frasering, tonehøgd og andre forhold som er viktige for å transkribere talen nøyaktig. Modulen gjettar på kva som vart sagt, og gjettinga vert justert med språkmodellar som tek form av nevrale nettverk som er trena på store dømesamlingar.
På engelsk vil til dømes ordet the vanlegvis bli følgt av eit substantiv, slik som i the machine. Det nevrale nettverket kjenner igjen mønster når ein person snakkar, og leverer endelege forslag til setningar. Talegjenkjenning har no ein feilprosent på berre cirka 6 prosent på engelsk.
Modul 2 omformar tekstane til numeriske verdiar som eit analysesystem kan handsame. Modulen representerer språkleg meining ved å kode orda og setningar som mangedimensjonale vektorar. Meininga vert bygd inn i vektoren. Verdien på dei ulike dimensjonane seier kor mykje ei setning er prega av ein viss meiningsdimensjon.
Nevrale nettverk blir trena til å kode ord og setningar i vektorar ved å analysere svært store korpus med transkribert menneskeleg tale. Det er denne trena kunstig intelligens-modellen som finn ut kva ei gitt talehandling betyr. Utviklinga innan maskinlæring har gjort det praktisk gjennomførleg å få datamaskiner til å forstå kva vi seier.
Modul 3 produserer den språklege responsen som datamaskina skal komme med. Den første måten dette vart gjort på, var å utløyse eit svar som var laga på førehand. Viss du spør Siri kva tid neste tog går, vil ho søke i databasen til Vy og respondere med setninga: «Neste tog til Voss går klokka (tid).» Modulen kan òg hente ein passande respons frå ein database og kombinere med ferdige setningar, til dømes: «Håpar du får ein strålande tur!» Ein slik statisk respons kan føre til mange situasjonar der datamaskina gjev absurde svar.
Men maskinlæring har gjort det mogleg for systemet å lage nye setningar heilt sjølv. Eit forskarteam brukte til dømes ein database med 62 millionar dialogar hentar frå spelefilmteksting. Dei utvikla modellar for lingvistiske stilar ut frå kva ein person i filmen typisk seier når nokon snakkar til han, og desse stilane kunne brukast til å generere responsar for taleassistentar. Slik teknologi vil etter kvart kunne svare meiningsfullt på spørsmålet om kvifor vossingar er så glade i bygda si.
Modul 4 ytrar den språklege responsen som den førre modulen laga. Det fanst system for å lage syntetisk tale alt på 1970-talet. Dei nyaste systema brukar ein kombinasjon av menneskestemmer og digitalt produserte lydar.
For at programmet skal kunne ytre setningar med passande trykk og tonefall, blir skodespelarar hyrte inn til å uttale ord i mange variasjonar. Dei les inn orda med eit tonefall som er ironisk, spørjande, konstaterande eller irritert. Synteseprogrammet deler orda opp i småbitar og bygger dei opp att til setningar som uttrykker dei responsane modul 3 har generert.
Og igjen spelar maskinlæring ei stor rolle. Det finst system som kan generere språklydar ut frå 24.000 samplingar per sekund, og dei kombinerer menneskeskapte lydar med heilt syntetiske lydar. Nevrale nettverk vel ut dei lydkombinasjonane som passar best, og éi enkel setning frå datamaskina kan vere bygd opp av fleire hundre lydbitar. Det har òg vorte mogleg å syntetisere stemma til enkeltpersonar, som til dømes Barack Obama, og stemma hans kan dermed brukast til å seie kva som helst.
Samtalen med datamaskina vert stadig meir realistisk. Infrastrukturen er på plass, og dei største firmaa, slike som Apple og Amazon, kan utvide løysingane sine til fleire språk. Det er berre eit tidsspørsmål før samtalen er like god på norsk som på engelsk.
Lars Nyre
og Bjørnar Tessem
Nordisk språkteknologi på Voss skulle bli verdsleiande på dette området, men gjekk diverre konkurs.
Fleire artiklar
Mmm, nam-nam? Tja, om scobyen ser litt rar ut, så vert den fermenterte tedrikken sett pris på av menneske verda over.
Foto via Wikimedia Commons
Fermentert te breier seg i butikkhyllene – til solide prisar.
Foto via Wikimedia Commons
«Hulda Garborg er ein av dei store, gløymde forfattarskapane i Noreg.»
Fuktmålaren syner at veggen er knuskturr. Er det truverdig?
Foto: Per Thorvaldsen
«Frykta er ein god læremeister. Eg sit no og les Byggforsk-artiklar om fukt for harde livet.»
Wako er Kjetil Mulelid, Simon Olderskog Albertsen, Bárdur Reinert Poulsen og Martin Myhre Olsen.
Foto: Eirik Havnes
Sprudlande samspel
Wako serverer ei heilakustisk jazzplate.
Sitrusmarinert kamskjel med estragon, lime og olivenolje.
Alle foto: Dagfinn Nordbø