Samtale med datamaskiner
Samtalen med datamaskina vert stadig meir realistisk.
«Siri, kva tid går neste toget til Voss?» Mange snakkar til Siri eller Alexa for å utføre praktiske gjeremål. Vi kan føre ein stadig meir realistisk «samtale» med maskiner og får stadig betre svar. Snart kan du spørje Siri kvifor vossingar er så glade i bygda si, og få eit ganske fornuftig svar.
Når du brukar Siri på mobilen, merkar du knapt den ressurskrevjande databehandlinga som trengst for at du skal få eit relevant svar. Spørsmålet ditt vert nemleg sendt over internett til gigantiske serverar der programma jobbar raskt og smart for å finne ut av ting.
«Samtalen» føreset at fire modular verkar saman som eit system. Den fyrste modulen må klare å kjenne igjen talehandlinga di, deretter må den andre modulen analysere det språklege føremålet med det du sa, den tredje må produsere ein relevant språkleg respons, og til slutt må den fjerde modulen skape ei talehandling som uttalar det prosessane i dei førre modulane kom fram til.
Modul 1 identifiserer talespråk i den lyden som mikrofonen fangar opp, og omset dei til skriftleg tekst, altså talegjenkjenning. Den første generasjonen av slike system blei tatt i bruk på 1990-talet. Systema kjende att ord og setningar på telefonen og kunne setje deg over til ei anna avdeling, bestille flybillettar eller overføre pengar. Då måtte ein i dei fleste tilfelle svare veldig tydeleg på enkle ja- og nei-spørsmål. Nordisk språkteknologi på Voss skulle bli verdsleiande på dette området, men gjekk diverre konkurs.
Det kan vere mykje støy rundt deg når du snakkar. Modul 1 må kunne kjenne att byrjinga og slutten på talestraumen og vere i stand til å handtere avbrot og om nødvendig spørje om informasjon på nytt. Det er vanleg å ha eit startord, slik som «Hey, Google», for at systemet ikkje skal reagere på all slags tale som blir ytra i nærleiken.
Norske dialekter er utfordrande for talegjenkjenninga. Ein ekte vossing seier: «Ka ti gaor da nesta tooje te Voss». Gjenkjenninga fungerer betre jo større database av alt kjende ord programma har frå språket ditt.
Taleflyten vert sampla omtrent 16.000 gonger kvart sekund for å fange opp flest mogleg nyansar i ordval, frasering, tonehøgd og andre forhold som er viktige for å transkribere talen nøyaktig. Modulen gjettar på kva som vart sagt, og gjettinga vert justert med språkmodellar som tek form av nevrale nettverk som er trena på store dømesamlingar.
På engelsk vil til dømes ordet the vanlegvis bli følgt av eit substantiv, slik som i the machine. Det nevrale nettverket kjenner igjen mønster når ein person snakkar, og leverer endelege forslag til setningar. Talegjenkjenning har no ein feilprosent på berre cirka 6 prosent på engelsk.
Modul 2 omformar tekstane til numeriske verdiar som eit analysesystem kan handsame. Modulen representerer språkleg meining ved å kode orda og setningar som mangedimensjonale vektorar. Meininga vert bygd inn i vektoren. Verdien på dei ulike dimensjonane seier kor mykje ei setning er prega av ein viss meiningsdimensjon.
Nevrale nettverk blir trena til å kode ord og setningar i vektorar ved å analysere svært store korpus med transkribert menneskeleg tale. Det er denne trena kunstig intelligens-modellen som finn ut kva ei gitt talehandling betyr. Utviklinga innan maskinlæring har gjort det praktisk gjennomførleg å få datamaskiner til å forstå kva vi seier.
Modul 3 produserer den språklege responsen som datamaskina skal komme med. Den første måten dette vart gjort på, var å utløyse eit svar som var laga på førehand. Viss du spør Siri kva tid neste tog går, vil ho søke i databasen til Vy og respondere med setninga: «Neste tog til Voss går klokka (tid).» Modulen kan òg hente ein passande respons frå ein database og kombinere med ferdige setningar, til dømes: «Håpar du får ein strålande tur!» Ein slik statisk respons kan føre til mange situasjonar der datamaskina gjev absurde svar.
Men maskinlæring har gjort det mogleg for systemet å lage nye setningar heilt sjølv. Eit forskarteam brukte til dømes ein database med 62 millionar dialogar hentar frå spelefilmteksting. Dei utvikla modellar for lingvistiske stilar ut frå kva ein person i filmen typisk seier når nokon snakkar til han, og desse stilane kunne brukast til å generere responsar for taleassistentar. Slik teknologi vil etter kvart kunne svare meiningsfullt på spørsmålet om kvifor vossingar er så glade i bygda si.
Modul 4 ytrar den språklege responsen som den førre modulen laga. Det fanst system for å lage syntetisk tale alt på 1970-talet. Dei nyaste systema brukar ein kombinasjon av menneskestemmer og digitalt produserte lydar.
For at programmet skal kunne ytre setningar med passande trykk og tonefall, blir skodespelarar hyrte inn til å uttale ord i mange variasjonar. Dei les inn orda med eit tonefall som er ironisk, spørjande, konstaterande eller irritert. Synteseprogrammet deler orda opp i småbitar og bygger dei opp att til setningar som uttrykker dei responsane modul 3 har generert.
Og igjen spelar maskinlæring ei stor rolle. Det finst system som kan generere språklydar ut frå 24.000 samplingar per sekund, og dei kombinerer menneskeskapte lydar med heilt syntetiske lydar. Nevrale nettverk vel ut dei lydkombinasjonane som passar best, og éi enkel setning frå datamaskina kan vere bygd opp av fleire hundre lydbitar. Det har òg vorte mogleg å syntetisere stemma til enkeltpersonar, som til dømes Barack Obama, og stemma hans kan dermed brukast til å seie kva som helst.
Samtalen med datamaskina vert stadig meir realistisk. Infrastrukturen er på plass, og dei største firmaa, slike som Apple og Amazon, kan utvide løysingane sine til fleire språk. Det er berre eit tidsspørsmål før samtalen er like god på norsk som på engelsk.
Lars Nyre
og Bjørnar Tessem
Er du abonnent? Logg på her for å lese vidare.
Digital tilgang til DAG OG TID – heilt utan binding
Prøv ein månad for kr 49.
Deretter kr 199 per månad. Stopp når du vil.
«Siri, kva tid går neste toget til Voss?» Mange snakkar til Siri eller Alexa for å utføre praktiske gjeremål. Vi kan føre ein stadig meir realistisk «samtale» med maskiner og får stadig betre svar. Snart kan du spørje Siri kvifor vossingar er så glade i bygda si, og få eit ganske fornuftig svar.
Når du brukar Siri på mobilen, merkar du knapt den ressurskrevjande databehandlinga som trengst for at du skal få eit relevant svar. Spørsmålet ditt vert nemleg sendt over internett til gigantiske serverar der programma jobbar raskt og smart for å finne ut av ting.
«Samtalen» føreset at fire modular verkar saman som eit system. Den fyrste modulen må klare å kjenne igjen talehandlinga di, deretter må den andre modulen analysere det språklege føremålet med det du sa, den tredje må produsere ein relevant språkleg respons, og til slutt må den fjerde modulen skape ei talehandling som uttalar det prosessane i dei førre modulane kom fram til.
Modul 1 identifiserer talespråk i den lyden som mikrofonen fangar opp, og omset dei til skriftleg tekst, altså talegjenkjenning. Den første generasjonen av slike system blei tatt i bruk på 1990-talet. Systema kjende att ord og setningar på telefonen og kunne setje deg over til ei anna avdeling, bestille flybillettar eller overføre pengar. Då måtte ein i dei fleste tilfelle svare veldig tydeleg på enkle ja- og nei-spørsmål. Nordisk språkteknologi på Voss skulle bli verdsleiande på dette området, men gjekk diverre konkurs.
Det kan vere mykje støy rundt deg når du snakkar. Modul 1 må kunne kjenne att byrjinga og slutten på talestraumen og vere i stand til å handtere avbrot og om nødvendig spørje om informasjon på nytt. Det er vanleg å ha eit startord, slik som «Hey, Google», for at systemet ikkje skal reagere på all slags tale som blir ytra i nærleiken.
Norske dialekter er utfordrande for talegjenkjenninga. Ein ekte vossing seier: «Ka ti gaor da nesta tooje te Voss». Gjenkjenninga fungerer betre jo større database av alt kjende ord programma har frå språket ditt.
Taleflyten vert sampla omtrent 16.000 gonger kvart sekund for å fange opp flest mogleg nyansar i ordval, frasering, tonehøgd og andre forhold som er viktige for å transkribere talen nøyaktig. Modulen gjettar på kva som vart sagt, og gjettinga vert justert med språkmodellar som tek form av nevrale nettverk som er trena på store dømesamlingar.
På engelsk vil til dømes ordet the vanlegvis bli følgt av eit substantiv, slik som i the machine. Det nevrale nettverket kjenner igjen mønster når ein person snakkar, og leverer endelege forslag til setningar. Talegjenkjenning har no ein feilprosent på berre cirka 6 prosent på engelsk.
Modul 2 omformar tekstane til numeriske verdiar som eit analysesystem kan handsame. Modulen representerer språkleg meining ved å kode orda og setningar som mangedimensjonale vektorar. Meininga vert bygd inn i vektoren. Verdien på dei ulike dimensjonane seier kor mykje ei setning er prega av ein viss meiningsdimensjon.
Nevrale nettverk blir trena til å kode ord og setningar i vektorar ved å analysere svært store korpus med transkribert menneskeleg tale. Det er denne trena kunstig intelligens-modellen som finn ut kva ei gitt talehandling betyr. Utviklinga innan maskinlæring har gjort det praktisk gjennomførleg å få datamaskiner til å forstå kva vi seier.
Modul 3 produserer den språklege responsen som datamaskina skal komme med. Den første måten dette vart gjort på, var å utløyse eit svar som var laga på førehand. Viss du spør Siri kva tid neste tog går, vil ho søke i databasen til Vy og respondere med setninga: «Neste tog til Voss går klokka (tid).» Modulen kan òg hente ein passande respons frå ein database og kombinere med ferdige setningar, til dømes: «Håpar du får ein strålande tur!» Ein slik statisk respons kan føre til mange situasjonar der datamaskina gjev absurde svar.
Men maskinlæring har gjort det mogleg for systemet å lage nye setningar heilt sjølv. Eit forskarteam brukte til dømes ein database med 62 millionar dialogar hentar frå spelefilmteksting. Dei utvikla modellar for lingvistiske stilar ut frå kva ein person i filmen typisk seier når nokon snakkar til han, og desse stilane kunne brukast til å generere responsar for taleassistentar. Slik teknologi vil etter kvart kunne svare meiningsfullt på spørsmålet om kvifor vossingar er så glade i bygda si.
Modul 4 ytrar den språklege responsen som den førre modulen laga. Det fanst system for å lage syntetisk tale alt på 1970-talet. Dei nyaste systema brukar ein kombinasjon av menneskestemmer og digitalt produserte lydar.
For at programmet skal kunne ytre setningar med passande trykk og tonefall, blir skodespelarar hyrte inn til å uttale ord i mange variasjonar. Dei les inn orda med eit tonefall som er ironisk, spørjande, konstaterande eller irritert. Synteseprogrammet deler orda opp i småbitar og bygger dei opp att til setningar som uttrykker dei responsane modul 3 har generert.
Og igjen spelar maskinlæring ei stor rolle. Det finst system som kan generere språklydar ut frå 24.000 samplingar per sekund, og dei kombinerer menneskeskapte lydar med heilt syntetiske lydar. Nevrale nettverk vel ut dei lydkombinasjonane som passar best, og éi enkel setning frå datamaskina kan vere bygd opp av fleire hundre lydbitar. Det har òg vorte mogleg å syntetisere stemma til enkeltpersonar, som til dømes Barack Obama, og stemma hans kan dermed brukast til å seie kva som helst.
Samtalen med datamaskina vert stadig meir realistisk. Infrastrukturen er på plass, og dei største firmaa, slike som Apple og Amazon, kan utvide løysingane sine til fleire språk. Det er berre eit tidsspørsmål før samtalen er like god på norsk som på engelsk.
Lars Nyre
og Bjørnar Tessem
Nordisk språkteknologi på Voss skulle bli verdsleiande på dette området, men gjekk diverre konkurs.
Fleire artiklar
Foto: NTB
«Arne Paasche Aasen var ein av dei mest produktive poetane i Noreg.»
Denne havsvala har fått ring kring beinet og skal snart flyge av garde. Mykje står att å lære om arten, som særleg sjømenn har møtt inntil nyleg.
Foto: Lars Tore Mubalegh-Håvardsholm
Julefuglen i augustnatta
Havsvala tel blant dei minste sjøfuglane i verda. Ho er omtrent stor som ein sporv, men kan leve lenger enn tretti år.
Angela Merkel vart forbundskanslar i 2005.
Foto: Michael Sohn / AP / NTB
Angela Merkel har mykje å læra oss om korleis politikk vert hamra ut – med fornuft.
Finansminister og leiar for Senterpartiet Trygve Slagsvold Vedum på landsstyremøtet i år. Partiet har falle kraftig på dei nyaste meiningsmålingane.
Foto: Thomas Fure / NTB
– Populisme er ikkje noko å vere redd for
Trass i dårlege meiningsmålingar har statssekretær Skjalg Fjellheim trua på at Senterpartiet har den beste politikken for Noreg.
Ein mann trakkar på ein plakat av Bashar al-Assad i Damaskus.
Foto: Amr Abdallah Dalsh / Reuters / NTB
Uviss lagnad for Syria
Det store spørsmålet no er kva som vil skje framover i Syria, etter at opposisjonen overraskande fort tok over heile det regimekontrollerte Syria nesten utan militær motstand.