Google: Oversæt AI oversatte takket være selv-lært sprog

Google oversat til alle sprog i AI

Sandelig flersproget: Den nye algoritme af Google Translate selv accepterer input optegnelser, der går halvvejs sprog.

Google Translate oversat straks med et enkelt neuralt netværk for hver af de 103 understøttede sprog i nogen anden - selv om det ikke kunne lære med prøven sætninger til et sprog par. Oversættelser i sjældne sprog gavn.

Google har sine oversættelsestjenester Oversæt konverteret til en enkelt neuralt netværk, der styrer alle 103 sprog. Således ikke længere har hver deres egen neuralt netværk tager sig af et par kilde- og målsprog. Med det flersprogede Oversæt, Google gemmer at fastholde indsatsen af ​​tusindvis af oversættelsessystemer for individuelle sprogpar, og samtidig forbedre kvaliteten af ​​oversættelser til sprogpar, som Google har færre træningsdata.

I et blogindlæg fortæller Google, at systemet selv oversat fornuft mellem sprog, der eksisterede ingen uddannelse eksempler på den direkte oversættelse. Systemet blev trænet med eksempler mellem engelsk og japansk og engelsk og koreansk, det var at oversætte så også i stand mellem japansk og koreansk. Google har mistanke derfor, at hendes oversættelse systemet internt lærte et universelt sprog.

Teknologien bag Google Translate

Google Translate består af tre indbyrdes forbundne arbejder neurale netværk. Et tilbagevendende neurale netværk med otte lag LSTM neuroner (Lang korttidshukommelse) læser de dele af oplysningerne ordet. Det første lag læser sættet både for til bag og fra bagsiden til forsiden. LSTMs kan lagre oplysninger, som de har mødt i tidligere registreringer. Således ord dele første lags fortolke mening, betydningen er påvirket af andre dele af ord i sætningen. Fra lag to, dekoderen netværket fungerer da kun fra front til bag.

LSTMs med mere end fire lag normalt ikke træne effektivt placeret. Google springer derfor tilføjes nogen lag med en ekstra resterende forbindelse for at aktivere input til udgangene. Dette trick er Microsoft lykkedes en meget dyb at træne convolutional neurale netværk og dermed til at vinde den sidste IMAGEnet Konkurrencen om billedgenkendelse.

Udgangssignalet fra dekoderen er en række multi-dimensionale vektorer med en fast bredde. Disse repræsenterer "ord" i den formodede Google universelle sprog. Hertil kommer, de tjener som input til encoderen netværk, som også består af otte LSTM lag. Den stadig får yderligere vejledning fra et lille netværk af normale neuroner med kun tre lag. Den lille netværk bruges til at henlede opmærksomheden på dekoderen til vigtige dele af sætningen.

Når der anvendes en dekoder stråle søgealgoritme til at finde en sætning på målsproget, der svarer så tæt som muligt på de input, men også oversætter alle de ord, du skriver. For at vurdere resultaterne under træning, Google bruger en fitness-funktion, der er baseret på UEBL algoritme. detaljer "Googles Neural maskinoversættelsessystem" forklarer den tilhørende papir.

Nul-Shot Oversættelse

De vektorer i det neurale netværk i grænsefladen mellem dekoder og encoder er tæt på hinanden på forskellige sprog på de samme meningsløse sætninger. Vektorerne i det neurale netværk ved grænsefladen mellem dekodere og kodere er tæt sammen på forskellige sprog i de samme meningsløse sætninger.(Billede: Google)

I et andet dokument forklarer Googles forskergruppe (PDF), hvorfor netværket sandsynligvis lære et universelt sprog. Forskerne transformerede vektorer ved grænsefladen mellem dekoderen og koderen med T-SNE algoritme i tredimensionalt rum. Her kom ud for sættene fra forskellige kildesprog punkter, der var tæt på hinanden. Oversat netværket mellem et sprog par, som der ikke var nogen eksempler i træningsdata, vektorerne var også tæt på satserne for andre sprog.

Ganske universelt den mellemliggende repræsentation synes ikke at være, da Google integrerer målsproget som en særlig del af ord i input-data. Men selv hvis Google endnu ikke har fundet den hellige gral af lingvistik, viser den Translate AI, at det koder betydningen af ​​sætninger til en vis grad. Så AI er det naturligt sprog forståelse tættere på et stort skridt.

Mere om neurale netværk:

(JME)