Hvordan virker SMITH og BERT?
Både SMITH og BERT er bygget op omkring brugen af Transformer, en opmærksomhedsmekanisme, der lærer kontekstuelle forhold mellem ord (eller sekundære ord) i en tekst. I sin grund form, inkluderer Transformer modellen to separate mekanismer - en indkoder, der læser tekstinput og en dekoder, der producerer en forudsigelse for opgaven. Da BERT og SMITHs mål er at generere en sprogmodel, er kun kodningsmekanismen nødvendig. Disse mekanismer bygger på entities og flere underliggende NLP modeller herunder MLM (Masked language model), (S)NLI (Natural Language Infernce), NER (Named Entity Recognition) og SQuAD (Stanford Question Answering Dataset), så for at forstå, hvordan både SMITH og BERT virker, er man nødt til at forstå, hvad Entities og disse NLP-modeller er, hvilket jeg vil forklare i det efterfølgende, efter vi lige har kikket på hvordan BERT og SMITH hver især fungere.
Hvordan virker BERT?
BERT er den bedste aktuelle NLP-model til forståelse af komplekse sprogstrukturer.
Den største forskel på BERT og andre NLP-modeller var efter min mening i det første ord i algoritmens navne Bidirectional.
Det dækker over at BERT, I stedet for blot at "læse" fra venstre mod højre og kun forstå tekstens sammenhæng i dén retning. I modsætning til andre tidligere NLP-modeller, kan BERT også forstå sprog sammenhænge, der går fra højre mod venstre. Noget som vi mennesker helt naturligt gør, når vi læser tekst.
Et simpelt eksempel på dette, kan være at forstå denne sætning:
Cyklen har en lygte med lys.
Hvis man kun forstår teksten fra venstre mod højre, vil man kunne forstå at cyklen har en lygte, men hvis, man ønsker at klassificere ting på cyklen, vil lygte ikke blive medtaget, fordi den ikke står før ”cyklen” i teksten.
Derudover er selve BERTs opbygning bemærkelsesværdig og giver mulighed for effektiv behandling af sprog med lavere ressourceomkostninger end tidligere modeller, hvilket naturligvis er ekstremt vigtig, når den skal anvendes på alt indhold på internettet.
Et andet kvantespring med BERT, er dens anvendelse af tokens.
BERT har en kapacitet 30.000 tokens, som hver kan repræsentere et almindeligt ord med lidt ekstra plads til fragmenter og tegn, hvis et ord ikke er almindeligt og falder uden for de 30.000 tokens.
Dog bruger BERT max. 256 tokens pr. dokument. Derefter bliver beregningsomkostningerne for høje til, at modellen kan fungere.
Denne struktur med brug af bidirectional, tokenbehandling og transformere gør, at BERT er i stand til at forstå indhold på et langt højre niveau end tidligere NLP-modeller. Herunder er nogle eksempler fra Google selv, som viser nogle søgeresultater før BERT og efter BERT, hvor man netop kan se, at den langt bedre forstår sammenhængen både fra venstre mod højre og omvendt samt, at den også forstår vigtigheden af selv små biord som ”ikke” og ”fra”.
BERT er den bedste aktuelle NLP-model, til forståelse af komplekse sprogstrukturer.
Hvordan virker SMITH?
SMITH bygger på den samme NLP-model som BERT, der er dog nogle særlige forskelle på de to hvor BERT som tidligere nævnt har en max på 265 tokens pr. dokument så er SMITHs max på 2,248 tokens. Dokumentet kan derfor være 8x større.
Hvor BERT arbejder med sætninger, arbejder SMITH med hele afsnit, hvilket gør at SMITH er langt bedre til at forstå sammenhænge imellem forskellige passager, som er placeret langt fra hinanden, selv i lange dokumenter og på tværs af forskellige sider/URL’er, som BERT ikke er i stand til.
Samtidig kan SMITH grundet sin siamesiske tvilling struktur, arbejde på 2 dokumenter simultant, og holde de enkelte dele af disse op imod hinanden. Hvor BERT kørte én tekst ad gangen og giver den en score. De ændringer gør, at SMITH igen langt bedre kan forstå sammenhænge i selv meget lange tekster, og i indhold om samme emne, men som er fordelt på flere sider, en såkaldt content eller topic cluster, og på dansk vil man nok kalde det en indholdsklynge.
Det betyder, at den måde indholdet på et website er organiseret, og ikke mindst hvordan den interne navigation imellem dem, aldrig har været vigtigere.
Det fremgår også af research rapporten, at antallet og destinationen af de eksterne links, som der er på en side, indgår i relevansberegningen af den pågældende side og sidens indhold. Beregnet ud fra en jaccard lighed, altså hvor lig er de links og kilder der linkes til, på baseline siden og test siden.
For at forstå mere at hvordan SMITH og BERT virker er man nød til at forstå hvad entities er. Det skal vi derfor kikke ind i nu
Hvad er Entities?
Entities er enheder på dansk, og Googles egen definition er: "En ting eller et koncept, der er entydigt, unikt, veldefineret, og som kan skelnes fra andet." Denne definition er meget bred, hvilket nemt kan fører til endnu større forvirring.
Så for at præsidere det, vil jeg her dele min definition af hvad entities er: Dybest set er en entity i forhold til NLP og dermed SEO, en unik definerbar ting eller begreb, som ikke er begrænset til en bestemt form, stavning, bøjning eller udtryk. F.eks. Mayo (ord der beskriver en entity), Mayonnaise (andet ord som beskriver samme entity), den fysiske substans som udgør mayonnaise, eller billeder af mayonnaise i bøtte, tube, skål eller andet er alle sammen en beskrivelse af den samme entity.
Så med NLP er Google, og dermed også SEO, gået fra kun at handle om keywords (en simple tekst streng) til entities (et mere komplekset begreb)./p>
For at forstå NLP, er man først nødt til at forstå, hvad NLP bygger på, og det føre os hen til LSI (Latent Semantic Indexing) /LSA (Latent Semantic analyse), som er en af de første NLP-modeller.
Hvad er LSI (latent semantisk indeksering)?
LSI er en proces, en model for Natural Language Processing (NLP). NLP er en delmængde af lingvistik og informationsteknologi med fokus på, hvordan maskiner fortolker menneskers sprog. En vigtig del af denne undersøgelse er distributionssemantik. Denne model hjælper os med at forstå og klassificere ord med lignende kontekstuelle betydninger, inden for store datasæt.
LSI blev udviklet i 1980'erne og bruger en matematisk metode, der gør informationshentning mere præcis. LSI modellen fungerer ved, at identificere de skjulte kontekstuelle forhold mellem ord. Det kan hjælpe dig at nedbryde det sådan:
Latent → Skjult
Semantisk → Forholdet mellem ord
Indeksering → Indhentning af information
Kort sagt LSI modellens formål er at finde ud af, hvor vigtige enkelte ord er i forhold til hinanden kontekstuelt.
En anden NLP-model, som også er fra NLPs ungdom, er TF-IDF (term frekvens-invers dokumentfrekvens).
Hvad er TD-IDF?
TF-IDF er et statistisk mål, der vurderer, hvor relevant et ord er, for et dokument i en samling af dokumenter. Dette gøres ved at multiplicere to metrics: hvor mange gange et ord vises i et dokument, og den omvendte dokumentfrekvens for ordet, over et sæt dokumenter.
TD-IDF blev opfundet til dokumentsøgning og informationssøgning. Det fungerer ved at øge proportionalt med antallet af gange et ord vises i et dokument, men modregnes i antallet af dokumenter, der indeholder ordet. Så ord, der er almindelige i hvert dokument, som dette, hvad og hvis, rangerer lavt, selvom de kan forekomme mange gange, da de ikke betyder meget for det pågældende dokument især.
Det har mange anvendelser, vigtigst af alt i automatiseret tekstanalyse, og er meget nyttigt til at score ord i maschine-learning algoritmer, til netop Natural Language Processing (NLP).
Men hvis "ordet" Keyword ranking vises mange gange i et dokument, mens det ikke vises mange gange i andre, betyder det sandsynligvis, at det er et meget relevant ord. For eksempel, hvis ordet SEO, hvilke emner vi ønskede at finde ud af, hvilket emne ordet Keyword ranking er tæt relateret til ville der være en hvis sandsynlighed for at artiklen ville blive bundet til emnet SEO, da de fleste dokumenter, der indeholder ordet Keyword ranking, ville handle om SEO.
Hvorfor er LSI og TD-IDF vigtige?
Der har i flere år været en diskussion i SEO kredse om, hvorvidt Google brugte især LSI, og hvis man kunne finde mønsteret og de vigtigste LSI keywords, ville man kunne lave tekster, som Google ville fortrække. Det har Google dog ved flere lejligheder afvist, at de bruger LSI keywords, og Googles Webmaster Trends til. Analyst John Mueller har endda kaldt dem en myte. Men det må siges, at være et af de røgslør, som Google relativt ofte sender ud for at sikre, at SEO’er ikke udnyttet de specifikke måder deres algoritmer virker på, til at ranke. Men det at de ikke bruger LSI keywords, er en sandhed med modifikationer. Hvad mener jeg så med det? Jeg mener, at jeg godt kan sige, at jeg er 100% sikker på, at Google ikke bruger LSI, kort sagt de bruger IKKE den snart 40 år gamle model, men nyere modeller, som bygger på samme grund princip som LSI. Så når Google siger, at de ikke bruger LSI, er det korrekt, de ”glemmer” bare at sige, at de bruger nogle andre tilsvarende modeller. F.eks. kom der i 2016 en research rapport ud fra netop Googles eget AI research om netop brugen af modeller som LSI i NLP. Det føre os frem til MLM.
Hvad er MLM (Masked language model)?
MLM er en fill-in-the-blank opgave model. Det er en model som bruger kontekstordene omkring en mask token for at forsøge at forudsige, hvad det maskerede ord skal være. For et input, der indeholder et eller flere mask-tokens, genererer modellen den mest sandsynlige erstatning for hver.
Kort sagt modellen tager en input tekst streng som f.eks. denne:
Jeg har læst [MASK] og den var rigtigt god
Og ud fra hvad modellen tidligere har lært, gættet den så på hvad for et ord [MASK] mest sandsynligt er.
Så outputtet vil f.eks kunne se sådan her ud:
Jeg har læst bogen og den var rigtigt god
Jo mere tekst MLM bliver udsat for jo mere præcise bliver dens forudsigelser, kort sagt MLM er super god til at finde kontekstuelle forhold mellem ord. Præcis det samme som den gamle LSI model prøvet. MLM er bare meget mere avanceret og mere præcis.
Hvad er (S)NLI (Natural Language Infernce)?
Nu sidder du nok og undre dig over hvad (s)’er i akronymet står for og det er som ment blot den organisation der står bag denne NLP model og her er der tale om Stanford universitetet.
Naturlig sproginferens er opgaven med at bestemme, om en "hypotese" er sand (entailment), falsk (modsigelse) eller ubestemt (neutral) givet en "forudsætning".
Hypotese kunne f.eks. være:
Forudsætning: En mand inspicerer uniformen til en figur i et land i Østasien.
Værdi: Modsigelse.
Hypotese: Manden sover.
Forudsætning: En ældre og yngre mand smiler.
Værdi: Neutral.
Hypotese: To mænd smiler og ler af kattene, der leger på gulvet.
Forudsætning: En fodboldkamp med flere mænd, der spiller.
Værdi: Entailment.
Hypotese: Nogle mænd spiller et boldspil.
(s)NLI Datasættet indeholder ca. 550k hypoteser / forudsætningspar. Modellen evalueres ud fra dens nøjagtighed. (s)NLI er open source og kan hentes her.
Hvad er NER (Named Entity Recognition)?
Named-entity recognition (NER) er også kend som (named) entity identification, entity chunking og entity extraction. Modellen er en underopgave af informationsudvinding, som søger at lokalisere og klassificere navngivne entities/enheder som er til stede i en ustruktureret tekst, og komme disse ind i foruddefinerede kategorier, såsom person navne, organisationer, placeringer, medicinske koder, tidsudtryk, mængder, monetære værdier, procenter osv.
Hvad er SQuAD (Stanford Question Answering Dataset)?
Stanford Question Answering Dataset er et nyt læseforståelsesdatasæt, der består af spørgsmål stillet af crowdworkers på et sæt Wikipedia-artikler, hvor svaret på hvert spørgsmål er et segment af tekst eller spænd fra den tilsvarende tekstpassage.
SQuAD indeholder mere end 100.000 spørgsmål/svar-par matchet op mod 500+ artikler. Samt 50.000 ubesvaret spørgsmål.Datasættet er open source og kan hentes her
Hvem står bag BERT algoritmen?
BERT er udviklet af et team fra Googles eget AI language research bestående af Ming-Wei Chang, Kenton Lee, Kristina Toutanova under ledelse af Jacob Devlin.
Hvem står bag SMITH algoritmen?
Det er Googles eget AI reaseach der står bag SMITH. Det team der har udviklet SMITH består af Liu Yang, Mingyang Zhang, Cheng Li, Michael Bendersky og Marc Najork
Hvilke datasæt er BERT trænet med?
Det data der er blevet brugt til at træne BERT, er blevet med er en stor mængde af umærket tekst inklusive hele Wikipedia (det er 2.500 millioner ord!)
Hvilke datasæt er SMITH trænet med?
Det data der er blevet brugt til at træne SMITH med, er den samme som BERT er blevet trænet med, nemlig Wikipedia men også et datasæt, som hedder ACL Anthology Network paper citation suggestion data.
Hvorfor er det vigtigt at vide hvad data BERT og SMITH er trænet med?
For at kunne forstå hvordan BERT og SMITH ”ser verden” er det vigtigt at vide, hvad deres udgangspunkt er. På præcis samme måde. som hvis man vil lave en persona (en persona er et fiktivt bud på din ideelle kunde). En persona profil, er propfyldt med informationer om ens modtager, som gør det fuldkommen klart, hvad denne modtagers behov og bevæggrunde er. Man kikker ned i den på gældende modtagers BIAS. På samme måde kan man dykke ned i BERT og SMITHS BIAS, og ja kunstige intelligenser har en BIAS, selv om at Google har meldt ud, at de gør alt hvad de kan for at sikre at deres AI algoritmer ikke er BIAS, så lykkes det faktisk ikke særligt godt. Så sent som i december 2020 opsagde en af deres AI computerforsker Timnit Gebru, sin stilling, som netop var at arbejder med algoritmisk bias og data mining, fordi hun ikke kunne stå inde for det arbejde, der blev gjort hos Google, som hun mener er meget mangelfuldt.
Men hvad er så BERT og SMITHS BIAS?
Lige som med os mennesker så kommer vores BIAS fra vores opvækst, oplevelser og indlæring. Kort sagt det data vi bliver fodret med fra helt små, de holdning, fordomme, opfattelser af verden generelt. Som vores forældre og andre vi er tæt på i vores opvækst, har alle en stor indflydelse på hvad vores holdninger, fordomme, opfattelser af verden kommer til at være. På samme måde er det data som BERT og SMITH er blevet trænet med fundamentet for deres BIAS, og her har de begge fået stort set samme oplæring så der er ingen tvivl om at Wikipedia i BERT og SMITHS øjne er biblen, man altid vender tilbage til. Det kan man også se ude i SERPs, efter at BERT blev frigivet er Wikipedias synlighed på tværs at stort set alle sprog steget mellem 10- 15% og når man køre en tekst analyse i gennem BERT kan man se at den konstant referer tilbage til Wikipedia.
Er BERT og SMITH open source?
Det korte svar er JA, det er de. Så hvis du har evner inde for programmering, og har styr på tungere programmeringssprog, så som C# og Python, kan du både selv teste tekst via BERT, enten via Googles eget API, eller selv hente hele modellen ned, og selv træne den. SMITH er pt. stadig under udvikling, og er endnu ikke blevet frigivet til den bredere befolkning. Men det kommer nok lige så snart, at den også kommer live.
ER SMITH Bedre end BERT?
SMITH har slået BERT i flere tests, og kan noget som BERT ikke kan men til gengæld er SMITHs ressourceforbrug meget højre end BERT. Så de har hver deres styrker og svagheder.
Skal SMITH erstatte BERT?
Svaret er ikke entydigt, for SMITH har som nævnt herover slået BERT, på flere områder, men samtidig er SMITH afhængig af BERT. Så når det kommer til forståelsen af lange tekster og forbindelsen mellem flere tekster så ja, så vil SMITH tage over, men i forhold til forståelse af korte keywords og korte tekster vil BERT forsætte, med at være den primære algoritme.
Hvad betyder BERT og SMITH for SEO?
Som jeg tidligere har nævnt, så meldte Google selv ud, at BERT opdateringen er den var den største opdatering, og dermed ændring, de har lavet i de seneste 5 år. Det blev anslået, at BERT ville påvirke 10% af alle søgeresultater på tværs af alle sprog, og hvis jeg skulle gætte, vil jeg tro, at SMITH også vil have en voldsom indvirkning, dog nok ikke lige så stor som BERT, da de begge bygger på samme princip og grund model.
Ud over de påvirkninger de har direkte, har på SERP’en, når de bliver frigivet, lige så stor en påvirkning har de på det fremadrettet SEO arbejde. Hvad enten man kan lide det eller ej, er de ikke til at komme uden om, og hvis ikke man sikre sig, at ens tekster falder i deres smag, vil man få, om end meget svært ved, at få dem til at ranke godt. Med tabt omsætning til følge.