Den ultimative guide til Google’s BERT og SMITH algoritmer

Googles måde at fungere på og ranke sites, ændre sig konstant, og har gjort det lige sigen Google blev skabt tilbage i 1998. Men over de seneste år er der sket et markant skifte, og der er ingen tvivl om, at udviklingen kun går én vej, og det er imod flere forskellige typer af avanceret AI’s (artificiel intelligens) eller på dansk kunstige intelligenser, som hver især på forskellige områder, dykker dybt ned i den gigantiske mængde af data, som Google ligger inden med, for at finde mønstre i brugernes adfærd, intentioner og behov for, ud fra disse, at kunne levere de bedste resultater, der matcher dette. I virkeligheden en sindssygt stor selvstyrende og selvlærende målgruppe analyse, som konstant løber og sikrer Googles bruger den bedste oplevelse.

Hvorfor er det så vigtigt for dig?

Det er vigtigt fordi Googles brugere, er dine potentielt kunder. Over 90% af alle købsrejser starter i søgemaskinerne, og ud over at Google har kunstige intelligenser til at finde frem til brugernes intention og behov, har de også AI’er, der analysere og kategorisere alt offentligt tilgængeligt tekst på nettet. Hele formålet med Google har jo altid været, at matche indhold i form af websider med deres brugers behov, og det er netop denne proces som via AI algoritmer, stiller endnu større krav til marketingfolk i forhold til at kunne analysere data, og kunne finde frem til de samme behov og intentioner, som Googles kunstige intelligenser kan. Samtidig skal der skabes værdifulde content ud fra dette, som matcher de forventninger og parametre, som de AI’er der analysere teksterne arbejder med. Hvis man ikke kan formå dette, vil man falde igennem og ikke blive set som relevant, og dermed have unødvendigt svært ved at få det til at ranke i Google, hvilket vil kunne aflæses direkte på bundlinjen.

For at kunne lykkes med at tage de rigtige beslutninger, skabe det rigtigt indhold, og gå efter de rigtige keywords, er det en absolut nødvendighed at man:

  1. 1. Har fuldstændigt styr på, hvordan Googles kunstige intelligenser fungere. Det er denne del, som jeg i denne artikel vil dykke dybt ned, i forhold to de to største og mest magtfulde af Googles AI algoritmer.
  2. 2. På baggrund af punkt 1, kan udarbejde knivskarpe keywordanalyser. Jeg vil dog lige nævne, at jeg ikke selv synes, at navnet keywordanalyse længere er godt nok dækkende for den analyse, der skal fortages. For den gamle keywordanalyse, hvor det primære fokus var på x antal keywords og søgevolume, er langt fra god nok, og har ikke været det i snart mange år.

    For at en keywordanalyser skal give mening, er der langt flere parameter, der skal medtages end blot søgevolumen og en vurderet sværhedsgrad, for hvor meget konkurrence der er på det givne keyword. Man er nødt til at medtage klik distribution på de enkelte ord og fokuser på topics/emner, frem for enkelt ord. Man er også nødt til at forholde sig til de enkelte SERPs opbygninger (herunder hvor er de organiske resultater er placeret), features, type mm. Og ikke mindst, hvad er brugernes intention og behov ved den pågældende søgning. Er det noget der kan giver værdi for vores virksomhed/organisation, i form af salg, leads eller branding? Jeg har skrevet meget mere om dette i denne artikel: Den ultimative guide til keywordanalyse 2021

Hvad betyder BERT?

BERT er et akronym for Bidirectional Encoder Representations from Transformers

Hvad betyder SMITH?

SMITH er et akronym for Siamese Multi-depth Transformer-based Hierarchical Encoder

Hvad er SMITH?

SMITH er en machine learning model for NLP (akronym for Natural Language Processing), som i et stort omfang er bygget på samme måde som BERT. Der er dog nogle markante og meget interessante forskelle på de to. En af disse er at SMITH out performer BERT på mange punkter, fordi den arbejder med større dele af teksterne.

Hvornår hørte man første gang om BERT?

BERT dukker første gang op er i en research rapport med titlen ”BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, som blev udgivet 11. oktober 2018.

Hvornår blev BERT en dele af Googles live search algoritmer?

BERT blev en live del af Googles search algoritmer, i forbindelse med en Google core up date, som begyndte at blive rullet ud i SERP, d. 25. oktober 2019, og som sidenhen er kommet til at få navnet BERT opdateringen efter algoritmen. Google meldte i forbindelse med opdateringen ud, at BERT var den største opdatering i 5 år.

Hvornår hørte man første gang om SMITH?

Men hvad med SMITH. Første gang at SMITH dukker op er i en research rapport fra Google med det noget kringlet navn ” Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical Encoder for Long-Form Document Matching” som blev frigivet i forbindelse med ”29th ACM International Conference on Information and Knowledge Management (CIKM ’20)”, eller helt præcist den 19. oktober 2020.

Nu er det så naturligt at spørge:

Er Google SMITH en dele af Googles live search algoritmer?

Svaret er: Nej! SMITH er endnu ikke live og dermed heller ikke en del af Googles search algoritmer endnu, men når jeg kikker ind i data i forhold til tidslinjen for tidligere Google algoritme up dates, og samtidig holder det op imod, det der kommer ud fra hvad Google selv siger, så siger min SEO sans mig, at den formentlig vil komme i forbindelse med, at Google ruller passage indeksering ud, eller allerede før dette. Når man kikker på tidslinjen for BERT, som jeg jo nævnte tidligere, kom live et år efter at den optrådte i en research rapport, vil jeg gætte på, at det nok er i omegnen af samme tidslinje, vi vil komme til at se for SMITH, hvilket vil sige, at vi nok kan forvente, at den vil optræde i en Core up date i sensommeren eller efteråret 2021, med mindre at Google har valgt at speed tempoet op, så den måske kommer ud sammen med web core vital up daten, som de har annonceret til maj 2021.

Hvordan virker SMITH og BERT?

Både SMITH og BERT er bygget op omkring brugen af Transformer, en opmærksomhedsmekanisme, der lærer kontekstuelle forhold mellem ord (eller sekundære ord) i en tekst. I sin grund form, inkluderer Transformer modellen to separate mekanismer - en indkoder, der læser tekstinput og en dekoder, der producerer en forudsigelse for opgaven. Da BERT og SMITHs mål er at generere en sprogmodel, er kun kodningsmekanismen nødvendig. Disse mekanismer bygger entities og flere NLP modeller herunder MLM (Masked language model), (S)NLI (Natural Language Infernce), NER (Named Entity Recognition) og SQuAD (Stanford Question Answering Dataset), så for at forstå, hvordan både SMITH og BERT virker, er man nødt til at forstå, hvad Entities og disse NLP-modeller er, hvilket jeg vil forklare i det efterfølgende.

Hvordan virker BERT?

BERT er den bedste aktuelle NLP-model til forståelse af komplekse sprogstrukturer.

Den største forskel på BERT og andre NLP-modeller var efter min mening i det første ord i navnet Bidirectional.

Det dækker over at BERT, I stedet for blot at "læse" fra venstre mod højre og kun forstå tekstens sammenhæng i dén retning. I modsætning til andre tidligere NLP-modeller, kan BERT også forstå sammenhæng, der går fra højre mod venstre. Noget som vi mennesker helt naturligt gør, når vi læser tekst.

Et simpelt eksempel kan være at forstå denne sætning:

Cyklen har en lygte med lys.

Hvis man kun forstår teksten fra venstre mod højre, vil man kunne forstå at cyklen har en lygte, men hvis, man ønsker at klassificere ting på cyklen, vil lygte ikke blive medtaget, fordi den ikke står før ”cyklen” i teksten.

Derudover er selve BERTs opbygning bemærkelsesværdig og giver mulighed for effektiv behandling af sprog med lavere ressourceomkostninger end tidligere modeller, hvilket naturligvis er ekstremt vigtig, når den skal anvendes på alt indhold på internettet.

Et andet kvantespring med BERT, er dens anvendelse af tokens.

BERT har en kapacitet 30.000 tokens, som hver kan repræsentere et almindeligt ord med lidt ekstra plads til fragmenter og tegn, hvis et ord ikke er almindeligt og falder uden for de 30.000 tokens.

Dog bruger BERT max. 256 tokens pr. dokument. Derefter bliver beregningsomkostningerne for høje til, at modellen kan fungere.

Denne struktur med brug af bidirectional, tokenbehandling og transformere gør, at BERT er i stand til at forstå indhold på et langt højre niveau end tidligere NLP-modeller. Herunder er nogle eksempler fra Google selv, som viser nogle søgeresultater før BERT og efter BERT, hvor man netop kan se, at den langt bedre forstår sammenhængen både fra venstre mod højre og omvendt samt, at den også forstår vigtigheden af selv små biord som ”ikke” og ”fra”.

BERT er den bedste aktuelle NLP-model, til forståelse af komplekse sprogstrukturer.

Hvordan virker SMITH?

SMITH bygger på den samme NLP-model som BERT, der er dog nogle særlige forskelle på de to hvor BERT som tidligere nævnt har en max på 265 tokens pr. dokument så er SMITHs max på 2,248 tokens. Dokumentet kan derfor være 8x større.

Hvor BERT arbejder med sætninger, arbejder SMITH med hele afsnit, hvilket gør at SMITH er langt bedre til at forstå sammenhænge imellem forskellige passager, som er placeret langt fra hinanden, selv i lange dokumenter og på tværs af forskellige sider/URL’er, som BERT ikke er i stand til.

Samtidig kan SMITH grundet sin siamesiske tvilling struktur, arbejde på 2 dokumenter simultant, og holde de enkelte dele af disse op imod hinanden. Hvor BERT kørte én tekst ad gangen og giver den en score. De ændringer gør, at SMITH igen langt bedre kan forstå sammenhænge i selv meget lange tekster, og i indhold om samme emne, men som er fordelt på flere sider, en såkaldt content eller topic cluster, og på dansk vil man nok kalde det en indholdsklynge.

Det betyder, at den måde indholdet på et website er organiseret, og ikke mindst hvordan den interne navigation imellem dem, aldrig har været vigtigere.

Det fremgår også af research rapporten, at antallet og destinationen af de eksterne links, som der er på en side, indgår i relevansberegningen af den pågældende side og sidens indhold. Beregnet ud fra en jaccard lighed, altså hvor lig er de links og kilder der linkes til, på baseline siden og test siden.

For at forstå mere at hvordan SMITH og BERT virker er må vi kikke på entities.

Hvad er Entities?

Entities er enheder på dansk, og Googles egen definition er: "En ting eller et koncept, der er entydigt, unikt, veldefineret, og som kan skelnes fra andet." Denne definition er meget bred, hvilket nemt kan fører til endnu større forvirring.

Så for at præsidere det, vil jeg her dele min definition af hvad entities er: Dybest set er en entity i forhold til NLP og dermed SEO, en unik definerbar ting eller begreb, som ikke er begrænset til en bestemt form, stavning, bøjning eller udtryk. F.eks. Mayo (ord der beskriver en entity), Mayonnaise (andet ord som beskriver samme entity), den fysiske substans som udgør mayonnaise, eller billeder af mayonnaise i bøtte, tube, skål eller andet er alle sammen en beskrivelse af den samme entity.

Så med NLP er Google, og dermed også SEO, gået fra kun at handle om keywords (en simple tekst streng) til entities (et mere komplekset begreb)./p>

For at forstå NLP, er man først nødt til at forstå, hvad NLP bygger på, og det føre os hen til LSI (Latent Semantic Indexing) /LSA (Latent Semantic analyse), som er en af de første NLP-modeller.

Hvad er LSI (latent semantisk indeksering)?

LSI er en proces, en model for Natural Language Processing (NLP). NLP er en delmængde af lingvistik og informationsteknologi med fokus på, hvordan maskiner fortolker menneskers sprog. En vigtig del af denne undersøgelse er distributionssemantik. Denne model hjælper os med at forstå og klassificere ord med lignende kontekstuelle betydninger, inden for store datasæt.

LSI blev udviklet i 1980'erne og bruger en matematisk metode, der gør informationshentning mere præcis. LSI modellen fungerer ved, at identificere de skjulte kontekstuelle forhold mellem ord. Det kan hjælpe dig at nedbryde det sådan:

Latent → Skjult

Semantisk → Forholdet mellem ord

Indeksering → Indhentning af information

Kort sagt LSI modellens formål er at finde ud af, hvor vigtige enkelte ord er i forhold til hinanden kontekstuelt.

En anden NLP-model, som også er fra NLPs ungdom, er TF-IDF (term frekvens-invers dokumentfrekvens).

Hvad er TD-IDF?

TF-IDF er et statistisk mål, der vurderer, hvor relevant et ord er, for et dokument i en samling af dokumenter. Dette gøres ved at multiplicere to metrics: hvor mange gange et ord vises i et dokument, og den omvendte dokumentfrekvens for ordet, over et sæt dokumenter.

TD-IDF blev opfundet til dokumentsøgning og informationssøgning. Det fungerer ved at øge proportionalt med antallet af gange et ord vises i et dokument, men modregnes i antallet af dokumenter, der indeholder ordet. Så ord, der er almindelige i hvert dokument, som dette, hvad og hvis, rangerer lavt, selvom de kan forekomme mange gange, da de ikke betyder meget for det pågældende dokument især.

Det har mange anvendelser, vigtigst af alt i automatiseret tekstanalyse, og er meget nyttigt til at score ord i maschine-learning algoritmer, til netop Natural Language Processing (NLP).

Men hvis "ordet" Keyword ranking vises mange gange i et dokument, mens det ikke vises mange gange i andre, betyder det sandsynligvis, at det er et meget relevant ord. For eksempel, hvis ordet SEO, hvilke emner vi ønskede at finde ud af, hvilket emne ordet Keyword ranking er tæt relateret til ville der være en hvis sandsynlighed for at artiklen ville blive bundet til emnet SEO, da de fleste dokumenter, der indeholder ordet Keyword ranking, ville handle om SEO.

Hvorfor er LSI og TD-IDF vigtige?

Der har i flere år været en diskussion i SEO kredse om, hvorvidt Google brugte især LSI, og hvis man kunne finde mønsteret og de vigtigste LSI keywords, ville man kunne lave tekster, som Google ville fortrække. Det har Google dog ved flere lejligheder afvist, at de bruger LSI keywords, og Googles Webmaster Trends til. Analyst John Mueller har endda kaldt dem en myte. Men det må siges, at være et af de røgslør, som Google relativt ofte sender ud for at sikre, at SEO’er ikke udnyttet de specifikke måder deres algoritmer virker på, til at ranke. Men det at de ikke bruger LSI keywords, er en sandhed med modifikationer. Hvad mener jeg så med det? Jeg mener, at jeg godt kan sige, at jeg er 100% sikker på, at Google ikke bruger LSI, kort sagt de bruger IKKE den snart 40 år gamle model, men nyere modeller, som bygger på samme grund princip som LSI. Så når Google siger, at de ikke bruger LSI, er det korrekt, de ”glemmer” bare at sige, at de bruger nogle andre tilsvarende modeller. F.eks. kom der i 2016 en research rapport ud fra netop Googles eget AI research om netop brugen af modeller som LSI i NLP. Det føre os frem til MLM.

Hvad er MLM (Masked language model)?

MLM er en fill-in-the-blank opgave model. Det er en model som bruger kontekstordene omkring en mask token for at forsøge at forudsige, hvad det maskerede ord skal være. For et input, der indeholder et eller flere mask-tokens, genererer modellen den mest sandsynlige erstatning for hver.

Kort sagt modellen tager en input tekst streng som f.eks. denne:

Jeg har læst [MASK] og den var rigtigt god

Og ud fra hvad modellen tidligere har lært, gættet den så på hvad for et ord [MASK] mest sandsynligt er.

Så outputtet vil f.eks kunne se sådan her ud:

Jeg har læst bogen og den var rigtigt god

Jo mere tekst MLM bliver udsat for jo mere præcise bliver dens forudsigelser, kort sagt MLM er super god til at finde kontekstuelle forhold mellem ord. Præcis det samme som den gamle LSI model prøvet. MLM er bare meget mere avanceret og mere præcis.

Hvad er (S)NLI (Natural Language Infernce)?

Nu sidder du nok og undre dig over hvad (s)’er i akronymet står for og det er som ment blot den organisation der står bag denne NLP model og her er der tale om Stanford universitetet.

Naturlig sproginferens er opgaven med at bestemme, om en "hypotese" er sand (entailment), falsk (modsigelse) eller ubestemt (neutral) givet en "forudsætning".

Hypotese kunne f.eks. være:

Forudsætning: En mand inspicerer uniformen til en figur i et land i Østasien.

Værdi: Modsigelse.

Hypotese: Manden sover.

Forudsætning: En ældre og yngre mand smiler.

Værdi: Neutral.

Hypotese: To mænd smiler og ler af kattene, der leger på gulvet.

Forudsætning: En fodboldkamp med flere mænd, der spiller.

Værdi: Entailment.

Hypotese: Nogle mænd spiller et boldspil.

(s)NLI Datasættet indeholder ca. 550k hypoteser / forudsætningspar. Modellen evalueres ud fra dens nøjagtighed. (s)NLI er open source og kan hentes her.

Hvad er NER (Named Entity Recognition)?

Named-entity recognition (NER) er også kend som (named) entity identification, entity chunking og entity extraction. Modellen er en underopgave af informationsudvinding, som søger at lokalisere og klassificere navngivne entities/enheder som er til stede i en ustruktureret tekst, og komme disse ind i foruddefinerede kategorier, såsom person navne, organisationer, placeringer, medicinske koder, tidsudtryk, mængder, monetære værdier, procenter osv.

Hvad er SQuAD (Stanford Question Answering Dataset)?

Stanford Question Answering Dataset er et nyt læseforståelsesdatasæt, der består af spørgsmål stillet af crowdworkers på et sæt Wikipedia-artikler, hvor svaret på hvert spørgsmål er et segment af tekst eller spænd fra den tilsvarende tekstpassage.

SQuAD indeholder mere end 100.000 spørgsmål/svar-par matchet op mod 500+ artikler. Samt 50.000 ubesvaret spørgsmål.Datasættet er open source og kan hentes her

Hvem står bag BERT algoritmen?

BERT er udviklet af et team fra Googles eget AI language research bestående af Ming-Wei Chang, Kenton Lee, Kristina Toutanova under ledelse af Jacob Devlin.

Hvem står bag SMITH algoritmen?

Det er Googles eget AI reaseach der står bag SMITH. Det team der har udviklet SMITH består af Liu Yang, Mingyang Zhang, Cheng Li, Michael Bendersky og Marc Najork

Hvilke datasæt er BERT trænet med?

Det data der er blevet brugt til at træne BERT, er blevet med er en stor mængde af umærket tekst inklusive hele Wikipedia (det er 2.500 millioner ord!)

Hvilke datasæt er SMITH trænet med?

Det data der er blevet brugt til at træne SMITH med, er den samme som BERT er blevet trænet med, nemlig Wikipedia men også et datasæt, som hedder ACL Anthology Network paper citation suggestion data.

Hvorfor er det vigtigt at vide hvad data BERT og SMITH er trænet med?

For at kunne forstå hvordan BERT og SMITH ”ser verden” er det vigtigt at vide, hvad deres udgangspunkt er. På præcis samme måde. som hvis man vil lave en persona (en persona er et fiktivt bud på din ideelle kunde). En persona profil, er propfyldt med informationer om ens modtager, som gør det fuldkommen klart, hvad denne modtagers behov og bevæggrunde er. Man kikker ned i den på gældende modtagers BIAS. På samme måde kan man dykke ned i BERT og SMITHS BIAS, og ja kunstige intelligenser har en BIAS, selv om at Google har meldt ud, at de gør alt hvad de kan for at sikre at deres AI algoritmer ikke er BIAS, så lykkes det faktisk ikke særligt godt. Så sent som i december 2020 opsagde en af deres AI computerforsker Timnit Gebru, sin stilling, som netop var at arbejder med algoritmisk bias og data mining, fordi hun ikke kunne stå inde for det arbejde, der blev gjort hos Google, som hun mener er meget mangelfuldt.

Men hvad er så BERT og SMITHS BIAS?

Lige som med os mennesker så kommer vores BIAS fra vores opvækst, oplevelser og indlæring. Kort sagt det data vi bliver fodret med fra helt små, de holdning, fordomme, opfattelser af verden generelt. Som vores forældre og andre vi er tæt på i vores opvækst, har alle en stor indflydelse på hvad vores holdninger, fordomme, opfattelser af verden kommer til at være. På samme måde er det data som BERT og SMITH er blevet trænet med fundamentet for deres BIAS, og her har de begge fået stort set samme oplæring så der er ingen tvivl om at Wikipedia i BERT og SMITHS øjne er biblen, man altid vender tilbage til. Det kan man også se ude i SERPs, efter at BERT blev frigivet er Wikipedias synlighed på tværs at stort set alle sprog steget mellem 10- 15% og når man køre en tekst analyse i gennem BERT kan man se at den konstant referer tilbage til Wikipedia.

Er BERT og SMITH open source?

Det korte svar er JA, det er de. Så hvis du har evner inde for programmering, og har styr på tungere programmeringssprog, så som C# og Python, kan du både selv teste tekst via BERT, enten via Googles eget API, eller selv hente hele modellen ned, og selv træne den. SMITH er pt. stadig under udvikling, og er endnu ikke blevet frigivet til den bredere befolkning. Men det kommer nok lige så snart, at den også kommer live.

ER SMITH Bedre end BERT?

SMITH har slået BERT i flere tests, og kan noget som BERT ikke kan men til gengæld er SMITHs ressourceforbrug meget højre end BERT. Så de har hver deres styrker og svagheder.

Skal SMITH erstatte BERT?

Svaret er ikke entydigt, for SMITH har som nævnt herover slået BERT, på flere områder, men samtidig er SMITH afhængig af BERT. Så når det kommer til forståelsen af lange tekster og forbindelsen mellem flere tekster så ja, så vil SMITH tage over, men i forhold til forståelse af korte keywords og korte tekster vil BERT forsætte, med at være den primære algoritme.

Hvad betyder BERT og SMITH for SEO?

Som jeg tidligere har nævnt, så meldte Google selv ud, at BERT opdateringen er den var den største opdatering, og dermed ændring, de har lavet i de seneste 5 år. Det blev anslået, at BERT ville påvirke 10% af alle søgeresultater på tværs af alle sprog, og hvis jeg skulle gætte, vil jeg tro, at SMITH også vil have en voldsom indvirkning, dog nok ikke lige så stor som BERT, da de begge bygger på samme princip og grund model.

Ud over de påvirkninger de har direkte, har på SERP’en, når de bliver frigivet, lige så stor en påvirkning har de på det fremadrettet SEO arbejde. Hvad enten man kan lide det eller ej, er de ikke til at komme uden om, og hvis ikke man sikre sig, at ens tekster falder i deres smag, vil man få, om end meget svært ved, at få dem til at ranke godt. Med tabt omsætning til følge.