Søk i artikler

Hvordan virker Google?

Hvordan klarer Google å søke gjennom så utenkelig mange sider på så utrolig kort tid? Et Google søk kan ta noen tideler av et sekund. Hvordan er det mulig? Og hvordan vet den hvilke sider som er mest relevante til søket du har gjort?

Navnet Google kommer fra ordet googol. Googol er tallet 1 og hundre nuller. Med andre ord et høyt tall. Det ligger vel litt i navnet Google at de skal prøve å få oversikten over et utall websider.

Google sine sider kan man blant annet nå på følgende adresser: www.google.com, www.gogle.com, www.gogole.com, www.googel.com, www.googil.com og www.google.org. Google er, for de som faktisk har klart å ikke få det med seg, verdens mest brukte og muligens verdens beste world wide web søkemotor. Med sine 250 millioner (!) søk per dag er Google langt foran neste man på listen som er Yahoo. Yahoo har "bare" 167 millioner søk per dag.

Så til spørsmålet. Hvordan klarer Google, og for så vidt alle andre søkemotorer, å søke så utrolig fort gjennom søkestrengen vi har skrevet inn. Hele hemmeligheten ligger i indeksering. Google er en såkalt crawler søkemotor. Dette betyr at den har et program som søker gjennom Internett og lagrer og indekserer informasjonen. Eksakt hvordan dette gjøres er selvsagt en godt bevart hemmelighet, men det hele går ut på å at Google sin "spider" eller "googlebot" leter etter nøkkelord på alle sider på Internett. Vi skal komme litt tilbake til hva som kvalifiserer et nøkkelord.

Men først hvordan klarer Google å søke gjennom en database på 8.058.044.651 web sider, 1.187.630.000 bilder og en omtrent like stor del dokumenter i form av .pdf eller .doc osv? Det handler om å omforme tekst til numre. Man bruker en teknikk kalt "hashing". Skal man slå opp et ord i norskordboka på "X", vil dette gå mye fortere enn å slå opp et ord på "E". Det er så mange "E"-er i forhold til "X"-er. Man lar derfor alle ord få en numerisk verdi. Med en numerisk verdi går det like fort å søke gjennom alle ord. Man kan faktisk søke gjennom en million numre med kun maks 20 "større, mindre eller lik"-spørsmål! Dette gjøres ved å bruke en algoritme som halverer spørresummen og legger til eller trekker ifra ut ifra større eller mindre enn.

For å illustrere (for den som måtte bry seg). Jeg tenker på et tall mellom 0 og 1024. 1024 fordi det er et binært rundt tall. Man starter da å dele 1024 på to og spørre: "Er det større, mindre eller lik, 512?" Svaret er "større", og man legger til halvparten (256). Og spør igjen: "Er det større, mindre eller lik 768? (512+256)" Svaret er mindre og man trekker fra halvparten (128). "Større eller mindre enn 640?" Og sånn fortsetter det. Det vil aldri ta mer enn 10 spørsmål å finne et tall mellom 0 og 1024.

Så til det litt mer interessante spørsmålet. Hvordan vet Google hva som er relevant stoff og hva som bare er søppel. Den korte og vanskelige forklaringen lyder som følger:

"Where p1,p2,...,pN are the pages under consideration, M(pi) is the set of pages that link to pi, L(pj) is the number of links coming from page pj, and N is the total number of pages."

Siden du helt sikkert ikke skjønner noe som helst av dette skal vi prøve å forklare det. PageRank, som systemet heter, bygger på en slags "stemme" løsning. Hvor én link er én stemme. Med andre ord hvis en side linker til siden din, får du én stemme. Desto flere stemmer, desto mer relevant stoff. Stemmesystemet er ikke demokratisk, og ligner derfor på det norske valgsystemet; alle stemmer er ikke like mye verdt. Likt som en stemme i Nord-Norge er mer verdt ved et norsk valg, teller en side med høy rank mer enn en side med lav rank. Si at VG (med høy rank) hadde linket til www.hvafor.no (foreløpig lav rank). HvaForNo hadde da fått masse "poeng" og fått en høyere rank. Man kan også gå ned i rank. Om siden linker til svartelistede sider, vil siden få lavere rank.

Så til nøkkelord. Google definerer nøkkelord etter hvilken frekvens ordet har på siden. På denne siden for eksempel, er Google skrevet utrolig mange ganger. Siden vil da komme høyt opp på trefflisten om man søker på Google. Sett at siden har en bra rank. Google ser også på hva som står i tittelen på siden (det som står øverst i det blå feltet på nettleseren). Tittelen er derfor høyt vektlagt. Det er også metatagen content. En metatag er kort fortalt noe man skriver inn i HTML koden til internettsiden som sier hva siden inneholder. Google legger også vekt på ord skrevet i STORE BOKSTAVER og det man har definert som overskrifter.

Det er mulig å se hvor høy rank en side har, og dermed se hvor "bra" siden er. Google har et lite program som heter Google Toolbar. Her kan man lese av hvor høy rank siden har. Skalaen går fra 0 til 10 og er logaritmisk. Det vil si at det er ti ganger så vanskelig å komme seg fra 2 til 3 som det er å komme seg fra 1 til 2.

I skrivende stund har vi kun funnet en eneste side med pagerank 10. Nemlig www.microsoft.com. Prøv selv: søk på http i Google. Da får man opp de høyest rangerte sidene Google har.

Lik oss på Facebook