En søkemotor eller søkemotor er et datasystem som søker etter filer som er lagret på webservere takket være webedderkoppen. [ 1 ] Et eksempel er søkemotorer på Internett (noen søker kun på nettet , men andre søker også etter nyheter, tjenester som Gopher , FTP osv.) når de ber om informasjon om et emne. Søk gjøres med nøkkelord eller med hierarkiske trær etter emne; søkeresultatet « Søkeresultatside» er en liste over nettadresser der emner relatert til søkeordene er nevnt.
Fordi de fungerer automatisk, inneholder søkemotorer generelt mer informasjon enn nettkataloger . Sistnevnte må imidlertid også bygges fra (ikke-automatiserte) søk eller fra meldinger gitt av sideskapere.
De kan deles inn i tre typer:
En webcrawler, web indexer, web indexer eller web spider er et dataprogram som inspiserer sidene på World Wide Web på en metodisk og automatisert måte. [ 2 ] En av de hyppigste bruksområdene som er gitt til dem er å lage en kopi av alle nettsidene som er besøkt for senere behandling av en søkemotor som indekserer sidene som gir et raskt søkesystem. Web-edderkopper er vanligvis roboter . [ 3 ]
Nett-edderkopper starter med å besøke en liste over nettadresser , identifisere hyperkoblingene på disse sidene og legge dem til listen over nettadresser som skal besøkes på en gjentakende basis i henhold til et bestemt sett med regler. Den normale operasjonen er at du gir programmet et sett med startadresser, edderkoppen laster ned disse adressene, analyserer sidene og ser etter lenker til nye sider. Deretter laster den ned disse nye sidene, analyserer koblingene deres og så videre.
Blant de vanligste oppgavene til nettedderkopper har vi:
En veldig enkel teknologi på grunn av det store antallet skript tilgjengelig, siden mange ressurser ikke er nødvendige. I stedet kreves det mer menneskelig støtte og vedlikehold. [ 5 ]
En metasøkemotor er et system som lokaliserer informasjon i de mest brukte søkemotorene, den har ikke sin egen database , så den bruker de fra andre søkemotorer og viser en kombinasjon av de beste sidene som hver enkelt har returnert , ]6[ [ 7 ]
En vanlig søkemotor samler inn informasjonen til sidene ved å indeksere dem , som Google eller opprettholder en bred tematisk katalog, som Yahoo! . Den forenklede definisjonen vil være at en metasøkemotor er en søkemotor i søkemotorer. I tillegg, når søket er gjort, kan resultatene avgrenses til den mest nyttige informasjonen er funnet. [ 8 ]«Med andre ord, for å referere til det mest generiske konseptet til en søkemotor, kan vi si at en metasøkemotor er søkemotoren som inneholder et sett med søkemotorer. Noen eksempler på metasøkemotorer er: Dogpile , Aleyares [ 9 ] [ 10 ] MetaCrawler , blant andre. Disse metasøkemotorene har fordeler, som å utvide søkeområdet og i noen tilfeller vise posisjonen til nettet». [ 11 ]
I 1945 skrev Vannevar Bush, som skrev en artikkel i The Atlantic Monthly med tittelen As We May Think [ 13 ] der han så for seg forskningsbiblioteker med tilknyttede merknader ikke ulikt moderne hyperlenker . [ 14 ] Linkanalyse vil til slutt bli en avgjørende komponent i søkemotorer gjennom algoritmer som Hyper Search og PageRank . [ 15 ] [ 16 ]
De tidligste Internett-søkemotorene er før nettets debut i desember 1990: WHOIS -brukeroppslag dateres tilbake til 1982, [ 17 ] og Knowbot Information Services flernettverksbrukeroppslag ble først implementert en gang i 1989. [ 18 ] Det første godt dokumenterte søket motor som søkte etter innholdsfiler , nemlig FTP-filer, var Archie, som debuterte 10. september 1990. [ 19 ]
Før september 1993 ble World Wide Web indeksert helt for hånd. Det var en liste over webservere redigert av Tim Berners-Lee og vert på CERN-nettserveren. Et øyeblikksbilde av listen i 1992 gjenstår, [ 20 ] men etter hvert som flere og flere nettservere kom på nett, klarte ikke den sentrale listen lenger å følge med. På NCSA-siden ble nye servere annonsert under overskriften Hva er nytt! . [ 21 ]
Det første verktøyet som ble brukt til å søke etter innhold (i motsetning til brukere) på Internett var Archie. [ 22 ] Navnet betyr "fil" uten "v"., [ 23 ] Det ble laget av Alan Emtage [ 23 ] [ 24 ] [ 25 ] [ 26 ] en informatikkstudent ved McGill University i Montreal , Quebec , Canada . Programmet lastet ned kataloglisten over alle filer som ligger på offentlige anonyme FTP (File Transfer Protocol) nettsteder, og opprettet en oppslagsdatabase med filnavn; Archie Search Engine indekserte imidlertid ikke innholdet på disse sidene da datamengden var så begrenset at den lett kunne søkes manuelt.
Fremveksten av Gopher (opprettet i 1991 av Mark McCahill ved University of Minnesota) ga opphav til to nye søkeprogrammer, Veronica og Jughead. I likhet med Archie søkte de etter navn og titler på filer lagret i Gopher-indekssystemene. Veronica ( Very Easy R odent - Oriented N et-wide I ndex to C omputerized A rchives ) ga et nøkkelordsøk for de fleste Gopher-menytitler i alle Gopher-oppføringer . Jughead ( J onzys Universal Gopher J erarchy Excavation And D isplay ) var et verktøy for å hente menyinformasjon fra spesifikke Gopher - servere . Mens navnet på søkemotoren "Archie Search Engine" ikke var en referanse til tegneserien Archie, er Veronica og Jughead karakterer fra serien, og refererer dermed til forgjengeren.
Sommeren 1993 var det ingen søkemotor for nettet, selv om det ble holdt mange spesialiserte kataloger tilgjengelig. Oscar Nierstrasz ved Universitetet i Genève skrev en serie Perl-manus som med jevne mellomrom speilet disse sidene og skrev dem om til et standardformat. Dette dannet grunnlaget for W3Catalog, nettets første primitive søkemotor, lansert 2. september 1993. [ 27 ]
I juni 1993 produserte Matthew Gray [ 28 ] , da ved MIT , det som sannsynligvis var den første webboten, den Perl-baserte World Wide Web Wanderer , og brukte den til å generere en indeks kalt Wandex . Wanderers formål var å måle størrelsen på World Wide Web, noe den gjorde til slutten av 1995. Nettets andre søkemotor, Aliweb, dukket opp i november 1993. Aliweb brukte ikke en webrobot, men stolte på å bli varslet fra nettstedet administratorer av eksistensen på hvert nettsted av en indeksfil i et bestemt format.
JumpStation (opprettet desember 1993 [ 29 ] av Jonathon Fletcher) brukte en webrobot til å finne nettsider og bygge indeksen, og brukte et nettskjema som grensesnitt for søkeprogrammet. Derfor var det det første WWW-ressursoppdagingsverktøyet som kombinerte de tre essensielle funksjonene til en nettsøkemotor (gjennomgang, indeksering og søking) som beskrevet nedenfor. På grunn av de begrensede ressursene som var tilgjengelige på plattformen den kjørte på, var indekseringen og derfor søket begrenset til titler og overskrifter funnet på nettsider som ble funnet av søkeroboten.
Den første søkemotoren var Wandex , en indeks laget av World Wide Web Wanderer, en robot utviklet av Mattew Gray ved MIT, i 1993. En annen tidlig søkemotor, Aliweb , dukket også opp i 1993 og er fortsatt i drift. Den første fulltekstsøkemotoren var WebCrawler , som dukket opp i 1994. I motsetning til forgjengerne tillot den brukerne å søke etter ord på hvilken som helst nettside, noe som ble en standard for de aller fleste søkemotorer. WebCrawler var også den første som ble allment kjent for publikum. Den dukket også opp i 1994 Lycos (som begynte ved Carnegie Mellon University).
Svært snart dukket det opp mange flere søkemotorer, som Excite , Infoseek, Inktomi, Northern Light og Altavista. På en eller annen måte konkurrerte de med populære kataloger (eller emneindekser) som Yahoo!. Senere ble kataloger integrert eller lagt til søkemotorteknologi for å øke funksjonaliteten.
Før fremkomsten av nettet fantes det søkemotorer for andre protokoller eller bruksområder, for eksempel Archie-søkemotoren for anonyme FTP -sider og Veronica-søkemotoren for Gopher-protokollen.
I 1996 startet Larry Page og Sergey Brin et prosjekt som skulle føre til utseendet til den mest brukte søkemotoren i dag: Google. Det første prosjektet ble kalt BackRub, [ 30 ] som var navnet på teknologien som ble brukt til å utvikle det.
BackRub baserte viktigheten av nettsteder på antall lenker den mottok. Den presenterte et veldig enkelt grensesnitt som er i stand til å vise brukeren de mest relevante resultatene for hvert av søkene.
Med ankomsten av Google endret måten søkemotorer arbeidet seg radikalt på, og demokratiserte resultatene som tilbys i søkemotoren din. Google baserte driften av søkemotoren sin på relevansen av innholdet på hvert nettsted for brukerne selv, det vil si å prioritere de resultatene som brukerne anså som mest relevante for et spesifikt emne. For å gjøre dette patenterte han sin berømte PageRank , et sett med algoritmer som vurderer relevansen til et nettsted ved å tildele det en numerisk verdi fra 0 til 10.
I de fleste land er Google.com eller versjonen av Google for det spesifikke landet den mest brukte søkemotoren, men dette skjer ikke i enkelte land. For eksempel, i Russland er den mest brukte søkemotoren Yandex.ru [ 31 ] [ 32 ] og i Kina er det Baidu . [ 33 ]
Ettersom tiden har gått, har tusenvis av søkere blitt født og døde, blant dem kan vi nevne:
Se mer informasjon om dette i vedlegget: Søkemotorer
Rundt 2000 ble Googles søkemotor fremtredende. [ 34 ] Selskapet oppnådde bedre resultater for mange søk med en algoritme kalt PageRank , som forklart i artikkelen Anatomy of a Search Engine skrevet av Sergey Brin og Larry Page, de senere grunnleggerne av Google. [ 16 ] Denne iterative algoritmen rangerer nettsider basert på antall og PageRank til andre nettsider og sider som lenker dit, på den forutsetning at gode eller ønskelige sider er lenket til mer enn andre. Larry Pages patent for PageRank siterer Robin Lis tidligere RankDex-patent som en innflytelse. [ 35 ] Google beholdt også et minimalistisk grensesnitt for søkemotoren sin. I stedet innebygde mange av deres konkurrenter en søkemotor i en nettportal. Faktisk ble Googles søkemotor så populær at falske motorer som Mystery Seeker dukket opp.
Innen år 2000, Yahoo! leverte søketjenester basert på Inktomi-søkemotoren. Yahoo! kjøpte Inktomi i 2002 og Overture (eier av AlltheWeb og AltaVista) i 2003. Yahoo! den byttet til Googles søkemotor frem til 2004, da den lanserte sin egen søkemotor basert på de kombinerte teknologiene til oppkjøpene.
Microsoft lanserte MSN Search for første gang høsten 1998 ved å bruke søkeresultater fra Inktomi . Tidlig i 1999 begynte nettstedet å vise Looksmart-oppføringer, kombinert med Inktomi-resultater. En kort periode i 1999 brukte MSN Search AltaVista-resultater i stedet. I 2004 begynte Microsoft en overgang til sin egen søketeknologi, drevet av sin egen webcrawler (kalt msnbot).
Microsofts omdøpte søkemotor , Bing , ble lansert 1. juni 2009. 29. juli 2009 ble Yahoo! og Microsoft avsluttet en avtale der Yahoo! søket vil bli drevet av Microsoft Bing-teknologi.
Fra og med 2019 inkluderer aktive søkemotorsøkeprogrammer de fra Google , Petal , Sogou , Baidu , Bing , Gigablast , Mojeek , DuckDuckGo og Yandex .
Selv om søkemotorer er programmert til å rangere nettsteder basert på en kombinasjon av deres popularitet og relevans, indikerer empiriske studier ulike politiske, økonomiske og sosiale skjevheter i informasjonen de gir [ 36 ] [ 37 ] og de underliggende antakelsene om teknologien. [ 38 ] Disse skjevhetene kan være et direkte resultat av økonomiske og kommersielle prosesser (f.eks. selskaper som annonserer med en søkemotor kan også bli mer populære i sine organiske søkeresultater) og politiske prosesser (f.eks. fjerning av søkeresultater for å overholde lokale lover). [ 39 ] For eksempel vil ikke Google vise visse nynazistiske nettsteder i Frankrike og Tyskland, der Holocaust -fornektelse er ulovlig.
Bias kan også være et resultat av sosiale prosesser, ettersom søkemotoralgoritmer ofte er utformet for å utelukke ikke-normative synspunkter til fordel for mer populære resultater . [ 40 ] Store søkemotorindekseringsalgoritmer retter seg mot dekning av USA-baserte nettsteder, i stedet for nettsteder fra land utenfor USA. [ 37 ]
Google Bombing er et eksempel på et forsøk på å manipulere søkeresultater av politiske, sosiale eller kommersielle årsaker.
Flere akademikere har studert de kulturelle endringene som utløses av søkemotorer, [ 41 ] og representasjonen av visse kontroversielle spørsmål i resultatene deres , som terrorisme i Irland , [ 42 ] fornektelse av klimaendringer , [ 43 ] og konspirasjonsteorier . [ 44 ]
Mange søkemotorer som Google og Bing gir personlige resultater basert på historien til brukeraktivitet. Dette fører til en effekt som har blitt kalt et "boblefilter" . Begrepet beskriver et fenomen der nettsteder bruker algoritmer for selektivt å gjette hvilken informasjon en bruker ønsker å se, basert på informasjon om brukeren (som plassering, tidligere klikkatferd og søkehistorikk). Som et resultat har nettsteder en tendens til å bare vise informasjon som er i samsvar med brukerens tidligere synspunkt. Dette setter brukeren i en tilstand av intellektuell isolasjon uten motstridende informasjon. Gode eksempler er Googles personlige søkeresultater og Facebooks personlige nyhetsfeed .
Ifølge Eli Pariser, som laget begrepet, er brukere mindre utsatt for motstridende synspunkter og er intellektuelt isolert i sin egen informasjonsboble. Pariser fortalte om et eksempel der en bruker Googlet «BP» og fikk investeringsnyheter om British Petroleum, mens en annen søker fikk informasjon om Deepwater Horizon-oljeutslippet og at de to søkeresultatsidene var «overraskende forskjellige». [ 45 ] [ 46 ] [ 47 ] Bobleeffekten kan ha negative implikasjoner for borgerlig diskurs, ifølge Pariser. [ 48 ] Siden dette problemet ble identifisert, har konkurrerende søkemotorer dukket opp som prøver å unngå dette problemet ved ikke å spore eller "boble" brukere, som DuckDuckGo. Andre forskere deler ikke Parisers syn og finner bevisene til støtte for avhandlingen hans lite overbevisende. [ 49 ]
Innsending av nettsøkemotorer er en prosess der en webmaster sender inn et nettsted direkte til en søkemotor. Selv om innsending til søkemotorer noen ganger presenteres som en måte å markedsføre et nettsted på, er det vanligvis ikke nødvendig fordi de store søkemotorene bruker webcrawlere som til slutt vil finne de fleste nettsteder på Internett uten hjelp. De kan sende inn én nettside om gangen, eller de kan sende inn hele nettstedet ved hjelp av et nettstedskart, men vanligvis må bare hjemmesiden til et nettsted sendes inn, da søkemotorer kan gjennomsøke et godt designet nettsted. Det er to grunner igjen for å sende inn et nettsted eller en nettside til en søkemotor: å legge til et helt nytt nettsted uten å vente på at en søkemotor oppdager det, og å oppdatere et nettsteds post etter en betydelig redesign.
Noen programmer for innsending av søkemotorer sender ikke bare nettsteder til flere søkemotorer, men legger også til nettstedkoblinger fra sine egne sider. Dette kan virke nyttig for å øke et nettsteds rangering [ 50 ] , siden eksterne lenker er en av de viktigste faktorene som bestemmer en nettsides rangering. Googles John Mueller har imidlertid uttalt at dette "kan føre til mange unaturlige lenker til nettstedet ditt" med negativ innvirkning på nettstedets rangering. [ 51 ]