Opublikowałem krótki artykuł o tym, jak działają wyszukiwarki w 2002 roku, i pomyślałem, że dobrym pomysłem będzie również zaprezentowanie go Tobie. Informacje w nim zawarte są nadal aktualne, więc nie spiesz się, przeczytaj ten artykuł i opublikuj komentarze i pytania w zwykłym miejscu.
1. Struktura wyszukiwarki
Wyszukiwarka składa się z ośmiu przeplatanych elementów.
- Serwer URL, robot indeksujący, analizator składni, serwer sklepu, leksykon, lista hitów, repozytorium, wyszukiwarki
Serwer Url zarządza listą zawierającą niezweryfikowane adresy URL, nowe adresy URL są dodawane do serwera Url na różne sposoby, na przykład za pomocą formularza na stronie internetowej wyszukiwarek. Inną możliwością dodania nowych adresów URL jest to, że odwiedzony adres URL zawiera linki do nowych adresów URL, które nie zostały zweryfikowane. Każdy adres URL otrzymuje tak zwany docID, który jest łatwiejszy do zarchiwizowania niż pełny adres URL.
Robot indeksujący pobiera niezweryfikowane adresy URL z serwera Url i zmienia adres URL na adresy IP za pomocą DNS. Gdy tylko adres IP będzie dostępny, otwiera połączenie HTTP z adresem ip. Jeśli to się powiedzie, uruchamia polecenie GET, aby otrzymać zawartość strony (źródło). Zawartość strony jest następnie przesyłana do Storeserver, który kompresuje zawartość.
Parser dekompresuje źródła pobrane z Storeserver. Następnie źródło jest analizowane w następujący sposób. Najpierw wyszukuje słowa, których nie ma w jego Leksykonie, jeśli znajdzie nowe słowo, zostanie dodane do Leksykonu. Słowa, które już istnieją w Leksykonie, są dodawane do listy hitów z uwagą na temat tego, jak często występują w źródle. Dodatkowo informacje takie jak tytuł, część tekstu lub cały tekst są zapisywane w repozytorium.
Leksykon zawiera wszystkie słowa, które parser znaleziony we wszystkich przetworzonych adresach URL, każde słowo ma wskaźnik do listy trafień tego słowa.
Lista trafień zawiera wskaźniki do repozytorium. Dzięki temu wyszukiwarka może dość szybko prezentować wyniki. Wszystkie informacje o witrynie przechowywanej w repozytorium są prezentowane w oknie wyników wyszukiwania. (zwykle tytuł, adres URL i pierwsze wiersze strony)
Wyszukiwarka to łącze między użytkownikiem a wyszukiwarką. Użytkownicy wpisują wyszukiwane frazy w wyszukiwarce, naciśnij Enter, a wyszukiwarka używa Leksykonu i Listy wyników do prezentacji wyników.
Przykład:
———-
Użytkownik wpisuje http://www.google.com/ w swojej przeglądarce internetowej, a następnie wpisuje wyszukiwane hasło „strona bezpieczeństwa” w polu wyszukiwania. (który jest składnikiem wyszukiwarki)
Wyszukiwarka używa Leksykonu, aby sprawdzić wskaźniki dwóch słów (wskaźniki są połączone z listą wyników), podąża za wskaźnikami do listy wyników, sprawdza pierwsze 10 pozycji na liście wyników, podąża za wskaźnikiem do repozytorium i tworzy nowa strona internetowa zawierająca 10 pierwszych pozycji listy wyników, tytuł i niektóre wiersze stron z repozytorium
Najważniejszym elementem wyszukiwarki jest jej system oceny. Wyszukiwarki mierzą adresy URL, aby określić, które wyniki będą wyświetlane jako pierwsze, gdy użytkownik rozpocznie wyszukiwanie. Wybrałem Google jako reprezentatywną wyszukiwarkę, ponieważ wyszukiwarki mierzą inaczej.
Google przyznaje punkty każdemu adresowi URL, im więcej punktów adres URL uzyska, tym wyższa pozycja na liście Hit. ważnymi elementami, które dodają punkty, jest sam adres URL, tytuł, słowa kluczowe, treść, nagłówki aso. Dodatkowo adresy URL otrzymują punkty za każdy link prowadzący do nich z innych adresów URL. Linki z adresów URL, które same mają wysoką ocenę, dają więcej punktów niż linki z adresów URL z niskimi ocenami.
2. Zaawansowane metody wyszukiwania:
Wyszukiwarki używają operatorów logicznych do wyszukiwania zaawansowanego. Operatory AND, OR i NOT są używane przez każdą znaną wyszukiwarkę.
słowo 1 ORAZ słowo 2 oznacza, że wyszukiwarka szuka adresów URL zawierających słowo 1 i słowo 2, adresy URL zawierające tylko jedno ze słów nie są wyświetlane w wynikach
słowo 1 LUB słowo 2 oznacza, że wyszukiwarka wyświetla wszystkie adresy URL zawierające słowo 1 lub słowo 2 lub słowo 1 i słowo 1.
słowo 1 NIE słowo 2 oznacza, że wyszukiwarka wyszukuje strony zawierające słowo 1 i NIE słowo 2
Przykłady: (google)
———————-
„Clinton President” — wyświetla wyniki z adresami URL zawierającymi Clinton i President, ale nie tam, gdzie brakuje jednego z nich
„Clinton AND President” — taki sam wynik jak powyżej
„Clinton + President” — taki sam wynik jak powyżej
„Clinton OR President” — wyświetla wyniki z adresami URL, które zawierają Clinton lub President lub oba
„Clinton NOT President” — wyświetla wyniki z adresami URL zawierającymi Clinton, ale NOT President
„Clinton — Prezydent” — takie same wyniki jak powyżej
Google korzysta z dodatkowych funkcji, które zostały wyjaśnione poniżej.
„allintitle” — (allintitle: odmowa bezpieczeństwa) wyświetla adresy URL zawierające warunki w tytule
„allinurl” — (allinurl: wskazówka dotycząca bezpieczeństwa) wyświetla adresy URL zawierające wszystkie warunki w swoim adresie URL.
„cache” — (cache: www.deny.de) wyświetla buforowaną wersję żądanego adresu URL
„data” — (wyszukiwanie zaawansowane Google, bez skrótu), przedstawia wyniki z określonego okresu
„typ pliku” — (odmowa typu pliku: pdf), wyświetla adresy URL zawierające wyszukiwane hasła i określony typ pliku.
„info” — (info: www.deny.de) Gogle wyświetlają zapisane informacje o żądanej stronie internetowej
„intitle” (intitle: zalecenie bezpieczeństwa), wyświetla adres URL, który ma pierwszy termin w tytule, a pozostałe w dowolnym miejscu na stronie.
„inurl” — (inurl: wskazówka dotycząca bezpieczeństwa) wyświetla adresy URL zawierające pierwszy termin w swoim adresie URL i pozostałe warunki w dowolnym miejscu na stronie
„języki” — (wyszukiwanie zaawansowane Google, brak skrótu), wyświetla tylko wyniki w określonym języku
„link” — (link: www.deny.de) wyświetla wszystkie adresy URL prowadzące do strony
„zdarzenia” — (wyszukiwanie zaawansowane Google, brak skrótu) określa, gdzie wyszukiwane hasło musi wystąpić na stronie
„wyszukiwanie fraz” („aby mieć oko”), tylko adresy URL są wyświetlane tam, gdzie fraza jest zapisana w ten sposób. Nie pokaże wyników, w których występuje tylko część frazy
„related” — (related: www.deny.de), wyświetla tylko podobne strony
„bezpieczne wyszukiwanie” — (wyszukiwanie zaawansowane Google, bez skrótu), filtruje adresy URL zawierające nieodpowiednie strony dla nieletnich, na przykład strony pornograficzne
„strona” — (strona bezpieczeństwa: www.securityadvise.de), przetwarza tylko jeden adres URL dla warunków
„zaklęcie” — (zaklęcie: porada), zaklęcie sprawdza termin
„zapasy” — (zapasy: YHOO), wyświetla informacje finansowe o firmach, potrzebujesz specjalnego kodu firmy, aby go wyszukać, otrzymujesz ten kod na Yahoo (http://finance.yahoo.com/l