Zmiany w sposobie liczenia Page Rank

Patent Google

Written by:

Analiza patentu „Producing a ranking for pages using distances in a web-link graph”. dotyczącego liczenia Page Ranku.

Abstrakt:

„(..) In one aspect, a system receives a set of pages to be ranked, wherein the set of pages are interconnected with links. The system also receives a set of seed pages which include outgoing links to the set of pages. The system then assigns lengths to the links based on properties of the links and properties of the pages attached to the links. The system next computes shortest distances from the set of seed pages to each page in the set of pages based on the lengths of the links between the pages. Next, the system determines a ranking score for each page in the set of pages based on the computed shortest distances. The system then produces a ranking for the set of pages based on the ranking scores for the set of pages.”

Google na początku opracowuje zbiór stron, które są najwyższej jakości dla użytkowników, nazywa je ziarnami, a następnie bada odległość „w linkach” pomiędzy tymi stronami a innymi stronami w Internecie, które wymagają oceny przez algorytm. Im bliżej dana strona znajduję się strony „ziarna” tym  dostaje więcej punktów w rankingu.

 

Algorytm sędziów - ziarna

Mechanizm opiera się na założeniu, że dobre strony rzadko linkują do kiepskich. Im dalej od „ziaren” tym większe prawdopodobieństwo, że strona jest SPAMem. Przypomina to bardzo definicje trust ranku z majestic SEO (który prywatnie oceniam jako najbardziej miarodajny nie googlowy wskaźnik jakości strony).

„Wskaźnik Trust Flow (przepływu linków zaufanych), będący znakiem towarowym Majestic, jest wynikiem opartym na jakości w ramach skali od 0 do 100. Majestic zestawia wiele zaufanych stron internetowych w oparciu o ręczne przeglądanie sieci. Proces ten tworzy fundament wskaźnika Trust Flow (przepływu linków zaufanych) Majestic. Strony dokładnie linkujące do zaufanej strony źródłowej mogą otrzymać wyższe wyniki, a strony, które mogą zawierać wątpliwe linki otrzymają dużo niższy wynik.”

Proces opisany w patencie Google jest oparty na tym samym założeniu. Najpierw określamy ręcznie, które strony są najlepszej jakości, następnie określamy jak daleko znajdują się w sieci linkowania inne strony od tych najlepszej jakości. Im dalej tym gorzej.

Algorytm Sędziów

To jest tak zwany algorytm sędziów, jeden z filarów rozumienia tego jak działają rankingi wyszukiwarek.

Alogrytm przedstawia w jaki sposób  nałożyć algorytm sędziów na dotychczasowy algorytm PR by zmniejszyć możliwość manipulowania PR przez SPAM.

Najciekawszym elementem tego patentu jest ten fragment:

Generally, it is desirable to use large number of seed pages to accommodate the different languages and a wide range of fields which are contained in the fast growing web contents. Unfortunately, this variation of PageRank requires solving the entire system for each seed separately. Hence, as the number of seed pages increases, the complexity of computation increases linearly, thereby limiting the number of seeds that can be practically used.”

Mniej więcej idzie to w tym kierunku, że zastosowanie takiego mechanizmu wymaga podziału na języki i konkretne tematyki PR. W tym samym kierunku poszedł majestic tworząc swój „Topical Trust Flow”

„Wskaźnik ten jest funkcją Majestic umożliwiającą kategoryzację strony internetowej. Majestic umożliwia obecnie kategoryzowanie sieci, w związku z powyższym użytkownicy mogą zobaczyć, w ramach którego sektora przemysłowego dana strona internetowa funkcjonuje. Wskaźnik Topical Trust Flow (przepływu tematycznych linków zaufanych) pomaga użytkownikom wyszukać czynniki wpływające na określone kategorie i łatwe określenie, czy wymagane jest skasowanie linku. Wskaźnik Topical Trust Flow (przepływu tematycznych linków zaufanych) dostarcza serię liczb na skali opartej o rejestr w zakresie od 0 do 100. Liczba wskazuje względny wpływ strony internetowej, subdomeny lub domeny głównej w ramach dowolnej tematyki lub kategorii.”

Sprowadzając sprawę do wzorów matematycznych.  Dotychczasowy PR wyglądał tak:

algorytm page rank stary

natomiast po modyfikacji wygląda tak:

algorytm page rank nowy

Nie wymagam od nikogo oczywiście, żeby dokładnie rozumiał co tu jest napisane. Czym jest PR każdy SEOwiec wie. To co jest ważne, to fakt, że w wyliczeniu pojawił się element (q->p) nowa waga. Tą wagą jest wyliczony dystans danej strony od „ziarna” w jej kategorii i języku. Ziarno zostało zweryfikowane ręcznie.

Czyli dotychczasowy PR to iloczyn starego PR i odległoś ci strony od lidera w branży.

Co to oznacza w praktyce?

Niestety nic odkrywczego, czy sprzecznego z intuicją. Wytyczna praktyczna brzmi: zdobywaj odnośniki z możliwie najlepszych stron w danej kategorii tematycznej w danym języku.

źródła:

 

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *