Czy Google bierze pod uwagę CTR lub bounce rate w SERPie?

Patent Google

Written by:

Modyfikowanie wyników wyszukiwania w oparciu o aktywność użytkownika to temat jednego z patentów Google. Nie wiadomo czy jest on w użyciu, porusza jednak bardzo interesujące zagadnienie. Czy kliki użytkowników mogą wpływać na ranking? Patent opisuje w jaki sposób mogłoby to przebiegać.

Rzecznik google (Gary Illyes from Google) oczywiście zaprzecza, jakoby taki proces miał miejsce. Stwierdził publicznie, że taki sygnał jest zbyt „hałaśliwy” (CTR byłby zbyt łatwy do zmanipulowania). Według jego relacji Google używa tego wskaźnika tylko do „oceny i testów”, nie do tworzenia rankingu. Przyznał, że metoda ta jest ciekawa w kontekście personalizacji wyników i odsiania wieloznacznych słów. Jako przykład podana jest firma apple. Jeśli użytkownik wielokrotnie nie szukał jabłka pod tym słowem, to google będzie z większą pewnością podsuwał mu wyniki związane z firmą apple. Inny przykład python – wąż czy język kodowania?

Można domniemać, że np. Google rzeczywiście nie używa tego mechanizmu do budowania rankingu, ale używa go do testowania skuteczności zmian jakie wprowadzane są do rankingu. Czyli po każdym przetasowaniu Google może sprawdzać swój wskaźnik skuteczności na zasadzie – czy użytkownicy szybciej odnajdują odpowiednią informacje na dane zapytanie niż przed zmianami? Porównuje rozkład klików przed i po zmianie i ewentualnie go koryguje.

Możliwe jest też podejście, że Google może oficjalnie twierdzić, że nie korzysta z CTR do budowania rankingu, ale to nie znaczy, że nie korzysta z braku CTR by daną stronę w rankingu obniżyć, albo też posługuje się pojęciem „powrotów do SERPU”. Ich deklaracje bywają przewrotne w tym względzie.

Patent mówi:

The general assumption under such an approach is that searching users are often the best judges of relevance, so that if they select a particular search result, it is likely to be relevant, or at least more relevant than the presented alternatives.”

Użytkownicy którzy wyszukują danej informacji często są najlepszymi sędziami odnośnie trafności danej strony co do jej dopasowania do poszukiwanej informacji. Oni dokonując wyboru oceniają czy coś jest trafniejsze od pozostałych wyników.

Patent wskazuje obszary zapytań, w których ten mechanizm może być użyteczny. Mowa jest o tym, że mechanizm zaczyna działać dopiero po przekroczeniu odpowiedniej ilości kliknięć w odpowiednim czasie. Testy Fishkina z Mozza pokazały, że ta bariera to 500 kliknięć.

Istotne jest, że Google nie mówi w patencie na temat Bounce rate, mówi o tym by badać co użytkownicy wybierają spośród możliwych wyników.

Abstrakt:

„In general, the subject matter described in this specification can be embodied in a method that includes: obtaining user feedback associated with quality of an electronic document; adjusting a measure of relevance for the electronic document based on a temporal element of the user feedback; and outputting the measure of relevance to a ranking engine for ranking of search results, including the electronic document, for a search for which the electronic document is returned.”

Patent mówi o tym jak uzyskać informacje zwrotną o jakości dokumentów elektronicznych od użytkowników. Wskazuje jak wydobyć miarę trafności dokumentów elektronicznych w oparciu informacje zwrotne od użytkowników pozyskane w danym czasie i zastosować ją  do rezultatów wyszukiwania.

„Obtaining the user feedback can include receiving user selections of documents presented by a document search service, the method can include evaluating the user selections in accordance with an implicit user feedback model to determine the measure of relevance, and adjusting the measure of relevance can include adjusting the measure of relevance in accordance with the implicit user feedback model”

Pozyskiwane informacje zwrotne od użytkowników mogą być pozyskiwane od użytkowników korzystających z wyszukiwarki. Metoda może zawierać wyliczenie wskaźnika trafności wynikającego z  domniemanego modelu zachowań użytkowników porównanego do rzeczywistego.

Niestety to co napisali w abstrakcie wygląda jak mocny bełkot, dużo lepiej prezentuję się to na załączonych do patentu obrazkach:

Modyfikowanie wyników wyszukiwania w oparciu o aktywność użytkownika

Patrząc na logikę wynikającą z powyższej ilustracji można dojść do wniosku, że system mierzenia klików użytkowników służy do porównania czasowych tendencji kliknięć użytkowników do typowego modelu pozbawionego owej czasowej tendencji i implementowaniu owych czasowych zmian do rankingu.

Proces badania CTRu w Google

  1. zbieranie danych o klikach userów
  2. Ocena kliknięć userów z przewidywanym modelem kliknięć
  3. Ocena znaczenia zmian czasowych
  4. Wyciągniecie z tego wniosków i ich implementacja do rankingu.

Takie rozumowanie świetnie pasuje do potwierdzających tę tezę testów Fischkina, który to miał przy pomocy swoich followerów na twiterze klikami wywindować swojego twitta na szczyt rankingu. Zaszedłby w tym wypadku dokładnie taki proces jak wyżej opisany – jeden SERP z tweetem np. na 10 miejscu zostałby porównany do innego SERPa dotychczas pasującego pod jakieś hasło który został czasowo zakłócony w rozkładzie CTRu pojawieniem się tweeta. Zaburzenie zostałoby ocenione pod względem istotności. Uznane za istotne wysłałoby sygnał, że w SERPie trzeba dany wynik podnieść.

Warto tutaj też zerknąć w kontekście tego co wyżej na cytat z patentu:

Adjusting the measure of relevance can include comparing change over time in user selections of the electronic document with change over time in user selections of the documents. The implicit user feedback model can include a background population click trend model and adjusting the measure of relevance can include: determining a likelihood ratio for the electronic document and the documents with respect to the background population click trend model; and modifying the measure of relevance for the electronic document based on a difference between a document click trend model for the electronic document and the background population click trend model.”

Modyfikowanie wyników wyszukiwania w oparciu o aktywność użytkownika 2

Pojawia nam tu się pojęcie „background population click trend model” i mowa jest wprost o porównywaniu modelu trendu kliknięć do modelu tła kliknięć. Patrząc na ilustracje poruszająca to zagadnienie możemy pójść krok dalej. Powstaje nam wskaźnik/stosunek wynikający z owego porównania różnych układów kliknięć który jest brany pod uwagę do zmiany rankingu po przekroczeniu pewnego progu. O owych progach bardzo wyraźnie jest mowa w poniższej ilustracji:

Modyfikowanie wyników wyszukiwania w oparciu o aktywność użytkownika

Wygląda na to że brane są pod uwagę kliknięcia nie starsze niż dwa tygodnie. Kliknięcia między dwa tygodnie a cztery mają 15% redukcje znaczenia. Kliknięcia starsze niż 8 miesięcy mają już 80% redukcje znaczenia.

Mega ciekawy wydaję mi się poniższy fragment:

„When the ratio passes a selected threshold, the candidate result is considered to behave differently than the background population, and a document click trend model can be generated 4150. The model class can be fit to the candidate result’s click trend to obtain the document click trend model (M2), and the rate of change of models M1 and M2 can be compared. For example, if the models M1 and M2 are linear, then the slopes of the two lines can be compared.

      Finally, the measure of relevance for the given document (candidate result) can be modified 4160 based on one or more differences in change over time of the two click trend models. For example, if the rate of change of M2 is larger than that of M1, the candidate result can be promoted, and if the candidate’s rate of change is less, then it can be demoted. To help ensure that only the most significant trends are captured, the applied boost can be relatively conservative. An example boost formula can be:

          B*sqrt(M2/M1)

where B is the normal boost value, M2 is the rate of change of the document click trend model, and M1 is the rate of change of the background model. This type of approach can be used in order to dampen the effects and produce a relatively conservative boost.”

Pojawia się w nim matematyczny algorytm mówiący o tym jak działa ten algorytm.

B to normalnie wyliczana wartość wzrostu, tą mnożymy przez pierwiastek ze stosunku modelu zmiany trendu podzielony na model tła. W ten oto sposób pojawia się dodatkowy wzrost bądź spadek danego wyniku. Czyli CTR może zwiększać normalnie wyliczony wzrost dla danego wyniku o dodatkową wartość. Z samego CTRu nie wyniknie wzrost, on tylko go może podkręcić. Tak trzeba wnioskować z równania.

Obrazki w patentach są bardzo ciekawe i wyjaśniają więcej niż ostro zawiły tekst. np.:

Modyfikowanie wyników wyszukiwania w oparciu o aktywność użytkownika

Z powyższego wynika pewna struktura procesu budowy rankingu. Mamy różne silniki odpowiadające za:

  • indeksowanie,
  • punktowanie,
  • budowę rankingu,
  • śledzenie,
  • archiwum logów zmian w wynikach
  • silnik modyfikacji.

Czerwoną strzałą zaznaczyłem gdzie według mnie mieści się ów algortym CTRu. Patrząc na jego definicje uważam, że jest on procesem zachodzącym pomiędzy śledzeniem, logami archiwalnych wyników a silnikiem modyfikacji rankingu. Zakładam, że  ocena CTR znajduję się w mechanizmach związanych z informacjami zwrotnymi na temat oceny SERPu i ewentualnego korygowania danej kolejności elementów.

Warto też dodać, że patent poświęca uwagę zagadnieniu algorytmicznego wychwytywania sztucznych spamowych kliknięć. Wymienione są dwie metody:

(1) ensure democracy in the votes (e.g., one single vote per cookie and/or IP for a given query-URL (Universal Resource Locator) pair), and (2) entirely remove the information coming from cookies or IP addresses that do not look natural in their browsing behavior (e.g., abnormal distribution of click positions, click durations, clicks per minute/hour/day, etc.). Suspicious clicks can be removed, and the click signals for queries that appear to be spammed need not be used (e.g., queries for which the clicks feature a distribution of user agents, cookie ages, etc. that do not look normal).

  1. metoda to tak zwana demokracja głosowania. Jedno IP, cookies – jeden głos.
  2. Eliminacja głosów z tych IP, Cookiesów które nie odpowiadają normalnemu zachowaniu użytkownika w przeglądarce. Jako sygnały rozpatruje się np. nienormalny rozkład klików , odstępy czasowe pomiędzy kliknięciami na minutę/godzinę/dzień.

Podsumowując, jeśli patent jest w użyciu to:

  • Google regularnie prowadzi proces oceny własnych SERPów
  • Jednym z elementów tego procesu jest zagadnienie opisywane przez patent czyli porównywanie dwóch SERPów, SERPu zaburzonego pojawieniem się nowego klikanego mocno wyniku i SERPu tła.
  • Wyliczany jest stosunek, który po przekroczeniu pewnej wartości uruchamia mechanizm wzmacniający wzrost danego wyniku w SERPie
  • Wzrost jednak jest tylko wzmacniany, a nie generowany. Czyli gdyby algorytm nie wytypował danego wyniku do wzrostu na podstawie innych przesłanek to wzrost by nie zaistniał. (Jeśli pierwszy element w równaniu byłby 0 to nic by nie urosło).

Czy CTR wpływa na pozycje w Google?

W mojej ocenie rzeczywiście funkcjonuje taki mechanizm, prowadziłem tez własne doświadczenia odnośnie tego zagadnienia. Oto jego metodologia:

Wziąłem portal, na którym studenci wypełniają zadania, które się im przestawi za niewielkie kwoty. Zadanie które dla nich zaprojektowałem brzmiało mniej więcej tak:

Wpisz w google frazę, spisz jaka strona zajmuje 1, 4, 16 miejsce, odnajdź konkretny wynik i go kliknij, znajdź na tej stronie szczegół taki a taki, kliknij i znajdź tam odpowiedź na pytanie.

Chodziło o to aby symulować poszukiwania danego wyniku oraz utrzymać użytkownika długo na stronie zanim wróci ponownie do SERPU. Skala wykonanych zadań wynosiła około 600 – 1000. Koszt wykonania jednego zadania to było ze 2 zł i akacja kosztowała mnie około 2 tys. złotych.

Do windowania wybrałem dwie strony, każda z nich była w okolicach 12 – 15 miejsca. Branża kredytowa, ale jedno z łatwiejszych zagadnień.

Wyniki testu:

Jedna strona wskoczyła z tego top 20 na około 7 pozycje. Druga nie wykazała żadnej reakcji.

Patrząc w kontekście powyższego patentu dochodzę do wniosku że po pierwszej stronie wyczerpała się mi pula studentów do zadania i ten drugi wynik zgarnął znacznie mniej kliknięć , w dłuższym czasie niż pierwszy. To zapewne była przyczyna niepowodzenia –  brak przekroczenia granicy i ze względu na długość doświadczenia powyżej 2 miesięcy spadek znaczenia wpływu kliknięć.

Pierwszy wynik wykazał przeskok o około 10 pozycji bez żadnych działań linkowania obok i tutaj działanie odbyło się w około 2 tygodnie .

Zachęcam nas do prowadzenia własnych testów w tym kierunku.

 

Nazwa patentu:

Modifying search result ranking based on a temporal element of user feedback
Publication Number: 09092510
Publication Date: 28.07.2015
Grant Date: 28.07.2015
Inventors: Robert J. Stets, Jr., Mark Andrew Paskin

Źródła:

https://patentscope.wipo.int/search/en/detail.jsf;jsessionid=CDE0E6A50DC60B00D11403E148AA4D64.wapp1nC?docId=US146703304&recNum=1&maxRec=&office=&prevFilter=&sortOption=&queryString=&tab=PCTDescription

http://www.seobythesea.com/2015/07/google-click-through-feedback-search-results/

http://www.thesempost.com/how-google-uses-clicks-in-search-results-according-to-google/

https://www.google.com/patents/US8495058?dq=inassignee:%22google,+Inc.%22+social+signals&hl=en&sa=X&ei=v7xSU4ayBoWCyQHTsYHICA&ved=0CDcQ6AEwAA

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *