Wektory znaczeń w Google. Skąd wyszukiwarka wie co znaczy dane słowo? Algorytm User-context-based search engine

Patent Google

Written by:

Patent rozpoczyna się od opisu przewagi katalogu nad wyszukiwarką w kontekście trafności wyniku, do którego dociera użytkownik. Katalog narzuca hierarchie informacji dzięki czemu poszukujący zawężając regularnie tematykę zbliża się do pożądanej informacji. W katalogu jest „kontekst”, punkt odniesienia. Katalog jest jednak bardzo ograniczony. Użytkownik zawsze trafi do tych informacji, które wydały się istotne dla osoby budującej katalog, lub też nie znajdzie żadnej odpowiedzi, która go usatysfakcjonuje.  Proces zajmie dużo czasu.

Zatem pojawia się przestrzeń dla stworzenia rozwiązania, które będzie łączyło zalety katalogu i wyszukiwarki. Google narzędzie owo nazywa w patencie „Data extraction tool”. Ma ono dostarczać w odpowiedzi na zapytanie tekstowe, zbiory danych, owe „dziedziny”, które pojawiają się pod nazwą „domains”.

Wyodrebnianie dziedzin pojec w Google

Algorytm „Rank Brain”

A method and apparatus for determining contexts of information analyzed. Contexts may be determined for words, expressions, and other combinations of words in bodies of knowledge such as encyclopedias. Analysis of use provides a division of the universe of communication or information into domains and selects words or expressions unique to those domains of subject matter as an aid in classifying information. A vocabulary list is created with a macro-context (context vector) for each, dependent upon the number of occurrences of unique terms from a domain, over each of the domains. This system may be used to find information or classify information by subsequent inputs of text, in calculation of macro-contexts, with ultimate determination of lists of micro-contests including terms closely aligned with the subject matter.

Patent opisuje metodę ustalania kontekstu analizowanej informacji. Kontekst może być ustalany dla słów, wyrażeń, i innych kombinacji słów w takich zbiorach danych jak np. encyklopedie. Analiza kontekstowa dzieli „wszechświat komunikacyjny” na dziedziny i przypisuje poszczególne słowa do tych dziedzin w  celu wspomożenia klasyfikowania poszczególnych informacji. Słowniki dla poszczególnych dziedzin tworzone są w oparciu o makro-kontekst każdej z nich. Makro-kontekst  zależy od częstotliwości występowania poszczególnych słów w danej dziedzinie. System ten może być używany do odnajdywania, lub klasyfikowania informacji celem ostatecznego stworzenia listy mikro-konkursów pomiędzy wyrażeniami najbardziej zbliżonymi do poszukiwanego zagadnienia.

Skąd Google wie co znaczy dane słowo?

Jak google poznaje znaczenie wyrazow

Zagadnienie, które opisuje patent dotyczy problemu wieloznaczności słów i wyrażeń. Zamek jak wiemy, może być zarówno zamkiem w drzwiach jak, zamkiem warownym oraz zamkiem w kurtce. Język angielski takich wieloznacznych słów posiada jeszcze więcej niż polski. Kolejnym zagadnieniem są frazeologizmy i inne tego typu twory językowe. W patencie pada przykład „last minute”. Użytkownikowi nie chodzi o ostatnią chwile ale o to że coś można kupić, zwykle taniej. O wszystkim decyduje kontekst – on nadaję hierarchie w dopasowywaniu znaczeń do literalnych ich zapisów.

Zatem wyszukiwarka na początku procesu trawestuje nasze zapytanie na podstawowe pojęcia mające sens we „wszechświecie komunikacji” wyrzucając z niego wszelkie słowa, które dawałyby bezsensowny wynik. W angielskiej wersji będzie to np. „the”.

To co pozostanie z zapytania dzielone jest na „tokeny”, które aktywują poszczególne dziedziny. Te dziedziny rozkładane są następnie na wzór drzewa (po angielsku mówią, że na wzór liścia, ale coś do mnie to nie przemawia), w ramach zgromadzonego „kontekstu” i zawężają stopniowo wraz z powstałym „kontekstem” w trakcie wyszukiwania.

Warto dodać, że za tym pojęciowym „drzewem” kryje się to co uznajemy za posługiwanie się przez Google znaczeniami, a nie literalnymi słowami. Każde słowo/wyrażenie zamieniane jest na wektor kontekstowy. W wielu źródłach można znaleźć informacje, że za ten proces odpowiada RankBrain. Czyli Google nie operuje literalnymi wyrażeniami ale wektorami znaczeń przypisanymi do danego ciągu znaków. Przypomnijmy sobie z matematyki co to był wektor.

Wektor znaczenia w Google

mozliwe znaczenia

Koniecznie otwórzcie ten link czytając https://twitter.com/paulreilly/status/711397493855145985

Za danym ciągiem znaków kryje się pewna przestrzeń możliwych „jednostek/ entities” czyli zbiór danych. W skład „dziedzin” wchodzą wektory, a nie słowa. Dany wektor może być przypisany do wielu dziedzin. Kontekst ma pomóc wybrać dziedzinę, a co za tym idzie sens tego czego poszukiwał użytkownik.

znaczenie wyrazu dla wyszukiwarki

Wektor posiada punkt zaczepienia, długość, zwrot i kierunek. Zatem dziedzinę można spróbować interpretować jako kierunek i zwrot. (przypuszczenie autora)

Skąd się biorą konteksty znaczeń słów?

Kontekst może wziąć się z samego zapytania. Może pochodzić z zapytań związanych z danym zapytaniem. Może brać się z poprzednich zapytań użytkownika i innych danych, które na jego temat są w posiadaniu wyszukiwarki np. google plus, gmail, targetowanie behawioralne,  dotychczasowa historia wyszukiwania itp.

W patencie w tym temacie przedstawione są trzy metody kontekstu:

Keyword solutions – metoda, która wyjmuje „dziedziny” spośród których zostaną dobrane wyniki na podstawie częstotliwości występowania w nich słów z zapytania.

Mathematical and statistical solutions – metoda kierująca się jakimś bliżej nie opisanym w patencie wzorem na wyliczenie która dziedzina będzie najtrafniejsza.  Być może tutaj kryję się „RankBrain” w pełnej krasie, czyli głębokie uczenie maszynowe. Na podstawi setek tysięcy danych Google  może się uczyć, że przy występowaniu takich, a nie innych wektorów razem użytkownikowi chodzi z odpowiednim prawdopodobieństwem o konkretną rzecz. Na podparcie tej tezy mam informacje, że Google ma używać RankBrain przy około 15% nie znanych mu wcześniej zapytań. Skoro ich nie zna, to nie ma kontekstu i musi go sobie „dorobić”.

Rule-based solutions – metoda przypisania ręcznie kontekstu do frazy.

Dopiero po przejściu przez ten proces wyszukiwarka wybiera co powinno wyświetlić się w SERPie. Tutaj nie rozstrzygamy o kolejności wyników, ale o samym zakwalifikowaniu się do konkursu pomiędzy stronami – czy dana strona spełnia wymogi formalne do wzięcia udziału w zawodach na pierwsze miejsce w wyszukiwarce.

Swoją drogą filozofia już wieki temu ustaliła, że rozumienie odnosi się „siatki pojęciowej” w głowie. To co opisuje ten patent i pozostałe źródła i w co jest zaangażowany rank brain to przeniesienie „słów” na dane matematyczne i umiejscowienie tych danych na siatce pojęciowej i ponowne zebranie takiej wiedzy do kupy w jakimś kontekście – czyli rozumienie.

źródła:

 

 

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *