Novum et nihil novi: RankBrain

Pomiędzy mijającą aktualizacją algorytmu Panda, a nadchodzącą aktualizacją Pingwina, korporacja Google ni stąd ni zowąd oznajmiła, że od pewnego czasu testuje algorytm o ambitnej nazwie RankBrain. Zrobiła to w znamienny sposób, bo nie padło o tym słowo ani na blogu Google Webmaster Central ani na konferencjach Search Marketing Expo – algorytm został przedstawiony w czasopiśmie Bloomberg Business.

Ignorowanie branży marketingowej i twórców internetu? Oczywiście można tak interpretować, ale to byłoby bardzo płytkie spojrzenie. Nieprzypadkowo kilka dni wcześniej w tym samym dzienniku pojawił artykuł o rekordowych zarobkach spółki Alphabet, która od sierpnia jest matką wyszukiwarki Google, map Google, serwisu YouTube i innych. Nie da się nie zauważyć, że news o RankBrain jest kierowany przede wszystkim do świata biznesu. Synonimizuje jeszcze świeży holding Alphabet z najnowszymi technologiami, a potencjalnych partnerów biznesowych kusi miejscami w pierwszym rzędzie w wyścigu o przyszłość rodem z filmów sci-fi.

Jak to działa?

Sam algorytm, czy raczej jak stwierdził pracownik Google Greg Corrado: system sztucznej inteligencji, od strony technicznej został bardzo lakonicznie opisany. Pewne jest, że przede wszystkim zgaduje co miał na myśli autor zapytania. Bill Slawski cynicznie streścił to do:

Kolejna próba przepisywania zapytań przez Google, alternatywna do ich dotychczasowych prób przepisywania zapytań.

W kwestii szczegółów jedyne co padło ze strony giganta wyszukiwarek to „matematyczne łączenie wyrazów i fraz, czyli wektory słów„. SEL po pytaniu o tą kwestię został odesłany przez Google do wpisu z 2013 roku. Pada tam całkiem zgrabny opis tego czym w założeniu jest RankBrain:

Pokazaliśmy, że komputery potrafią nauczyć się rozpoznawać koty (i wiele innych obiektów) wyłącznie poprzez obserwację dużej ilości obrazów, bez szczegółowego treningu wykładającego cechy wyglądu kota. Teraz stosujemy sieci neuronowe do rozumienia wyrazów po przeczytaniu przez nie dużych objętości treści z internetu. (…) Przykładowo, system rozumie że Paryż i Francję łączy ten sam rodzaj relacji co Berlin i Niemcy, a także inny rodzaj relacji niż Madryt i Włochy. Poniższy wykres pokazuje jak system nauczył się tych relacji wyłącznie dzięki czytaniu wielu niusów, bez nadzoru człowieka:

Najciekawszy jest fakt, że nie ustaliliśmy informacji, które mają być zbierane. Podczas testów automatycznie powstało wiele analogicznych wzorców.

Powyższy wykres pochodzi z pracy naukowej pracowników firmy Google. W tym całkiem ciekawym dokumencie opisany jest wyłącznie sam proces treningu i nauczania algorytmu. System najbardziej ceni bliskie wystąpienia fraz i wyrazów z umiarkowaną częstością. Zbyt niska oznacza brak związku, natomiast zbyt wysoka oznacza zazwyczaj części mowy (przyimki, zaimki i inne). Do powiązania powyższych krajów ze stolicami potrzebował przetworzenia około miliarda słów. Z kolei poniżej przykłady czterech najbliższych skojarzeń algorytmu po przetworzeniu 33 miliardów słów:

I wyjaśnienie z samej pracy skąd algorytm skojarzył Wołgę jako rosyjską rzekę:

„Volga River” występuje często w pobliżu wyrazów „Russian” oraz „river”.

Tak RankBrain się uczy, a jak zgodnie z jego nazwą kodową… rankuje?

Trzymając się powyższego przykładu, po wpisaniu frazy „rosyjska rzeka” w wyszukiwarkę Google jak i w wyszukiwarkę DuckDuckGo nie ma istotnych różnic. W obu królują encyklopedie i krzyżówki. Podobnie jest z „francuską aktorką” czy „stolicą Wietnamu”. Ba, nawet po wpisaniu „russian river” (oczywiście przez proxy z lokalizacją amerykańską) wcale nie wyskoczyła Wołga ani inne rosyjskie rzeki, a zamiast nich browar, biuro podróży i tym podobne marki. Jeżeli RankBrain jest czymś więcej niż PR-ową zagrywką to do przykładów sprzed dwóch lat jeszcze nie dotarł.

SEL w poszukiwaniu podobnych przykładów, dostało z samego Mountain View frazę „how many tablespoons in a cup?”, która za sprawą RankBrain miała uwzględniać m.in. różnice w systemach miar w relacji z lokalizacją użytkownika. Jednak i ten przykład jest wątpliwy, bo nawet bez nowego systemu wyświetlałyby się strony głównie zgodne z lokalizacją, a więc tak czy siak te różnice byłyby uwzględnione. Czyżby więc lakoniczność korporacji Google wynikała tym razem z tego, że… nie mają nic do pokazania?

Na tropach efektów systemu RankBrain możemy też spróbować się cofnąć o kilka miesięcy wstecz, kiedy zgodnie ze słowami pracowników Google wystartował RankBrain. Ostatnia nienazwana aktualizacja miała miejsce w maju 2015 roku:

Na początku tego miesiąca wszyscy zanotowali większe niż zazwyczaj zmiany pozycji. W branży przetoczyła się fala artykułów o nienazwanej aktualizacji dotyczącej oceny jakości. Czy można to powiązać z pierwszą iteracją RankBrain? Najwięksi przegrani majowej aktualizacji to Hubpages.com – serwis społecznościowy oparty o artykuły stracił 1/4 ruchu. Pracownicy Google wprost stwierdzili, że to wynikło ze zmiany oceniania treści – teoretycznie RankBrain mieści się w tej definicji. Niestety zgodnie z polityką giganta, na razie pozostanie pozostanie to w sferze spekulacji.

Czyli nic nowego?

W oryginalnym artykule w Bloombergu pada wiele ciekawie brzmiących twierdzeń, które niestety nic nie znaczą. Przykładowo Corrado oświadcza, że RankBrain jest obecnie już trzecim najważniejszym czynnikiem rankingowym. W jakiej części zapytań? Nawet jeżeli przyjmiemy to za średnią dla wszystkich fraz, to przecież dość prawdopodobna jest sytuacja, w której dla fraz z długiego ogona RankBrain jest pierwszy i decydujący, a dla pozostałych jest mniej ważnym czynnikiem rankingowym niż argumenty alt przy obrazkach. Ciężko też uwierzyć, że cała branża SEO nie zauważyła tak kolosalnej zmiany jak wprowadzenie zupełnie nowego i bardzo ważnego czynnika rankingowego w ciągu ostatnich kilku miesięcy. Inny świetny przykład to: „wyłączenie RankBrain przyniosłoby podobne efekty co zrezygnowanie z połowy treści Wikipedii”. Google od pewnego czasu uwielbia umieszczać wikipedyjne wpisy na pierwszych miejscach w wynikach wyszukiwania, ale zazwyczaj je omijam, ponieważ często wprowadzają w błąd. Wie o tym każdy, kto rozumie pewien temat na poziomie dochodzącym do akademickiego i przeglądał o nim wpisy na Wikipedii…

Mamy więc ogłoszone novum jakim jest, zgodnie ze słowami Corrado, pierwsza sieć neuronowa wśród czynników rankingowych. Ale zmian gołym okiem nie widać, a szczegółów nikt nie chce ujawnić. Kontynuowana jest polityka milczenia, do której już przyzwyczaiła nas korporacja Google – nihil novi.

Zalinkowane źródła: Bloomberg.com, TheSEMPost.com, SearchEngineLand.com, Google-Opensource.blogspot.com, NIPS.cc. Grafiki: ExtremeTech.com, Bloomberg.com, NIPS.cc, Google.com, Algoroo.com.

Komentarze: 3

  • Kamil Bak

    Kamil Bak

    Odpowiedz

    Czysta spekulacja, z jakiegoś powodu podali to tylko w czasopiśmie. Równie dobrze może to być zagrywka PRowa

  • mateusz

    mateusz

    Odpowiedz

    Czech
    polish zołty 😀

  • youtube

    youtube

    Odpowiedz

    Zgadzam sie z przedmowca.
    Zainspirowal mnie on do nowego interesujacego wpisu, ktory zobaczycie niebawem na youtube.

Skomentuj

Twój email nie zostanie upubliczniony. Wymagane pola zostały oznaczone *
Możesz używać następujących tagów HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>