Google wyjaśnia istotne aspekty indeksowania stron

Niedawno w dość obszernym – jak na standardy firmy Google – wpisie Garry Illyes wyjaśnił w jaki sposób roboty indeksujące alokują swoje zasoby. Jak zawsze, warto zapoznać się z komunikatami tej firmy, jednak zachęcamy do sięgnięcia po The SEM Post, gdzie niezawodna Jennifer Slegg opublikowała znacznie szerszą, świetną syntezę tematu. Co ciekawe, przygotowała ją we współpracy z tym samym Garrym Illyesem. To nie pierwszy raz, gdy treści dotyczące Google są znacznie lepsze na zewnętrznych blogach niż w oficjalnych kanałach komunikacji – szewc bez butów chodzi.

Oba źródła posługują się terminem „crawl budget”, który w wolnym ale wiernym tłumaczeniu oznacza ograniczony czas przebywania robotów indeksujących na danej stronie. Firma Google dość precyzyjnie zarządza działaniem swoich automatów by możliwie najszybciej i najwydajniej przetwarzać jak najwięcej wartościowych danych z internetu. Z tym wiążą się oczywiście ograniczenia, które z punktu widzenia pozycjonowania mogą dotknąć właścicieli obszerniejszych stron.

Opracowanie ma bagatela 38 tysięcy znaków i oczywiście jest po angielsku, stąd dla zniesienia bariery czasowo-językowej, przygotowaliśmy najważniejsze wnioski:
– Strony poniżej 4000 adresów nie muszą przejmować się czasem spędzanym przez roboty indeksujące.
– Każda nowa domena jest odwiedzana domyślnie tyle samo razy, dopiero później tempo indeksowania jest dostosowywane do stanu strony.
– Częstość odwiedzin jest obniżana przez niski czas odpowiedzi serwera i występowanie błędów 5xx.
– Roboty indeksujące starają się częściej odwiedzać popularne adresy.
– Pliki CSS i JavaScript również zużywają czas robotów indeksujących.
– Adresy podane w sitemap są częściej indeksowane niż podstrony wykryte samodzielnie przez roboty indeksujące.
– Wszelkie poważne zmiany w strukturze adresów, na przykład wdrożenie certyfikatu SSL, powodują chwilowy duży wzrost aktywności robotów.
– Podstrony czy nawet całe domeny z treścią niskiej jakości są rzadziej indeksowane.
– Google odradza używania atrybutu rel=”nofollow” w linkach nawigacji. Zamiast niego, znacznie lepszym rozwiązaniem ma być meta tag noindex oraz komenda disallow.
– Robot indeksujący weryfikuje zawartość tagu canonical, poświęca czas na sprawdzenie czy faktycznie podany adres jest duplikatem.
– Robot indeksujący podąża maksymalnie za 5 następującymi po sobie przekierowaniami 301.
– Wpuszczanie robotów indeksujących do duplikatów podstron z parametrami w adresie (np. filtry kategorii), z identyfikatorami sesji, do pustych i spamowych podstron zużywa zasoby robotów indeksujących i powoduje, że mogą one nie zaindeksować pozostałych ważniejszych podstron.

Jeden z najciekawszych wątków to konsekwentne zaprzeczanie jakimkolwiek korelacjom zmian w indeksowaniu danej domeny ze zmianami rankingowymi wpływającymi na tą domenę. Usłyszeliśmy bowiem wyraźnie, że strony bardziej poularne są częściej indeksowane, a te o niższej jakości rzadziej. Można z tego wyciągnąć bardzo jasny wniosek, na co zresztą wskazuje Jennifer Slegg:

Co dokładnie Google używa by ustalić popularność? Google nie podzieliło się żadnymi szczegółami, prawdopodobnie żeby uniemożliwić spamerom manipulację tego elementu.

Tymczasem w wielu miejscach ([1] [2] [3]) jesteśmy zapewniani, że nie można łączyć zmian w rankingu ze zmianami w indeksowaniu. Sprzeczność jest oczywista.

Liczymy, że Google będzie kontynuować przejawy otwartej komunikacji w temacie istotnych elementów funkcjonowania wyszukiwarki.

Źródła: Webmasters.googleblog.com, TheSEMPost.com. Źródło grafiki: LCN.com.

Komentarze: 4

  • Paweł Gawliński

    Paweł Gawliński

    Odpowiedz

    Czyli de facto, trzeba dobrze zoptymalizować stronę i mieć do tego jeszcze dobry serwer 🙂

  • Adam Adamczyk

    Adam Adamczyk

    Odpowiedz

    Dokładnie dobra optymalizacja, a czas odpowiedzi serwera jest bardzo częstym problemem stron. Czasem strony są tak przeładowane JavaScript-em, CSS-em Jquery itp. że to już nawet przesada jest dla użytkownika.

  • Andrzej

    Andrzej

    Odpowiedz

    Szybkość ładowania strony jest wg mnie najważniejsza.

  • Rafał Dziurowicz

    Rafał Dziurowicz

    Odpowiedz

    Szybkość ładowania strony w Google jest ważna, żeby ją sprawdzić możemy zajrzeć do analyticsa, dobry serwer i zaplecze w różnych zakątkach świata, no i ograniczać pluginy

Skomentuj

Twój email nie zostanie upubliczniony. Wymagane pola zostały oznaczone *
Możesz używać następujących tagów HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>