Oba źródła posługują się terminem „crawl budget”, który w wolnym ale wiernym tłumaczeniu oznacza ograniczony czas przebywania robotów indeksujących na danej stronie. Firma Google dość precyzyjnie zarządza działaniem swoich automatów by możliwie najszybciej i najwydajniej przetwarzać jak najwięcej wartościowych danych z internetu. Z tym wiążą się oczywiście ograniczenia, które z punktu widzenia pozycjonowania mogą dotknąć właścicieli obszerniejszych stron.
Opracowanie ma bagatela 38 tysięcy znaków i oczywiście jest po angielsku, stąd dla zniesienia bariery czasowo-językowej, przygotowaliśmy najważniejsze wnioski:
– Strony poniżej 4000 adresów nie muszą przejmować się czasem spędzanym przez roboty indeksujące.
– Każda nowa domena jest odwiedzana domyślnie tyle samo razy, dopiero później tempo indeksowania jest dostosowywane do stanu strony.
– Częstość odwiedzin jest obniżana przez niski czas odpowiedzi serwera i występowanie błędów 5xx.
– Roboty indeksujące starają się częściej odwiedzać popularne adresy.
– Pliki CSS i JavaScript również zużywają czas robotów indeksujących.
– Adresy podane w sitemap są częściej indeksowane niż podstrony wykryte samodzielnie przez roboty indeksujące.
– Wszelkie poważne zmiany w strukturze adresów, na przykład wdrożenie certyfikatu SSL, powodują chwilowy duży wzrost aktywności robotów.
– Podstrony czy nawet całe domeny z treścią niskiej jakości są rzadziej indeksowane.
– Google odradza używania atrybutu rel=”nofollow” w linkach nawigacji. Zamiast niego, znacznie lepszym rozwiązaniem ma być meta tag noindex oraz komenda disallow.
– Robot indeksujący weryfikuje zawartość tagu canonical, poświęca czas na sprawdzenie czy faktycznie podany adres jest duplikatem.
– Robot indeksujący podąża maksymalnie za 5 następującymi po sobie przekierowaniami 301.
– Wpuszczanie robotów indeksujących do duplikatów podstron z parametrami w adresie (np. filtry kategorii), z identyfikatorami sesji, do pustych i spamowych podstron zużywa zasoby robotów indeksujących i powoduje, że mogą one nie zaindeksować pozostałych ważniejszych podstron.
Jeden z najciekawszych wątków to konsekwentne zaprzeczanie jakimkolwiek korelacjom zmian w indeksowaniu danej domeny ze zmianami rankingowymi wpływającymi na tą domenę. Usłyszeliśmy bowiem wyraźnie, że strony bardziej poularne są częściej indeksowane, a te o niższej jakości rzadziej. Można z tego wyciągnąć bardzo jasny wniosek, na co zresztą wskazuje Jennifer Slegg:
Co dokładnie Google używa by ustalić popularność? Google nie podzieliło się żadnymi szczegółami, prawdopodobnie żeby uniemożliwić spamerom manipulację tego elementu.
Tymczasem w wielu miejscach ([1] [2] [3]) jesteśmy zapewniani, że nie można łączyć zmian w rankingu ze zmianami w indeksowaniu. Sprzeczność jest oczywista.
Liczymy, że Google będzie kontynuować przejawy otwartej komunikacji w temacie istotnych elementów funkcjonowania wyszukiwarki.
Źródła: Webmasters.googleblog.com, TheSEMPost.com. Źródło grafiki: LCN.com.
4 komentarze
Paweł Gawliński
Czyli de facto, trzeba dobrze zoptymalizować stronę i mieć do tego jeszcze dobry serwer 🙂
Adam Adamczyk
Dokładnie dobra optymalizacja, a czas odpowiedzi serwera jest bardzo częstym problemem stron. Czasem strony są tak przeładowane JavaScript-em, CSS-em Jquery itp. że to już nawet przesada jest dla użytkownika.
Andrzej
Szybkość ładowania strony jest wg mnie najważniejsza.
Rafał Dziurowicz
Szybkość ładowania strony w Google jest ważna, żeby ją sprawdzić możemy zajrzeć do analyticsa, dobry serwer i zaplecze w różnych zakątkach świata, no i ograniczać pluginy