Pod koniec maja 2024 roku można było zauważyć bardzo duże poruszenie wśród specjalistów SEO, które zostało spowodowane „wyciekiem” dokumentu Content Warehouse AI wyszukiwarki Google.
Czym jest dokument AI Warehouse? Jest to rodzaj repozytorium, które służy pracownikom Google do przechowywania, zarządzania oraz przetwarzania wewnętrznych dokumentów, np. formularzy, kontraktów czy meta danych.
Spis treści:
- Co się właściwie stało?
- Ujawnione dane a oficjalne wypowiedzi przedstawicieli Google
- Architektura systemu rankingowego Google
- Praktyczne wskazówki płynące z ujawnionych danych
Co się właściwie stało?
Prawdopodobnie przez błąd konfiguracyjny została upubliczniona wewnętrzna dokumentacja Google, która opisuje dane, jakie Google zbiera oraz może brać pod uwagę podczas ustalania rankingu i wyświetlania wyników wyszukiwania. Według aktualnych informacji zostało ujawnionych ponad 14 000 atrybutów (funkcji) – nie zostały one wprost nazwane czynnikami rankingowymi.
Choć została ujawniona duża ilość danych, nie wiemy, w jakim stopniu wpływają one na pozycjonowanie stron, gdyż wyciekła dokumentacja, a nie sam kod źródłowy. Co więcej, dane nie posiadają przypisanej punktacji (ważenia) oraz informacji o ich aktualności, dlatego niektóre czynniki mogą być już przestarzałe.
Warto również dodać, że Google oficjalnie potwierdziło, że tysiące dokumentów, które wyciekły to w rzeczywistości wewnętrzne dokumenty firmy, które ujawniają pewne aspekty wewnętrznego działania wyszukiwarki Google.
Ujawnione dane a oficjalne wypowiedzi przedstawicieli Google
Jedno jest pewne – ujawnione dane to dowód, że nie należy wierzyć w każde słowo Google. Niestety częste wypowiedzi przedstawicieli Google kłócą się z efektami testów oraz doświadczeniem specjalistów SEO.
Poniżej przytoczę kilka przykładów wypowiedzi przedstawicieli Google:
“We don’t have anything like domain authorithy” – Gary Ilyes – analityk z Google Search Team.
Natomiast w dokumentacji możemy odnaleźć parametr site:Authorithy, co prawda nie wiemy, jak dokładnie działa, ponieważ brakuje informacji o sposobie mierzenia tej funkcji. Dodam, że nie należy go też utożsamiać z Domain Authorithy z Moza, Domain Raitingiem z Ahrefsa, czy analogicznym parametrami z innych, zewnętrznych narzędzi.
„We don’t use clicks for rankings” – dowody na to, że Google wykorzystuje kliknięcia jako przesłankę w swoich w systemach rankingowych, zostały ujawnione już przy procesie antymonopolowym, jaki toczy się przed amerykańskim Departamentem Sprawiedliwości.
Na poniższym screenie można zauważyć, że Google używa zróżnicowanych sygnałów dotyczących kliknięć, które wpływają na pozycjonowanie:
Warto również w tym miejscu wyjaśnić funkcję squashing, której zadaniem jest zapobieganie dominacji jednego sygnału nad pozostałymi. Co to oznacza? Algorytmy normalizują dane kliknięć, by uniknąć manipulacji rankingiem poprzez nienaturalne kliknięcia. Możemy więc założyć, że system jest dobrze wyważony i wchodzenie na własną witrynę nie wpłynie na pozycje Twojej strony.
„There is no sandbox” – rzecznicy Googla zaprzeczali istnieniu tzw. „sandboxa”, który segreguje strony na podstawie wieku hosta (tj. domeny). Natomiast w dokumentacji znajduje się atrybut o nazwie hostAge.
„We don’t use anything from Chrome for ranking” – w ujawnionej dokumentacji widać też atrybuty związane z danymi o ruchu na stronie zarejestrowanymi przez przeglądarkę Chrome. To wskazuje, że google’owa przeglądarka zbiera dane o aktywności użytkowników na poszczególnych stronach (najprawdopodobniej związane z zaangażowaniem), które następnie wykorzystywane są do reewaluacji wyników wyszukiwania.
Oczywiste jest, że przedstawiciele Google mają znaczne ograniczenia w zakresie tego, o czym mogą mówić publicznie na temat wyszukiwarki. Jednakże społeczność seowców nadal powinna kontynuować eksperymenty, aby zweryfikować, co się sprawdza.
Architektura systemu rankingowego Google
W opublikowanej dokumentacji można zobaczyć, że algorytm jest złożonym systemem mikro usług działających symultanicznie, a nie pojedynczym bytem. Poniżej przedstawiamy najważniejszy z nich i ich zadania.
Crawling
Trawler – to system do przeszukiwania sieci. Posiada kolejkę przeszukiwania, utrzymuje tempo skanowania i analizuje, jak często strony się zmieniają.
Indeksowanie
Alexandria – podstawowy system indeksowania.
SegIndexer – system, który klasyfikuje dokumenty pod kątem istotności w indeksie.
TeraGoogle – wtórny system indeksowania dla dokumentów przechowywanych przez długi czas na dysku.
Renderowanie
HtmlrenderWebkitHeadless – system do renderowania stron JavaScript.
Przetwarzanie
LinkExtractor – system do wyodrębniania linków ze stron.
WebMirror – system zarządzania kanonicznością oraz duplikacją.
Ranking
Mustang – podstawowy system oceny, rankingu i prezentowania wyników.
Ascorer – podstawowy algorytm rankingowy, który ocenia strony przed wszelkimi korektami rankingu.
NavBoost – system ponownego rankingu oparty na logach kliknięć użytkowników.
FreshnessTwiddler – system ponownego rankingu dokumentów na podstawie ich świeżości.
WebChooserScorer – definiuje nazwy cech używanych w ocenie fragmentów.
Serving
Google Web Server – GWS to serwer, z którym interfejs Google wchodzi w interakcję. Otrzymuje dane, które zostają wyświetlane użytkownikowi.
SuperRoot – to mózg wyszukiwarki Google, który wysyła wiadomości do serwerów Google i zarządza systemem post-processingu dla ponownego rankingu i prezentacji wyników.
SnippetBrain – system generujący fragmenty wyników.
Glue – system łączący wyniki uniwersalne, wykorzystujący zachowania użytkowników.
Cookbook – system generujący sygnały. Istnieją wskazania, że wartości są tworzone w czasie rzeczywistym.
Praktyczne wskazówki płynące z ujawnionych danych
1. Aby skutecznie rosnąć w wynikach wyszukiwania, strona musi zdobywać kliknięcia z coraz większej liczby fraz oraz ciągle pozyskiwać linki.
2. Google ma możliwość i stara się wyciągać z treści informacje o autorze, dlatego warto zadbać o podpisywanie artykułów i czytelne oznaczanie autorstwa. Google weryfikuje też, czy autor treści jest również autorem strony.
3. Linki nadal są ważnym sygnałem rankingowym, pomimo niedawnych twierdzeń Google, że uznawane są za mniej ważne. Metryka o nazwie sourceType pokazuje relacje między wartością strony, a tym, gdzie się znajduje. Im wyższy poziom witryny i świeższa data podstrony, tym silniejsze linki z niej płyną. Najbardziej wartościowe odnośniki pochodzą ze strony głównej – szczególnie, gdy jest ona regularnie aktualizowana.
4. Strony uważane za „świeże” są również uważane za wysokiej jakości.
5. Wielkość fontów ma znaczenie – tekst o odpowiedniej wielkości dla użytkownika przyciąga także uwagę algorytmu, dlatego warto skupić się na tym czy rozmiar czcionki utrudnia czytelność tekstu. Ocenie podlega również wielkość czcionki dla anchor tekstów.
6. Krótki content jest mocniej oceniany pod względem oryginalności. To, czy mamy do czynienia z thin contentem, nie zależy od jego długości.
7. Google jest w stanie wychwycić masowy przypływ spamowych linków i je ignorować. Dokumentacja Google nie wspomina o Disavow Tool, więc zrzekanie się linków wydaje się nie mieć sensu.
8.Google przechowuje informacje o tym, co wcześniej znajdowało się pod konkretnym adresem URL, ale pod kątem re-rankingu analizowanych jest tylko 20 ostatnich wersji. W praktyce warto wielokrotnie modyfikować (aktualizować, optymalizować, rozbudowywać) content.
9. Strona główna jest bardzo ważna – z niej wyciągane są informacje o wiarygodności strony. Dla nowych adresów URL, o których Google jeszcze nie zebrał danych behawioralnych, wykorzystywane są informacje ze strony głównej, co czyni ją kluczową do optymalizacji.
10. Tytuły stron mają znaczenie – dopasowanie tytułu do zapytania zwiększa widoczność strony – odpowiada za to funkcja titlematchScore. Długie tytuły nie są dobrym rozwiązaniem do generowania kliknięć, lecz pomagają podnosić rankingi.
11. Daty są bardzo ważne, ponieważ Google lubi świeże wyniki. Jeśli daty nie są oznaczone, Google będzie próbował je wyciągnąć z treści. Warto pamiętać o tym, aby daty były zgodne (np. data w adresie URL, tytule i data publikacji). Wyrażają je funkcje: bylineDate – data widoczna na stronie, syntaticDate – data widoczna w adresie URL lub tytule oraz semanticDate – data zawarta w treści strony.
12. Strony z filmami traktowane są w odmienny sposób – jeśli ponad 50% stron zawiera video Google uznaje ją jako witrynę skupioną na wyświetlaniu video.
13. Google posiada klasyfikatory generujące wyniki dla YMYL, które mogą wpłynąć na zdrowie lub życie czytelników. Strony YMLY pozycjonowane są według innych zasad.
14. W dokumentacji pojawia się także nowy, tajemniczy czynnik „smallPersonalSite”. Przypuszczamy, że odnosi się on do małych biznesów, które mogą otrzymywać dodatkową pomoc w frazie budowania widoczności oraz zdobywania pierwszego ruchu.
15. Funkcja „QualityAuthorityTopicEmbeddingsVersionedItem” weryfikuje czy publikowane treści na stronie są powiązane z Twoją branżą czy odbiegają znacznie od tematu. Może rzec, że algorytmy cenią bardziej te treści, które powiązane są z tematyką strony.
Z udostępnionych danych otrzymaliśmy dużą dawkę wiedzy o tym, jak działają algorytmy Google, lecz możemy również odnieść wrażenie, że nie są to nowości dla specjalistów SEO, a jedynie potwierdzenie, że dane czynniki są uwzględnianie przez Google.
Wyciek danych utwierdził pogląd, że tworzenie wartościowych treści i dbanie o wysoką jakość strony przynosi efekty.
Mimo, że pojawia się wiele pytań i niejasności, dokument stanowi doskonały punkt wyjścia do testów SEO i wyciągania własnych wniosków.