Google poodhaluje tajemství své vyhledávací inteligence
New York Times včera vydal obsáhlý článek Google Keeps Tweaking Its Search Engine, ve kterém dva inženýři oddělení kvality vyhledávání Googlu, Amit Singhal a Udi Manber, překvapivě otevřeně hovoří o zajímavých detailech vyhledávacích a řadících algoritmů.
Z článku vybírám informace důležité z pohledu optimalizace pro vyhledavače (SEO):
- Google funguje ve 112 jazycích, indexuje desítky miliard stránek a denně zpracuje stovky milionů dotazů (tj. tisíce dotazů za vteřinu).
- Tým kvality vyhledávání provede téměř denně nějakou změnu ovlivňující chování vyhledavače.
- Nedávno se zlepšila schopnost vyhledavače pochopit, co uživatel hledá krátkými a víceznačnými dotazy. Ví nápříklad, že dotazem “apples” lidé hledají ovoce, kdežto dotazem “Apple” počítače nebo iPody.
- Asi stokrát denně některý z deseti tisíc zaměstnanců Googlu nahlásí prostřednictvím interního systému Buganizer nějaký problém ve vyhledávání.
- Některé problémy se řeší okamžitě, např. když nedávno v důsledku presidentských voleb ve francii začal Google vracet nepříliš relevantní výsledky na dotaz “french revolution”.
- Každý dotaz dostane QDF (query deserves freshness) skóre určující poměr nových (nebo čerstvě aktualizovaných) a již dlouho etablovaných stránek ve výsledcích hledání. QDF skóre vychází z obsahu blogů aj. aktuálních stránek (o čem se právě píše) a z analýzy vyhledávacích trendů (co se právě hledá).
- Řazení odkazů ve výsledcích vyhledávání ovlivňuje přes 200 kritérií, kterým v Googlu říkají signály (signals). Slavný PageRank je jen jedním z těchto signálů.
- Některé signály jsou na samotných stránkách (slova, odkazy apod.), některé pocházejí z historie změn stránek v čase a některé se čerpají ze vzorců ukrytých v trilionech hledání, která Google za ty roky zpracoval.
- Roste podíl signálů spojených s personalizací a historií hledání jednotlivých uživatelů. To se ovšem vztahuje jen na přihlášené uživatele.
- Jednotlivé dotazy jsou označeny klasifikátory, které pomáhají určit, co uživatel hledá — např. produkt ke koupi, informace o místě nebo osobu. Nedávno Google vyvinul nový klasifikátor identifikující jména lidí, kteří nejsou slavní. Jiný klasifikátor identifikuje známé značky.
- Signály a klasifikátory slouží pro výpočet klíčových kritérií relevance stránek. Jedním z kritérií je tematičnost (topicality), která měří vztah stránky k obecnější kategorii dotazu. Jedna stránka se může s různou mírou týkat více tematických kategorií.
- První desítka výsledků vyhledávání je namíchána tak, aby diversita odkazů odpovídala víceznačnosti dotazu. Stránky s nejvyšším skóre relevance ji tedy obsadí jen tehdy, je-li dotaz dostatečně jednoznačný.
Článek podrobně rozebírá též Rand Fishkin v Remarkable Openness from Google’s Black Box Thanks to Saul Hansel (SEOmoz) nebo Philipp Lenssen v Behind the Scenes of Google Rankings (Google Blogoscoped).
Commenting is closed for this article.
— alert · 6547 days ago · #
— Jiří Bureš · 6547 days ago · #
— Radim Hasalík · 6547 days ago · #
— Honza · 6547 days ago · #
— Šimon Grimmich · 6547 days ago · #
— Peter · 6546 days ago · #
— Shaman · 6546 days ago · #
— Mathias Kodlodot · 6544 days ago · #
Řekl bych, že pagerank má minimální hodnotu, protože jednomu webu pagerank klesl ze 6 na nulu a pořád je ve vyhledávačích na +- stejných pozicích.
— MzK · 6542 days ago · #