Google poodhaluje tajemství své vyhledávací inteligence

New York Times včera vydal obsáhlý článek Google Keeps Tweaking Its Search Engine, ve kterém dva inženýři oddělení kvality vyhledávání Googlu, Amit Singhal a Udi Manber, překvapivě otevřeně hovoří o zajímavých detailech vyhledávacích a řadících algoritmů.

Z článku vybírám informace důležité z pohledu optimalizace pro vyhledavače (SEO):

  • Google funguje ve 112 jazycích, indexuje desítky miliard stránek a denně zpracuje stovky milionů dotazů (tj. tisíce dotazů za vteřinu).
  • Tým kvality vyhledávání provede téměř denně nějakou změnu ovlivňující chování vyhledavače.
  • Nedávno se zlepšila schopnost vyhledavače pochopit, co uživatel hledá krátkými a víceznačnými dotazy. Ví nápříklad, že dotazem “apples” lidé hledají ovoce, kdežto dotazem “Apple” počítače nebo iPody.
  • Asi stokrát denně některý z deseti tisíc zaměstnanců Googlu nahlásí prostřednictvím interního systému Buganizer nějaký problém ve vyhledávání.
  • Některé problémy se řeší okamžitě, např. když nedávno v důsledku presidentských voleb ve francii začal Google vracet nepříliš relevantní výsledky na dotaz “french revolution”.
  • Každý dotaz dostane QDF (query deserves freshness) skóre určující poměr nových (nebo čerstvě aktualizovaných) a již dlouho etablovaných stránek ve výsledcích hledání. QDF skóre vychází z obsahu blogů aj. aktuálních stránek (o čem se právě píše) a z analýzy vyhledávacích trendů (co se právě hledá).
  • Řazení odkazů ve výsledcích vyhledávání ovlivňuje přes 200 kritérií, kterým v Googlu říkají signály (signals). Slavný PageRank je jen jedním z těchto signálů.
  • Některé signály jsou na samotných stránkách (slova, odkazy apod.), některé pocházejí z historie změn stránek v čase a některé se čerpají ze vzorců ukrytých v trilionech hledání, která Google za ty roky zpracoval.
  • Roste podíl signálů spojených s personalizací a historií hledání jednotlivých uživatelů. To se ovšem vztahuje jen na přihlášené uživatele.
  • Jednotlivé dotazy jsou označeny klasifikátory, které pomáhají určit, co uživatel hledá — např. produkt ke koupi, informace o místě nebo osobu. Nedávno Google vyvinul nový klasifikátor identifikující jména lidí, kteří nejsou slavní. Jiný klasifikátor identifikuje známé značky.
  • Signály a klasifikátory slouží pro výpočet klíčových kritérií relevance stránek. Jedním z kritérií je tematičnost (topicality), která měří vztah stránky k obecnější kategorii dotazu. Jedna stránka se může s různou mírou týkat více tematických kategorií.
  • První desítka výsledků vyhledávání je namíchána tak, aby diversita odkazů odpovídala víceznačnosti dotazu. Stránky s nejvyšším skóre relevance ji tedy obsadí jen tehdy, je-li dotaz dostatečně jednoznačný.

Článek podrobně rozebírá též Rand Fishkin v Remarkable Openness from Google’s Black Box Thanks to Saul Hansel (SEOmoz) nebo Philipp Lenssen v Behind the Scenes of Google Rankings (Google Blogoscoped).

, 7. 06. 2007 09:52, Pošli komentář

| Nejnovější |

Komentáře

  1. hlasim problem s cestinou v rss (google reader)

    — alert · 3281 days ago · #

  2. Teda Marku, jeden den a dva “vyfouknuté” články ze zítřejších “Linků na víkend”. ;) To mám teda smůlu. :(

    Jiří Bureš · 3281 days ago · #

  3. Marku, děkuji Vám za obšírný výčet. Je z toho jasně vidět, že doba sledování pageranku je za námi a do hry stále více vstupují matematické prvky i personalizace.

    Radim Hasalík · 3281 days ago · #

  4. :-) z článku rozhodne neusuzujte že s PR je konec. Pokud máte na webu kvalitní obsah a dobře napsané texty, tak už potrebujete pouze PR

    Honza · 3281 days ago · #

  5. A také prodej zpětných odkazů pokračuje nezávisle na matematických prvních a personalizaci ;-)

    Šimon Grimmich · 3281 days ago · #

  6. Tak to aby webmaster bol okrem dobrého informatika aj matematik, sociológ, psychológ a telepat :D

    Peter · 3281 days ago · #

  7. [6] Však už Marek Prokop kdysi publikoval na Intervalu článek nazvaný Devatero řemesel…

    Shaman · 3280 days ago · #

  8. denně bych prosil se dvěmi n ;-)

    — Mathias Kodlodot · 3278 days ago · #

  9. Řekl bych, že pagerank má minimální hodnotu, protože jednomu webu pagerank klesl ze 6 na nulu a pořád je ve vyhledávačích na +- stejných pozicích.

    MzK · 3276 days ago · #

Commenting is closed for this article.