Jak Google rozpoznává duplicitní dokumenty
12. 01. 2004
Google drží patent na rozpoznání duplicitních a téměř duplicitních souborů. Popis metody naznačuje, že Google určuje duplicitní obsah nikoli podle celého obsahu dokumentů, ale jen podle vybraných částí. Není ovšem jisté, zda Google svůj patent skutečně využívá. (via SearchGuild.com)
Znalost toho, jak Google rozpoznává duplicitní stránky, může být užitečná při optimalizaci pro vyhledavače. Většinou totiž platí, že z množiny stejných či podobných stránek zobrazí vyhledavač ve výsledcích hledání vždy pouze jednu. Zpravidla je to ta, která má nejvýše hodnocené mimostránkové (offpage) faktory (PageRank, apod.). Jedním z cílů optimalizace proto bývá výskytu duplicitních stránek zabránit.
Komentáře k tomu článku jsou uzavřeny.
Komentáře
1. Michal Illich: Hezke
12. 01. 2004 15:04
Dobré čtení (ten patent).
Jen doufám, že jim ho někdo napadne - on tenhle postup je totiž znám už dlouhou dobu; není to nic, co by Google vymyslel.
Pokud by stát dovolil Googlu vymáhat pomocí tohohle papíru, aby ostatní vyhledavače duplicity nerozpoznávaly, bylo by to pro celý obor dost krušné :(