Fulltextové vyhledávání je celá věda. Jak se dnes liší přístup obou hlavních hráčů na českém trhu? Seznam v roce 1996 začínal jako katalog a i když později přidal fulltextové vyhledávání (Kompas), dlouho pro firmu nebylo prioritou. Fulltext se například zapínal až v případě, že odpověď nebyla nalezena v katalogu.
Později Seznam používal pro fulltext cizí technologie (včetně Googlu) a prezentoval se spíše jako médium/portál než vyhledávač (tedy s důrazem na homepage a další služby/vlastní obsah). Situace se nicméně postupně měnila a dnes je Česko jednou z pouhých čtyř zemí, kde domácí hráč nepřenechal hlavní podíl na vyhledávání Googlu. (Další jsou Rusko, Čína a Jižní Korea – ČR je tedy jedinou z těchto zemí, kde se používá latinka.) Konkurenční boj mezi Googlem a Seznamem vede k tomu, že vyhledávací služby pro české dokumenty jsou dnes zřejmě jedny z nejkvalitnějších na světě.
Hlavní roli převzalo fulltextové vyhledávání na Seznamu v roce 2005. Od té doby firma masivně investuje do této technologie – jak do hardwaru, tak do vývojářů. V roce 2005 pracovali na vyhledávání 4 lidé, letos už 67. Počet indexovaných dokumentů stoupl ve stejném období z 30 milionů na 650. Pro obsluhu vyhledávání je dnes vyhrazeno 250 strojů, robot jich využívá 150. Obvyklou konfigurací těchto systémů je 24 jader a 350 GB RAM. Databázovým řešením je Hadoop (noSQL databáze) – s tím mj. do programovacích jazyků a platforem používaných v Seznamu vstoupila i Java.
Současná čísla: Za jednu vteřinu odpoví fulltext Seznam 350 dotazů, ve špičce je to více než 500. Databáze robota zabírá 35 TB, jeho rychlost se pohybuje mezi 500 a 5 000 URL za vteřinu.
Na tiskové konferenci Seznamu se diskutovalo i o tom, proč v okolních evropských zemích místní dominantní hráči nástupu Googlu nedokázali odolat. Asi hlavní příčinou podle představitelů Seznamu byl fakt, že většina z těchto firem byla koupena telekomunikačními operátory. Svoji uživatelskou základnu se pak snažili co nejrychleji monetizovat, namísto investic do technologií se změnili na „prodeje ADSL“. Seznam nebyl k takové politice nikdy nucen.
Co se týče budoucnosti a přístupů k hledání: Seznam nechce nasazovat personalizaci, kdy by třeba načtení hlavní stránky map vycházelo z polohy uživatele. Uživatelé přijímají takový přístup spíše záporně. Různí uživatelé (nebo stejní uživatelé z různých počítačů) by při hledání měli dostávat stejné výsledky, nezohledňuje se historie hledání ani se neprohledává pošta uživatelů přihlášených k e-mailu Seznamu. Seznam proto mj. nemusí dnes řešit spory týkající se ochrany soukromí. Personalizaci jako takovou ovšem Seznam neodmítá, tyto techniky však hodlá nasazovat pouze pro mobilní telefony.
Rozdíly mezi přístupem hledání Seznamu a Googlu si může každý hračička zkoušet sám. Obě technologie trochu jinak pracují s víceslovnými dotazy, se synonymy, s ohýbáním češtiny (Seznam používá lemmatizační techniky od roku 2005) nebo i s tím, nakolik se snaží „myslet za uživatele“ (asi ve smyslu, že při hledání jahodového piva je možno do výsledků zamíchat i weby o pivu malinovém). Liší se také přístup k tomu, jak do výsledků vyhledávání zařazovat zpravodajské zdroje/často aktualizovaná obsah.
Do budoucna by Seznam mj. chtěl při vyhledávání více využívat specializované databáze.