Zkratka IDN (Internationalized Domain Names) v poslední době značně rozčeřila vody internetu. Rozruch, především u nás, způsobilo hlavně nedávné zavedení .eu IDN domén. O co přesně v IDN jde? Jak pracuje a jaké výhody/nevýhody může přinést nám, českým uživatelům?
Běžné domény jsou dnes zapisovány v kódování ASCII, což je kódování, se kterým si vystačí všechny znaky anglické abecedy. Myšlenka IDN spočívá v tom, vnést do názvů domén i jiné znaky a umožnit tak všem národům zapisovat a číst názvy domén v jejich mateřštině. Pro Čecha by měl mít tento systém „přínos“ v tom, že doménu bude možné zadávat a číst včetně diakritiky. Vyzkoušet to lze již nyní na doméně http://háčkyčárky.cz. IDN však nezůstává jen u písmenek s diakritikou – ambice jsou zde daleko větší. V praxi se tak běžně setkáme i s čínsky, japonsky, polsky a rusky psanými doménami.
IDN není rozhodně záležitost posledního roku. Jak vyplývá z předchozího odstavce, otázka speciálních znaků v národní abecedě trápí především východní národy. Například Čína má podporu IDN zavedenou již od prosince 2000, Japonsko od února 2001. Jako první v Evropě byla IDN obdařena polská doména (.pl), a to již v září 2003. O několik měsíců později se pak přidali Švédové a Dánové.
Jak IDN pracuje?
V zásadě je třeba mít na paměti dvě hlavní zkratky. IDN (zmíněná výše) a IDNA (Internationalizing Domain Names in Applications). První označuje domény, které mohou obsahovat všechny znaky z Unicode (tedy v podstatě jakýkoliv dnes existující znak), druhá pak jejich podporu v aplikacích. Problém spočívá v tom, jak našroubovat tuto novou vlastnost na již existující systém DNS, který od svého vzniku počítá jen s ASCII názvy, a který zcela jistě není záhodno v zájmu stability světové sítě zbrkle měnit.
IDNA používá obvyklý trik, který známe už z dřívější doby (například z MIME). Potřebujeme-li do technologie omezené na ASCII znaky (zde DNS) dostat i další znaky, vymyslíme vhodné kódování, kterými je převedeme na (zpravidla delší) ASCII sekvenci.
Převod jména obsahujícího nejprapodivnější znaky probíhá ve třech krocích:
Krok první: http://háčkyčárky.cz – pomocí různého mapování se zredukuje počet znaků a variant (převede na malá písmena a různé varianty vyjádření téhož převede na jednotnou formu). Řetězec zatím zůstává v Unicode.
Krok druhý: Punycode (RFC 3492) převede znaky vybočující z ASCII na sekvence ASCII znaků.
Krok třetí: Před výsledek získaný v druhém kroku se přidá předpona xn--, která identifikuje takto kódovaná jména. Následující zápisy jsou tedy ekvivalentní: http://háčkyčárky.cz = http://xn--hkyrkyptac70bc.cz
Důležitý je fakt, že nic z předchozího se neděje na úrovni DNS. Vše obstarává daná aplikace – v nejčastějším případě www prohlížeč. Pokud tedy do adresního řádku zadáte naši doménu http://háčkyčárky.cz stane se to, že si prohlížeč zavolá funkci ToASCII, která jméno převede do ASCII formátu. Tomuto již DNS rozumí, jelikož v tomto formátu má v sobě daný název domény uložen a získá potřebnou adresu. Pokud název domény začíná na „xn--“ je ještě před načtením samotné stránky zavolána funkce ToUnicode, což způsobí, že se doména znovu přeloží do Unicode podoby, kterou na začátku zadal uživatel a je zobrazena v adresním řádku prohlížeče. Celý tento proces je označován jako IDNA.
Praxe
Jak to tak bývá, praxe se vždy od teorie liší a ani zde to není výjimka. Jelikož „překlad“ adres je prováděn na straně aplikace (webového prohlížeče), nabízí se otázka, jak je to s podporou tohoto překladu? V „minitestu“ IDN kompatibility prohlížečů jsem se zaměřil na dle statistik u nás nejpoužívanější trojici (v pořadí): Internet Explorer 8, Mozilla Firefox 3.5.5 a Google Chrome 3.0.195.
Explorer 8 ani Chrome problémy s překladem nemají. V adresním řádku je vždy vidět Unicode tvar domény.
Potíže jsem však zaznamenal s Firefoxem, který na zadanou adresu: http://stránky.háčkyčárky.cz vrátil jako: http://xn--strnky-r ta.xn--hkyrkyptac70bc.cz. Evidentně tedy neproběhl ToUnicode.
Lepších výsledků jsem nedosáhl ani s aktuálně poslední betaverzí Firefox 3.6.4 Beta. Nabízí se tedy například otázka: Mám vygenerovaný drahý SSL certifikát od CA pro IDN doménu. Certifikát platí vždy jen pro konkrétní tvar domény. Bude tento platný i při neprovedení akce ToUnicode? Světové certifikační autority již certifikáty pro IDN nabízejí. Na tuto otázku se mi však nepovedlo dohledat uspokojivou odpověď.
Výhody a nevýhody
Zastánci IDN argumentují především snahou o „polidšťování“ internetu a jeho zpřístupnění i lidem ze zemí, kde se standardně nepoužívá latinka. Představitelem typického zastánce IDN v rámci České republiky je podle zatím poslední studie zadané sdružením CZ.NIC z roku 2008 (fyzické osoby):
Žena starší 50 let, žijící v obci s méně než 20 000 obyvateli a pracující s internetem jen sporadicky.
Odpůrci IDN pak nečastěji skloňují:
- Znepřístupnění česky psaných domén zahraničním návštěvníkům.
- Otevření obrovského prostoru pro doménové spekulace. Jaký je rozdíl například v těchto tvarech domény: google.cz a googIe.cz? Nápověda: druhá možnost používá v názvu místo písmena „el“ „velké i“ a podobných kombinací je v rámci IDN možno vymyslet statisíce, možná i miliony.
- Snadnější útoky jako typosquatting – vycházejí z překlepů v názvech domén, kdy jsou následně uživatelé přesměrováni zcela na jiný obsah, nebo je jim naopak podstrčen obsah, který se tváří jako pravý (phishing).
CZ.NIC (sdružení pro správu .CZ domény) se zatím na základě průzkumů pro zavedení IDN nerozhodlo. Více o celé problematice včetně průzkumů a diskuse uživatelů se můžete dočíst zde: http://www.háčkyčárky.cz.
Profil
Jiří Pomazal pracuje na pozici Specialista technické podpory ve společnosti IGNUM. Autor článku se při své práci věnuje převážně řešení dotazů zákazníků v oblasti domén, webhostingu a administraci serverů na platformě Windows a Linux. Vystudoval vyšší odbornou školu v oblasti aplikace výpočetní techniky a ekonomika a momentálně dokončuje studium na VŠ v oboru logistika. Mezi jeho hlavní zájmy patří IT, fotografovaní, hudba a cyklistika. Článek vyšel jako součást elektronického měsíčníku Svět hostingu společnosti IGNUM.
Přečtěte si také:
Blackout: výpadek elektrického vedení možným ohrožením pro přenos firemních dat
Jak vypadá státní dohled nad internetem?
Nostalgické domény
Mikroblogy pro byznys: propagace ve 140 znacích