URL

URL (Uniform Resource Locator) – это адрес страницы в сети, в котором прописываются название файла, путь и домен. Изначально понятие обозначало адрес расположения файлов. Было придумано в 1990 г. Тимом Бернерсом-Ли, который принимал участие в Европейском совете по поводу ядерных исследований.

В качестве недостатка URL специалисты выделяют возможность использовать в адресе только буквы латинского алфавита и небольшое количество символов. Если его записать иначе, сработает особый алгоритм, делающий адрес шестнадцатеричным. Во избежание путаницы применяется IRI – международный индикатор сайтов, с помощью которого можно вписывать символы Юникода.

Длина URL зависит только от используемого браузера, однако рекомендуется не превышать показатель в 2048 знаков.

Из чего состоит адрес?

Структура URL вполне понятна и проста, при необходимости ее можно без проблем расширить. Схематически стандартный вариант выглядит так:

<схема>:[//[<логин>: <пароль>@]<хост>[:<порт>]][/]<URL-путь>[?<параметры>][#якорь>]

Рассмотрим функции каждого из элементов.

  • Схема – это протокол для передачи данных, то есть http (обычный), https (защищенный), ftp (работающий с сетями TCP) и пр.
  • Пароль и логин являются секретной информацией, предоставляющей пользователю право посещения определенного сайта. Указываются не во всех протоколах, например, с ними работает ftp.
  • Хост – название домена либо IP-адрес самого сайта.
  • Порт – по аналогии с логином и паролем не указывается в http. В этом случае автоматически меняется на 80 или 8080.
  • URL-путь – обозначение конкретного адреса страницы или отдельного файла.
  • Параметры – набор запросов, передаваемых на сервер посредством GET.
  • Якорь – определенная строка текста на странице. К ней заблаговременно добавляется идентификатор, по которому человек сразу попадает на фрагмент с введенным запросом. Огромное значение имеет для скорости навигации, она особенно важна в заголовках, на форумах и пр.

Классификация URL

Адреса бывают:

  • Статическими. Используются, когда информация на странице не меняется.
  • Динамическими. Данные генерируются автоматически и зависят от введенного запроса. Преимущество заключается в удобной навигации, однако подобные страницы не вызывают доверия у поисковых роботов и не индексируются.
  • С идентификатором сессий. В таком случае адресу присваивается SID. Он добавляется в автоматическом режиме, когда страницу посещает новый пользователь. Главная цель внедрения подобных URL – сбор данных о людях для составления статистики, анализа поведенческих факторов и других особенностей.

Разновидности протоколов

Здесь имеются в виду схемы, уже упомянутые выше. Сейчас их существует множество, они способны передавать файлы, работать с программным обеспечением и сервисами. Все протоколы делятся на три группы:

  • Браузерные (opera, browser, chrome – «ведут» к настройкам и страницам в Опере, Яндексе и Хроме соответственно);
  • Традиционные:
    1. https – зашифрованный протокол;
    2. ftp – данные передаются посредством одноименного клиента;
    3. xmpp – функционирует в Jabber и пр.;
    4. mailto – запускает почтовую службу, необходимы для отправки писем;
  • Экзотические:
    1. steam – подключается к игровым серверам, обеспечивает покупки в одноименном сервисе;
    2. skype – обеспечивает работу в Skype;
    3. ednk – относится к файлообменнику eDonkey;
    4. bitcoin – обозначает криптовалюту биткоин;
    5. tg – касается сервиса обмена сообщениями Telegram.

Как происходит кодирование?

Для составления адресов URL применяется определенный набор символов – US-ASCII. Как было указано в самом начале, здесь есть существенный минус – поддержка только латиницы и некоторых других знаков. Для возможности прописывать кириллические буквы, необходима перекодировка.

Она реализуется в 2 этапа:

  • кодировка символов в формате UTF-8. Их последовательность строго определена, «вес» каждой – 2 байта;
  • запись полученного результата в шестнадцатеричной системе с применением символа процента.

Стоит подробнее рассказать о стандарте IRI. Сам по себе он представляет альтернативу привычному URL, был закреплен в 2005 году. Причина его разработки – ущемление прав других народов и стран по причине возможности использовать только латиницу. В IRI такое ограничение полностью снято, в адресе можно прописывать любые буквы и знаки, содержащиеся в Юникоде.

Технология PURL и редирект

В применении URL существует одна большая проблема – статичность адреса. Простой пример: вы сделали рассылку с указанием определенного URL, однако позже сменили его. Пользователи, которые впоследствии решили перейти по представленному адресу, увидят ошибку, так как фактически он уже не будет существовать. Единственным выходом в подобной ситуации считался корректно настроенный и исправно функционирующий редирект.

Более простым решением является использование технологии PURL. С ее помощью создается каталог со всеми адресами. В таком случае сервер в автоматическом режиме отыщет требуемый URL и переадресует пользователя на страницу. При изменении адреса достаточно внести новые данные в базу.

Что такое ЧПУ?

В последнее время популярной темой для обсуждения становится ЧПУ, что расшифровывается как человекопонятный URL. Адрес сайта при этом содержит полноценные слова, по нему можно проследить путь страницы (например, при просмотре товаров в каталоге интернет-магазина). Он применяется в большинстве современных CMS, для его внедрения предусмотрены специальные инструменты.

При использовании ЧПУ аналитика, отслеживание, создание, изменение структуры сайта становится гораздо проще. Составлять адрес можно только из латиницы и некоторых знаков.