Получаемая нами информация может иметь разные формы: видеоматериал, текст, цвет, звук, текстовка, выраженная символами. Даже современные цифровые машины не научились справляться с разнообразием видов и языков, поэтому разработчики вынуждены прибегать к общепонятному кодированию, доступному для их понимания.

В разных сферах науки, IT-технологий, производства используется различная кодировка символов. Подобное шифрование – это не игра в шпионов, а необходимость, создание условий для корректного обмена информацией среди компьютеров, находящихся на определенном отдалении.

Сегодня мы познакомим вас с этапами развития данного явления, его значимости в современных условиях.

Что такое кодирование

Под термином «кодирование» подразумевается преобразование посредством некоего кода информации в форму, подходящую для обработки, отправки, хранения. Существует несколько типов кодировки:

  • Числовой (с привлечением набора определенных цифр);
  • Символьный (кодировка происходит с помощью символов, используемых при создании текстового исходника);
  • Графический (запись осуществляется посредством линий, знаков).

Обратная процедура превращения зашифрованного текста в обычный, понятный человеку, называется декодирование.

Что такое кодирование.
Image by rawpixel.com on Freepik.

Почему кодировки — это важно

Десктопы, ноутбуки систематически имеют дело с текстовыми форматами: новостные ленты, общение в соцсетях, приложения различных банков, организаций. Это стало возможным благодаря применению кодировки. Кодирование прошло длинный путь развития, начиная от таблиц символов для каждого отдельного устройства (что было крайне неудобно), заканчивая единой системой, признанной во всех странах мира, позволяющей передавать информацию на понятном для цифровой обработки языке.

На современном этапе основным стандартом кодировки символов назван Unicode. Он используется во всех случаях, где есть текст, охватывает все компьютерные, мобильные программы, БД и т.д.

Виды кодировок

Можно выделить ряд видов кодировки:

  • Цвета – сперва изображение дробится на большое количество цветных точек (они называются пиксели), далее цвет каждого элемента будет записан с помощью бинарного кода.
  • Информации, содержащейся в текстовом виде – шифрование происходит с применением двоичного кода. Всем символам присваиваются неотрицательные числа; их сохраняют в памяти вычислительной техники.
  • Чисел – кодировка реализуется посредством бинарного кода, содержащего 0 и 1.
  • Графических изображений – применяется как растровая, так и векторная (с использованием чертежных элементов) техника отправки изображения.
  • Видеозаписи – звуковые элементы подвергаются шифрованию, при котором применяется двоичный код, графические – обрабатываются растровой техникой.
  • Аудио – процедура шифрования начинается с преобразования колебаний воздуха микрофоном в электроколебания, а имеющаяся в ПК звуковая карта продолжает принятые сигналы превращать в код с помощью двоичной системы.

Предпосылки появления кодировок

Изначально компьютеры задумывались в качестве машин для быстрых, автоматизированных вычислений (в СССР — ЭВМ). Оборудование пользовалось спросом в оборонной промышленности. В середине прошлого века сфера применения несколько расширилась: экспериментальная физика, расчеты по зарплатам, прогнозирование погоды.

Числа и компьютеры

Задачи, под которые создавалась аппаратура, явились толчком для появления соответствующей структуры, заточенной под взаимодействие с числами:

  • Числу из десятичной системы противопоставляется набор, состоящий из нулей, единиц. Так, например, тройка превращается при двоичной системе в 11.
  • Сконвертированный набор сохраняется в компьютерной памяти.
  • При предоставлении читабельного текста для пользователя применяется обратный порядок действия: закодированный вариант извлекается из кластеров памяти, преобразуется в понятный формат.

Переход вычислительного оборудования на полупроводники, диоды повлиял на уменьшение его в габаритах, удешевление, одновременно повысил темпы, точность вычислений.

Символы и компьютеры

Со временем «круг обязанностей» стал расширяться. Появилась потребность обработки текстов. В случае с буквами, различными не числовыми знаками задача усложнялась, так как специалисты имели дело с визуальными объектами. Одна и та же буква может обозначаться по-разному: «У», «у». Не все просто стало и с цифрами, так как они в тексте могут быть представлены арабскими, римскими вариантами.

Так как машины были задуманы для числовой обработки, у них нет возможности сохранять у себя символы. Поэтому они преобразовывались в числа, в таком виде и сохранялись.

Правила превращения символов в числа оформлялись таблицей. В соответствии с ней создавались устройства (клавиатура, принтер) для ввода/вывода текста.

Распространение компьютеров

К 60-м годам XX века еще не существовало способа добиться совместимости компьютеров друг с другом. Даже в известной компании IBM каждое устройства создавалось под определенные цели.

Первым шагом к взаимодействию нескольких устройств стало создание объединяющей сети – системы SAGE. Она соединила радарные станции Америки и Канады. Важное условие – единая таблица символов.

В 1962 г. специалисты IBM озвучивают 2 основных тезиса формирования брендовой линейки устройств:

  • Они должны быть многоцелевыми, универсальными;
  • Аппаратура должна иметь возможность взаимодействовать, давать возможность использовать информацию с одного устройства на другом.

Через 3 года свет увидела линейка System/360 из 6 машин, имеющих совместимые модули. Модульный подход в итоге сыграл важную роль в дальнейшем распространении цифрового оборудования.

ASCII: первый стандарт кодирования данных

Ошибочно было бы думать, что развитие технологий, основанных на кодировке символов, затрагивало только компьютерную сферу.

Телетайп и терминал

Одновременно завоевывали свое место под солнцем телетайпы – системы, разработанные для отправки на расстоянии информации в текстовом формате. Два электромеханических печатных устройства соединялись проводами. Напечатанный первым пользователем текст выходил на принтере у второго, действия можно было повторять в обратном порядке. Одними из первых, кто воспользовался такой связью, были руководители Америки и Советского Союза.

Телетайпами текст мог преобразовываться в сигналы, передаваемые по проводам. Это могла быть не только бинарная кодировка, но и азбука Морзе, использующая три элемента.

На базе телетайпов были разработаны терминалы, открывающие доступ к удаленному компьютеру. Информация отправлялась не человеку, а вводилась на удаленное оборудование, где обрабатывалась, далее отправителю приходил результат. Это позволило пользоваться вычислительными ресурсами без физического доступа.

ASCII

Постепенная компьютеризация, распространение оборудования для обмена данными в текстовом формате потребовали создания общего для всех стандарта кодировки. Он появился в США в 1963 г. Таблица содержала 128 символов, была названа ASCII, в переводе на русский – Американский стандарт кодов для обмена информацией.

Новшество решало проблемы в странах, где в ходу был английский язык, но нисколько не помогало государствам с иной письменностью: иероглифы, кириллица и т.д.

Переход к Unicode

Развитие Всемирной паутины, возрастание числа цифровых машин, понижение цен на память создали неразбериху в кодировках. Проблема ярко вырисовывалась, когда написанный на одном устройстве текст должен был нормально выглядеть на других. Программисты должны были ломать голову над использованием подходящего шифра.

Осенью 1991 г. наконец увидел свет вариант общей для всех пользователей таблицы символов, включавшей в себя более 7 тыс. элементов из 24 письменностей. Ей дали название Unicode. Со временем туда добавляли новые элементы. На сегодняшний день таблица содержит более 143 тыс. символов.

Кодировки на основе Unicode

Таблица содержит большой объем данных, поэтому в компьютерной памяти хранятся не символы, а табличные номера. Записывают их различными методами. Для этого были созданы кодировки, отличающиеся вариантами записи номера набором байт (UTF).

Существует кодирование постоянной длины, где номер символа Unicode равен четырем байтам (UTF-32). Но самой большой популярностью пользуется UTF-8, где применяется кодирование с переменным числом байт.

Сегодня Unicode – основная используемая в мире кодировка, она позволяет пользоваться огромным количеством символов, корректно показывать их на всех стационарных, мобильных устройствах.

Заключение

Как уже говорилось, кодировка – процедура превращения исходных данных в приемлемую для вычислительной аппаратуры форму. Это позволяет комфортно отправлять, хранить, обрабатывать информацию. Тема настолько актуальна, что изучается в школах, так как владение основами помогает понять многие процессы преобразования данных в коды.