Набор символов

Набор символов (англ. character set) — определённая таблица кодировки конечного множества символов. Такая таблица сопоставляет каждому символу последовательность длиной в один или несколько байт. Нередко вместо термина набор символов неправильно употребляют термин кодовая страница, означающий на самом деле частный случай набора символов с однобайтным кодированием. Термин кодировкакомпьютерном контексте) является синонимом термина «набор символов».

В настоящее время в основном используются кодировки двух типов: совместимые с ASCII и совместимые с EBCDIC, с подавляющим преобладанием первых. Представление UTF-8 Юникода совместимо с ASCII. Кодировки на базе EBCDIC (например, ДКОИ-8) используются только на некоторых мэйнфреймах. Первоначально в каждой операционной системе использовался один набор символов. Теперь используемые наборы символов стандартизованы, зависят от типа операционной системы лишь по традиции и устанавливаются согласно локали.

В Википедии и других проектах Фонда Викимедиа используется Юникод UTF-8.

Автоматическое распознавание кодировок

Использование множества кодировок в современном ПО создаёт много неудобств не только программистам, но и пользователям. Согласно одной точке зрения, справиться с крокозябрами можно, если программы будут автоматически распознавать кодировку входящего текста.

Для однобайтных кодировок можно учитывать тот факт, что частота использования разных букв сильно различается (например, в русском часто используется «о», но редко «ъ»). Поэтому, зная язык текста, можно легко выбрать кодировку, в которой частота байтов лучше соответствует частоте букв данного языка.

Для многобайтных кодировок можно проверять правильность текста с точки зрения его структуры. Например, в UTF-8 разрешены далеко не все последовательности байтов, поэтому, если в тексте присутствуют только разрешённые последовательности UTF-8, то практически со 100%-й вероятностью это и есть текст UTF-8.

Альтернативная точка зрения считает подобные эвристические алгоритмы определения кодировки текста вредными, поскольку современные информационные технологии располагают средствами недвусмысленно сопоставить тексту положенную ему кодовую страницу, см. например MIME. Широкое же распространение эвристических анализаторов поощряет использование некачественных программ создания текстовых данных, нарушающих стандарты.

См. также

Текстовый файл

 
Начальная страница  » 
А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ы Э Ю Я
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
0 1 2 3 4 5 6 7 8 9 Home