Юникод

Unicode: как это работает // rwpod (30 апр. 2017 г.) (Что такое Unicode, UTF-8 и как это работает) [11:11]

Юникод (англ. Unicode; иногда также Уникод) — информационный стандарт для цифрового кодирования текстов.

Включает в себя большинство символов, используемых употребляемыми нынче и в истории знаковыми системами человечества. Юникод включает также символы, специфичные для некоторых формальных языков (компьютерного и научного применения). Стандарт не является раз и навсегда заданным, а постепенно дополняется.

Разрабатывается организацией «Консорциум Юникода».

Теоретические основы[править]

Стандарт состоит из нескольких взаимосвязанных частей, решающих различные проблемы, поставленные его широкими претензиями.

Кодовое пространство Юникода, назначение блоков для разных письменностей и кодов — конкретным символам. Другие названия этой части стандарта: ISO/IEC 10646 и Universal Character Set.
Формы представления Юникода, то есть конкретные кодировки (в виде последовательности октетов и т. п.) такие, как UTF-8 и UTF-16.
БД свойств символов.
Алгоритмы для нормализации, лексикографического упорядочения, вывода (rendering) сложных письменностей, а также поддержки двух направлений письма (направо и налево).

Консорциум также предоставляет списки символов (включая их изображения) в формате PDF.^[1]

В основе лежит представление текста как последовательности нумерованных (абстрактных) символов. При этом Юникод не ставит своей задачей однозначность такого представления; напротив, некоторые различные представления объявляются эквивалентными. Причинами терпимости к неоднозначности являются разные способы работы с текстом разного ПО, а также наличие в стандарте введённых для «совместимости» (compatibility) символов, предназначенных для импорта текста из исторических компьютерных и телекоммуникационных кодировок.

Вопросы выбора языкового варианта символов (букв): гарнитуры и т. д. — были объявлены лежащими за пределами применимости стандарта. Соблюдается это не очень строго — блок так называемых Mathematical Alphanumeric Symbols содержит курсивные и полужирные варианты букв латинского алфавита.

Кодовое пространство Юникода[править]

Кодовое пространство Юникода содержит 17 × 2¹⁶ = 1 114 112 позиций, обозначаемых обычно шестнадцатеричными номерами от 0x0000 до 0x10FFFF включительно. Версия стандарта 13.0^{[обновить данные]} назначает коды 143 859 символам, при этом также большое количество позиций зарезервировано (либо могут использоваться лишь в особых контекстах, либо намеренно сделаны недоступными при обмене текстами в Юникоде). Количество назначенных символов настолько велико, что одного (или даже двух) шрифтовых файлов в формате TrueType уже недостаточно для поддержки их всех.

Наиболее часто используются коды до 0xFFFF, составляющие так называемую BMP (Basic Multilingual Plane), или «кодовую плоскость» номер 0. Большинство современных человеческих языков не требуют выхода за пределы BMP; китайский и японский поддерживаются «плоскостью 0» лишь частично. Общепринятое обозначение лежащих в ней кодовых позиций — U+hhhh, где hhhh — четыре шестнадцатеричных цифры.

Из прочих «кодовых плоскостей» номер 1 (0x10000-0x1FFFF) отведена под исторические или экзотические технические и научные символы, документированные но малоиспользуемые письменности, а также эмодзи. В плоскостях 2 и 3 (0x20000-0x3FFFF) располагаются малоиспользуемые китайские символы. Плоскости 4, 5, 6, 7, 8, 9, 10, 11, 12 и 13 (0x40000-0xDFFFF) пока свободны, номер 14 (0xE0000-0xEFFFF) содержит некоторое количество непечатных символов, а две последних «плоскости» (0xF0000-0x10FFFF) зарезервированы под частное использование (Private Use Area).

Плоскости 1 и 2 уже содержат значительное количество символов. Но при этом доступ к символам, лежащих вне BMP, может иметь дефекты по причинам их отсутствия в шрифтах, а также в случае приложений, ограничивающих коды до шестнадцати двоичных разрядов (в т. ч. из-за неправильного чтения UTF-16).

«Плоскости» разбиты на (намного более мелкие) «блоки», размер которых предписан^[2] быть кратным 16. Символы одной системы письма, как правило, располагаются в небольшом числе блоков, а не разбросаны по кодовому пространству в беспорядке.

Свойства символов Юникода[править]

Стандарт «Юникод» назначает каждой кодовой позиции ряд свойств, формирующих машиночитаемую базу данных.^[3] Важнейшим из свойств является так называемая Общая Категория (General Category), представляющая собой классификацию символов на классы и подклассы. Значения Общей Категории кодируются двумя английскими буквами, где первая (прописная) указывает на категорию верхнего уровня, а вторая — задаёт подкатегорию. Список категорий приводится далее.

L — знак письма (Letter). Каждый знак назначен в одну из 154 включённых в Юникод систем письма.
M — Mark.
N — знак числа (Number). Включают в себя десятичные цифры (Nd), буквоподобные знаки вроде римских цифр (Nl), и прочие (No), включающие такие дроби, как ½, и цифры в верхней и нижней позициях.
P — знак препинания (Punctuation).
S — прочие печатные символы (Symbol). Включают в себя математические символы (Sm).
Z — разделитель (Separator).
C — управляющие символы, зарезервированные позиции и т. п. (Other).

Версии[править]

Версия 1.0.0 вышла в 1991 году и не содержала поддержки китайского и японского языков, что было отчасти исправлено в следующем году версией 1.0.1. После трёхлетнего перерыва в выпуске, версия 2.0 в 1996 году ввела суррогатные пары UTF-16, позволяющие (при 16-битном представлении данных) выйти за пределы 2¹⁶ кодовых позиций. Началось наполнение символами дополнительных «плоскостей». Версия 3.0 в 2000 году, помимо поддержки новых письменностей, «узаконила» UTF-8.

Формирование затейливых механизмов форматирования текста было практически завершено к версии 6.3 (выпущенной в сентябре 2013 года), после чего Юникод расширяется лишь путём включения экзотических письменностей и назначения «забытым» (или новым) символам кодовых позиций. Последней версией стандарта (на конец 2021 года) является 14.0.

Поддержка ПО и операционными системами[править]

В Microsoft Windows 16-разрядная поддержка кодового пространства Юникода была встроена в ядро Windows NT с самого начала. Устаревшие семейства Windows получили дополнения, позволяющие приложениям обращаться к юникодовским API. По состоянию на конец 2010-х годов, практически всё ПО от Майкрософта ориентировано на работу с текстами в Юникоде. С 2019 года предпочтительной кодировкой текстовых файлов становится UTF-8, много лет ранее ставшая de facto стандартом для прочих операционных систем.

Файл:Bush hid the facts.png

Бессмысленный текст, возникающий при открытии текстового файла, содержащего лишь символы ASCII

Известный баг Windows XP «Bush hid the facts» не был, как таковой, ошибкой в поддержке Юникода операционной системой. Он был обусловлен слепым доверием приложения «Notepad» (Блокнот) к функции IsTextUnicode, имеющей навязчивое состояние наблюдения UTF-16 там, где его нет.

Linux (ядро) поддерживает ISO/IEC 10646, что актуально, главным образом, для работы с некоторыми файловыми системами, а также текстовыми консолями. Некоторая мера понимания ISO/IEC 10646 ядром ничего не говорит о способности приложений работать с юникодовскими текстами, определяемой лишь разработчиками приложений. По состоянию на конец 2010-х годов, написано большое количество свободных библиотек, помогающих программисту совладать со сложными проблемами представления многоязычных текстов в виде, пригодном для пользователя. Основанная на Linux система Android изначально была разработана с учётом поддержки Юникода.

Ляпы[править]

Известен ряд явных опечаток в официальных (английских) названиях символов, что вызывает особую досаду ввиду того, что эти названия не подлежат изменению никогда (даже при выпуске новой версии стандарта). Помимо этого, названия первых 128 символов были некритически списаны со стандарта ISO 646, откуда Юникод заимствовал, таким образом, некоторые нелепости.

См. также[править]

Кодировки символов в HTML

Источники[править]

Основы

Исторические кодировки

Докомпьютерные:	семафорная (Макарова) Морзе Бодо МТК-2
Компьютерные:	6-битная УПП RADIX-50 EBCDIC ДКОИ-8 КОИ-7 ISO 646 ANSEL

современное
8-битное
представление

символы	ASCII управляющие печатные
8-битные код.стр.	ISO 8859 кириллица КОИ-8 ГОСТ 19768-87 MacCyrillic
Windows	1250 1251 (кир.) 1252 1253 1254 1255 1256 1257 1258 WGL4
IBM & DOS	437 850 852 855 866 «альт.» МИК НИИ ЭВМ

Многобайтные

Традиционные	DBCS GB 2312 HTML
Unicode	UTF список символов кириллица латиница

Связанные темы

Компьютерные кодировки

Стандарты ISO Перечни: Перечень стандартов ИСО Перечень романизаций ISO Перечень стандартов IEC Категории: Категория:Стандарты ISO Категория:Протоколы OSI ↑ [+]
1 по 9999	1 2 3 4 6 7 9 16 31 -0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -12 -13 128 216 217 226 228 233 259 269 296 302 306 428 639 -1 646 668 690 732 764 796 843 898 1000 1004 1007 1073-1 1413 1538 1745 2014 2015 2022 2108 2145 2146 2281 2709 2711 2788 3029 3103 3166 -1 -2 -3 3297 3307 3602 3864 3901 3977 4031 4157 4217 5218 5775 5776 5964 6166 6344 6346 6425 6429 6438 6523 6709 7001 7002 7098 7185 7388 7498 7736 7810 7811 7812 7813 7816 8000 8217 8571 8583 8601 8632 8652 8691 8807 8820-5 8859 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -12 -13 -14 -15 -16) 8879 9000 9075 9126 9241 9362 9407 9506 9529 9564 9594 9660 9897 9945 9984 9985 9995
10000 по 19999	10006 10118-3 10160 10161 10165 10179 10206 10303 10303-11 10303-21 10303-22 10303-238 10303-28 10383 10487 10585 10589 10646 10664 10746 10861 10957 10962 10967 11073 11170 11179 11404 11544 11783 11784 11785 11801 11898 11940 11941 11941 (TR) 11992 12006 12164 12182:1998 12207:1995 12207:2008 12234-2 13211 -1 -2 13216 13250 13399 13406-2 13407 13450 13485 13490 13567 13568 13584 13616 14000 14031 14396 14443 14496-10 14496-14 ISO 14575 14644 -1 -2 -3 -4 -5 -6 -7 -8 -9 14649 14651 14698 14698-2 14750 14882 14971 15022 15189 15288 15291 15292 15408 15444 15445 15438 15504 15511 15686 15693 15706 15706-2 15707 15897 15919 15924 15926 15926 WIP 15930 16023 16262 16750 17024 17025 17369 17799 17987 18000 18004 18014 18245 18629 18916 19005 19011 19092-1 19092-2 19114 19115 19439 19501:2005 19752 19757 19770 19775-1 19794-5
20000+	20000 20022 20121 21000 21047 21500 21827:2002 22000 23008-2 23270 23360 24613 24707 25964-1 25178 26000 26300 26324 27000 series 27000 27001 27002 27003 27004 27005 27006 27007 27729 27799 29199-2 29500 31000 32000 38500 42010 50001 80000
См. также: Список статей, начинающихся с «ISO»

[charts-1] ttps://unicode.org/charts/

[Blocks-2] ttps://www.unicode.org/Public/UNIDATA/Blocks.txt

[tr44-3] ttps://www.unicode.org/reports/tr44/

[1]

[2]

[3]

Юникод

Содержание

Теоретические основы[править]

Кодовое пространство Юникода[править]

Свойства символов Юникода[править]

Версии[править]

Поддержка ПО и операционными системами[править]

Ляпы[править]

См. также[править]

Источники[править]

Навигация

Юникод

Теоретические основы[править]

Кодовое пространство Юникода[править]

Свойства символов Юникода[править]

Версии[править]

Поддержка ПО и операционными системами[править]

Ляпы[править]

См. также[править]

Источники[править]

Навигация

Поиск