Кириллица в Юникоде

Материал из Циклопедии
Перейти к навигации Перейти к поиску

Кириллица — одна из приблизительно 93 современных письменностей (систем письма), включённых в Юникод. Указание на принадлежность к кириллице содержится в свойстве «письменность» для 443 кодовых позиций Юникода.[1] Однако, подавляющее большинство использований имеют коды в диапазоне U+0400–U+045F, то есть, первые 96 позиций кириллицы в Юникоде. Буквы с указанными кодами почти покрывают славянские языки и большинство из них присутствует в «кодовой странице 1251» — форме кодирования славянской кириллицы, преобладавшей в начале XXI века.

Если для языков славянских переход от кодовых страниц к Юникоду был сменой доминирующего цифрового стандарта, не принёсшей существенных[Прим. 1] выгод, то многие другие языки с кириллической письменностью вообще не поддерживались полноценно кодовыми страницами.[Прим. 2] Использование Юникода является практически необходимым для работы с текстами, к примеру, на абхазском, или для цифрового кодирования древних славянских рукописей.

В набор символов Юникода включены многочисленные видоизменения букв кириллицы. Помимо того, в соответствии с идеологией Юникода, приходится отдельно включать ещё и отдельные заимствования из латиницы или греческого, используемые в редких кириллических орфографиях. Каждый закодированный в Юникоде знак письма (англ. letter) относится к ровно одной письменности, и использование в словах знаков другой письменности не поощряется. Так, коды выделены буквам «Ԛ» (U+051A, U+051B) и «Ԝ» (U+051C, U+051D), не отличающимся от латинских прототипов «Q» и «W» ни написанием, ни фонетической нагрузкой.

Блоки[править]

Cyrillic (кириллица): U+0400–U+04FF[править]

Крупнейший, важнейший и старейший блок на 256 кодовых позиций, все из которых заняты. Исторически составлен из двух частей, первой из которых следует U+0400–U+045F, содержащий 48 прописных (в U+0400–U+041F) и соответствующие им 48 строчных букв. Эти буквы преобладают в кириллической письменности славянских языков и достаточны для поддержки русского, белорусского, болгарского, сербского, македонского языков в современных орфографиях; украинский покрывается ими за исключением буквы «ґ», находящейся в другом месте блока (U+0490, U+0491).

В Интернете встречается неточное утверждение, что эта первая часть блока якобы получена «перемещением ISO 8859-5 на 864 позиции»; при этом имеются в виду 96 печатных символов ISO 8859-5, лежащих в 8-битной области (за пределами ASCII). На самом же деле Юникод кодирует таким образом только 46 букв (в прописном и строчном варианте каждая), находившихся в этом месте до версии 3. Помимо этих (имеющихся также в код.стр. 1251) 46 букв, ISO 8859-5 содержит ещё и 4 небуквенных символа: неразрывный пробел, мягкий перенос, знак «§» (все три Юникод размещает в Latin-1 Supplement), а также «буквоподобный» знак «». Четыре ненужных (для указанных символов) места в блоке Cyrillic были в 1999 году заняты нужными для македонского языка комбинированными буквами «ѐ» и «ѝ» («е» и «и» с обратным знаком ударения).

Начиная с U+0460 следуют символы исторических языков (таких, как старославянский) и устаревших орфографий, а также менее употребительные в живых языках буквы. Блок Cyrillic в целом достаточен для текстов на монгольском, казахском, таджикском, татарском, якутском, бурятском, чувашском, марийском, башкирском, ряде языков Северного Кавказа и некоторых других, а также для русского языка в имперской орфографии.

Таблица кодовых позиций блока Cyrillic
{| border="1" cellpadding="2" cellspacing="0"

|+ |----- style="background:#ccf" ! width="4%" |U+!! width="6%" |0!! width="6%" |1!! width="6%" |2!! width="6%" |3!! width="6%" |4!! width="6%" |5!! width="6%" |6!! width="6%" |7!! width="6%" |8!! width="6%" |9!! width="6%" |A!! width="6%" |B!! width="6%" |C!! width="6%" |D!! width="6%" |E!! width="6%" |F |----- align="center" style="background:#cfc" ! style="background:#fff" |0400 | style="background:#ff9;" title="U+0400: CYRILLIC CAPITAL LETTER IE WITH GRAVE" | Ѐ | title="U+0401: CYRILLIC CAPITAL LETTER IO" | Ё | title="U+0402: CYRILLIC CAPITAL LETTER DJE" | Ђ | title="U+0403: CYRILLIC CAPITAL LETTER GJE" | Ѓ | title="U+0404: CYRILLIC CAPITAL LETTER UKRAINIAN IE" | Є | title="U+0405: CYRILLIC CAPITAL LETTER DZE" | Ѕ | title="U+0406: CYRILLIC CAPITAL LETTER BYELORUSSIAN-UKRAINIAN I" | І | title="U+0407: CYRILLIC CAPITAL LETTER YI" | Ї | title="U+0408: CYRILLIC CAPITAL LETTER JE" | Ј | title="U+0409: CYRILLIC CAPITAL LETTER LJE" | Љ | title="U+040A: CYRILLIC CAPITAL LETTER NJE" | Њ | title="U+040B: CYRILLIC CAPITAL LETTER TSHE" | Ћ | title="U+040C: CYRILLIC CAPITAL LETTER KJE" | Ќ | style="background:#ff9;" title="U+040D: CYRILLIC CAPITAL LETTER I WITH GRAVE" | Ѝ | title="U+040E: CYRILLIC CAPITAL LETTER SHORT U" | Ў | title="U+040F: CYRILLIC CAPITAL LETTER DZHE" | Џ |----- align="center" style="background:#cfc" ! style="background:#fff" |0410 | title="U+0410: CYRILLIC CAPITAL LETTER A" | А | title="U+0411: CYRILLIC CAPITAL LETTER BE" | Б | title="U+0412: CYRILLIC CAPITAL LETTER VE" | В | title="U+0413: CYRILLIC CAPITAL LETTER GHE" | Г | title="U+0414: CYRILLIC CAPITAL LETTER DE" | Д | title="U+0415: CYRILLIC CAPITAL LETTER IE" | Е | title="U+0416: CYRILLIC CAPITAL LETTER ZHE" | Ж | title="U+0417: CYRILLIC CAPITAL LETTER ZE" | З | title="U+0418: CYRILLIC CAPITAL LETTER I" | И | title="U+0419: CYRILLIC CAPITAL LETTER SHORT I" | Й | title="U+041A: CYRILLIC CAPITAL LETTER KA" | К | title="U+041B: CYRILLIC CAPITAL LETTER EL" | Л | title="U+041C: CYRILLIC CAPITAL LETTER EM" | М | title="U+041D: CYRILLIC CAPITAL LETTER EN" | Н | title="U+041E: CYRILLIC CAPITAL LETTER O" | О | title="U+041F: CYRILLIC CAPITAL LETTER PE" | П |----- align="center" style="background:#cfc" ! style="background:#fff" |0420 | title="U+0420: CYRILLIC CAPITAL LETTER ER" | Р | title="U+0421: CYRILLIC CAPITAL LETTER ES" | С | title="U+0422: CYRILLIC CAPITAL LETTER TE" | Т | title="U+0423: CYRILLIC CAPITAL LETTER U" | У | title="U+0424: CYRILLIC CAPITAL LETTER EF" | Ф | title="U+0425: CYRILLIC CAPITAL LETTER HA" | Х | title="U+0426: CYRILLIC CAPITAL LETTER TSE" | Ц | title="U+0427: CYRILLIC CAPITAL LETTER CHE" | Ч | title="U+0428: CYRILLIC CAPITAL LETTER SHA" | Ш | title="U+0429: CYRILLIC CAPITAL LETTER SHCHA" | Щ | title="U+042A: CYRILLIC CAPITAL LETTER HARD SIGN" | Ъ | title="U+042B: CYRILLIC CAPITAL LETTER YERU" | Ы | title="U+042C: CYRILLIC CAPITAL LETTER SOFT SIGN" | Ь | title="U+042D: CYRILLIC CAPITAL LETTER E" | Э | title="U+042E: CYRILLIC CAPITAL LETTER YU" | Ю | title="U+042F: CYRILLIC CAPITAL LETTER YA" | Я |----- align="center" style="background:#cfc" ! style="background:#fff" |0430 | title="U+0430: CYRILLIC SMALL LETTER A" | а | title="U+0431: CYRILLIC SMALL LETTER BE" | б | title="U+0432: CYRILLIC SMALL LETTER VE" | в | title="U+0433: CYRILLIC SMALL LETTER GHE" | г | title="U+0434: CYRILLIC SMALL LETTER DE" | д | title="U+0435: CYRILLIC SMALL LETTER IE" | е | title="U+0436: CYRILLIC SMALL LETTER ZHE" | ж | title="U+0437: CYRILLIC SMALL LETTER ZE" | з | title="U+0438: CYRILLIC SMALL LETTER I" | и | title="U+0439: CYRILLIC SMALL LETTER SHORT I" | й | title="U+043A: CYRILLIC SMALL LETTER KA" | к | title="U+043B: CYRILLIC SMALL LETTER EL" | л | title="U+043C: CYRILLIC SMALL LETTER EM" | м | title="U+043D: CYRILLIC SMALL LETTER EN" | н | title="U+043E: CYRILLIC SMALL LETTER O" | о | title="U+043F: CYRILLIC SMALL LETTER PE" | п |----- align="center" style="background:#cfc" ! style="background:#fff" |0440 | title="U+0440: CYRILLIC SMALL LETTER ER" | р | title="U+0441: CYRILLIC SMALL LETTER ES" | с | title="U+0442: CYRILLIC SMALL LETTER TE" | т | title="U+0443: CYRILLIC SMALL LETTER U" | у | title="U+0444: CYRILLIC SMALL LETTER EF" | ф | title="U+0445: CYRILLIC SMALL LETTER HA" | х | title="U+0446: CYRILLIC SMALL LETTER TSE" | ц | title="U+0447: CYRILLIC SMALL LETTER CHE" | ч | title="U+0448: CYRILLIC SMALL LETTER SHA" | ш | title="U+0449: CYRILLIC SMALL LETTER SHCHA" | щ | title="U+044A: CYRILLIC SMALL LETTER HARD SIGN" | ъ | title="U+044B: CYRILLIC SMALL LETTER YERU" | ы | title="U+044C: CYRILLIC SMALL LETTER SOFT SIGN" | ь | title="U+044D: CYRILLIC SMALL LETTER E" | э | title="U+044E: CYRILLIC SMALL LETTER YU" | ю | title="U+044F: CYRILLIC SMALL LETTER YA" | я |----- align="center" style="background:#cfc" ! style="background:#fff" |0450 | style="background:#ff9;" title="U+0450: CYRILLIC SMALL LETTER IE WITH GRAVE" | ѐ | title="U+0451: CYRILLIC SMALL LETTER IO" | ё | title="U+0452: CYRILLIC SMALL LETTER DJE" | ђ | title="U+0453: CYRILLIC SMALL LETTER GJE" | ѓ | title="U+0454: CYRILLIC SMALL LETTER UKRAINIAN IE" | є | title="U+0455: CYRILLIC SMALL LETTER DZE" | ѕ | title="U+0456: CYRILLIC SMALL LETTER BYELORUSSIAN-UKRAINIAN I" | і | title="U+0457: CYRILLIC SMALL LETTER YI" | ї | title="U+0458: CYRILLIC SMALL LETTER JE" | ј | title="U+0459: CYRILLIC SMALL LETTER LJE" | љ | title="U+045A: CYRILLIC SMALL LETTER NJE" | њ | title="U+045B: CYRILLIC SMALL LETTER TSHE" | ћ | title="U+045C: CYRILLIC SMALL LETTER KJE" | ќ | style="background:#ff9;" title="U+045D: CYRILLIC SMALL LETTER I WITH GRAVE" | ѝ | title="U+045E: CYRILLIC SMALL LETTER SHORT U" | ў | title="U+045F: CYRILLIC SMALL LETTER DZHE" | џ |----- align="center" style="background:#cfc" ! style="background:#fff" |0460 | title="U+0460: CYRILLIC CAPITAL LETTER OMEGA" | Ѡ | title="U+0461: CYRILLIC SMALL LETTER OMEGA" | ѡ | title="U+0462: CYRILLIC CAPITAL LETTER YAT" | Ѣ | title="U+0463: CYRILLIC SMALL LETTER YAT" | ѣ | title="U+0464: CYRILLIC CAPITAL LETTER IOTIFIED E" | Ѥ | title="U+0465: CYRILLIC SMALL LETTER IOTIFIED E" | ѥ | title="U+0466: CYRILLIC CAPITAL LETTER LITTLE YUS" | Ѧ | title="U+0467: CYRILLIC SMALL LETTER LITTLE YUS" | ѧ | title="U+0468: CYRILLIC CAPITAL LETTER IOTIFIED LITTLE YUS" | Ѩ | title="U+0469: CYRILLIC SMALL LETTER IOTIFIED LITTLE YUS" | ѩ | title="U+046A: CYRILLIC CAPITAL LETTER BIG YUS" | Ѫ | title="U+046B: CYRILLIC SMALL LETTER BIG YUS" | ѫ | title="U+046C: CYRILLIC CAPITAL LETTER IOTIFIED BIG YUS" | Ѭ | title="U+046D: CYRILLIC SMALL LETTER IOTIFIED BIG YUS" | ѭ | title="U+046E: CYRILLIC CAPITAL LETTER KSI" | Ѯ | title="U+046F: CYRILLIC SMALL LETTER KSI" | ѯ |----- align="center" style="background:#cfc" ! style="background:#fff" |0470 | title="U+0470: CYRILLIC CAPITAL LETTER PSI" | Ѱ | title="U+0471: CYRILLIC SMALL LETTER PSI" | ѱ | title="U+0472: CYRILLIC CAPITAL LETTER FITA" | Ѳ | title="U+0473: CYRILLIC SMALL LETTER FITA" | ѳ | title="U+0474: CYRILLIC CAPITAL LETTER IZHITSA" | Ѵ | title="U+0475: CYRILLIC SMALL LETTER IZHITSA" | ѵ | title="U+0476: CYRILLIC CAPITAL LETTER IZHITSA WITH DOUBLE GRAVE ACCENT" | Ѷ | title="U+0477: CYRILLIC SMALL LETTER IZHITSA WITH DOUBLE GRAVE ACCENT" | ѷ | title="U+0478: CYRILLIC CAPITAL LETTER UK" | Ѹ | title="U+0479: CYRILLIC SMALL LETTER UK" | ѹ | title="U+047A: CYRILLIC CAPITAL LETTER ROUND OMEGA" | Ѻ | title="U+047B: CYRILLIC SMALL LETTER ROUND OMEGA" | ѻ | title="U+047C: CYRILLIC CAPITAL LETTER OMEGA WITH TITLO" | Ѽ | title="U+047D: CYRILLIC SMALL LETTER OMEGA WITH TITLO" | ѽ | title="U+047E: CYRILLIC CAPITAL LETTER OT" | Ѿ | title="U+047F: CYRILLIC SMALL LETTER OT" | ѿ |----- align="center" style="background:#cfc" ! style="background:#fff" |0480 | title="U+0480: CYRILLIC CAPITAL LETTER KOPPA" | Ҁ | title="U+0481: CYRILLIC SMALL LETTER KOPPA" | ҁ | title="U+0482: CYRILLIC THOUSANDS SIGN" | ◌҂ | title="U+0483: COMBINING CYRILLIC TITLO" | ◌҃ | title="U+0484: COMBINING CYRILLIC PALATALIZATION" | ◌҄ | title="U+0485: COMBINING CYRILLIC DASIA PNEUMATA" | ◌҅ | title="U+0486: COMBINING CYRILLIC PSILI PNEUMATA" | ◌҆ | style="background:#833;" title="U+0487: COMBINING CYRILLIC POKRYTIE" | ◌҇ | style="background:#ff9;" title="U+0488: COMBINING CYRILLIC HUNDRED THOUSANDS SIGN" | ◌҈ | style="background:#ff9;" title="U+0489: COMBINING CYRILLIC MILLIONS SIGN" | ◌҉ | style="background:#885;" title="U+048A: CYRILLIC CAPITAL LETTER SHORT I WITH TAIL" | Ҋ | style="background:#885;" title="U+048B: CYRILLIC SMALL LETTER SHORT I WITH TAIL" | ҋ | style="background:#ff9;" title="U+048C: CYRILLIC CAPITAL LETTER SEMISOFT SIGN" | Ҍ | style="background:#ff9;" title="U+048D: CYRILLIC SMALL LETTER SEMISOFT SIGN" | ҍ | style="background:#ff9;" title="U+048E: CYRILLIC CAPITAL LETTER ER WITH TICK" | Ҏ | style="background:#ff9;" title="U+048F: CYRILLIC SMALL LETTER ER WITH TICK" | ҏ |----- align="center" style="background:#cfc" ! style="background:#fff" |0490 | title="U+0490: CYRILLIC CAPITAL LETTER GHE WITH UPTURN" | Ґ | title="U+0491: CYRILLIC SMALL LETTER GHE WITH UPTURN" | ґ | title="U+0492: CYRILLIC CAPITAL LETTER GHE WITH STROKE" | Ғ | title="U+0493: CYRILLIC SMALL LETTER GHE WITH STROKE" | ғ | title="U+0494: CYRILLIC CAPITAL LETTER GHE WITH MIDDLE HOOK" | Ҕ | title="U+0495: CYRILLIC SMALL LETTER GHE WITH MIDDLE HOOK" | ҕ | title="U+0496: CYRILLIC CAPITAL LETTER ZHE WITH DESCENDER" | Җ | title="U+0497: CYRILLIC SMALL LETTER ZHE WITH DESCENDER" | җ | title="U+0498: CYRILLIC CAPITAL LETTER ZE WITH DESCENDER" | Ҙ | title="U+0499: CYRILLIC SMALL LETTER ZE WITH DESCENDER" | ҙ | title="U+049A: CYRILLIC CAPITAL LETTER KA WITH DESCENDER" | Қ | title="U+049B: CYRILLIC SMALL LETTER KA WITH DESCENDER" | қ | title="U+049C: CYRILLIC CAPITAL LETTER KA WITH VERTICAL STROKE" | Ҝ | title="U+049D: CYRILLIC SMALL LETTER KA WITH VERTICAL STROKE" | ҝ | title="U+049E: CYRILLIC CAPITAL LETTER KA WITH STROKE" | Ҟ | title="U+049F: CYRILLIC SMALL LETTER KA WITH STROKE" | ҟ |----- align="center" style="background:#cfc" ! style="background:#fff" |04A0 | title="U+04A0: CYRILLIC CAPITAL LETTER BASHKIR KA" | Ҡ | title="U+04A1: CYRILLIC SMALL LETTER BASHKIR KA" | ҡ | title="U+04A2: CYRILLIC CAPITAL LETTER EN WITH DESCENDER" | Ң | title="U+04A3: CYRILLIC SMALL LETTER EN WITH DESCENDER | ң | title="U+04A4: CYRILLIC CAPITAL LIGATURE EN GHE" | Ҥ | title="U+04A5: CYRILLIC SMALL LIGATURE EN GHE" | ҥ | title="U+04A6: CYRILLIC CAPITAL LETTER PE WITH MIDDLE HOOK" | Ҧ | title="U+04A7: CYRILLIC SMALL LETTER PE WITH MIDDLE HOOK" | ҧ | title="U+04A8: CYRILLIC CAPITAL LETTER ABKHASIAN HA" | Ҩ | title="U+04A9: CYRILLIC SMALL LETTER ABKHASIAN HA" | ҩ | title="U+04AA: CYRILLIC CAPITAL LETTER ES WITH DESCENDER" | Ҫ | title="U+04AB: CYRILLIC SMALL LETTER ES WITH DESCENDER" | ҫ | title="U+04AC: CYRILLIC CAPITAL LETTER TE WITH DESCENDER" | Ҭ | title="U+04AD: CYRILLIC SMALL LETTER TE WITH DESCENDER" | ҭ | title="U+04AE: CYRILLIC CAPITAL LETTER STRAIGHT U" | Ү | title="U+04AF: CYRILLIC SMALL LETTER STRAIGHT U" | ү |----- align="center" style="background:#cfc" ! style="background:#fff" |04B0 | title="U+04B0: CYRILLIC CAPITAL LETTER STRAIGHT U WITH STROKE" | Ұ | title="U+04B1: CYRILLIC SMALL LETTER STRAIGHT U WITH STROKE" | ұ | title="U+04B2: CYRILLIC CAPITAL LETTER HA WITH DESCENDER" | Ҳ | title="U+04B3: CYRILLIC SMALL LETTER HA WITH DESCENDER" | ҳ | title="U+04B4: CYRILLIC CAPITAL LIGATURE TE TSE" | Ҵ | title="U+04B5: CYRILLIC SMALL LIGATURE TE TSE" | ҵ | title="U+04B6: CYRILLIC CAPITAL LETTER CHE WITH DESCENDER" | Ҷ | title="U+04B7: CYRILLIC SMALL LETTER CHE WITH DESCENDER" | ҷ | title="U+04B8: CYRILLIC CAPITAL LETTER CHE WITH VERTICAL STROKE" | Ҹ | title="U+04B9: CYRILLIC SMALL LETTER CHE WITH VERTICAL STROKE" | ҹ | title="U+04BA: CYRILLIC CAPITAL LETTER SHHA" | Һ | title="U+04BB: CYRILLIC SMALL LETTER SHHA" | һ | title="U+04BC: CYRILLIC CAPITAL LETTER ABKHASIAN CHE" | Ҽ | title="U+04BD: CYRILLIC SMALL LETTER ABKHASIAN CHE" | ҽ | title="U+04BE: CYRILLIC CAPITAL LETTER ABKHASIAN CHE WITH DESCENDER" | Ҿ | title="U+04BF: CYRILLIC SMALL LETTER ABKHASIAN CHE WITH DESCENDER" | ҿ |----- align="center" style="background:#cfc" ! style="background:#fff" |04C0 | title="U+04C0: CYRILLIC LETTER PALOCHKA" | Ӏ | title="U+04C1: CYRILLIC CAPITAL LETTER ZHE WITH BREVE" | Ӂ | title="U+04C2: CYRILLIC SMALL LETTER ZHE WITH BREVE" | ӂ | title="U+04C3: CYRILLIC CAPITAL LETTER KA WITH HOOK" | Ӄ | title="U+04C4: CYRILLIC SMALL LETTER KA WITH HOOK" | ӄ | title="U+04C5: CYRILLIC CAPITAL LETTER EL WITH TAIL" | Ӆ | title="U+04C6: CYRILLIC SMALL LETTER EL WITH TAIL" | ӆ | title="U+04C7: CYRILLIC CAPITAL LETTER EN WITH HOOK" | Ӈ | title="U+04C8: CYRILLIC SMALL LETTER EN WITH HOOK" | ӈ | title="U+04C9: CYRILLIC CAPITAL LETTER EN WITH TAIL" | Ӊ | title="U+04CA: CYRILLIC SMALL LETTER EN WITH TAIL" | ӊ | title="U+04CB: CYRILLIC CAPITAL LETTER KHAKASSIAN CHE" | ӊ | title="U+04CC: CYRILLIC SMALL LETTER KHAKASSIAN CHE" | ӌ | title="U+04CD: CYRILLIC CAPITAL LETTER EM WITH TAIL" | ӌ | title="U+04CE: CYRILLIC SMALL LETTER EM WITH TAIL" | ӎ | title="U+04CF: CYRILLIC SMALL LETTER PALOCHKA" | ӏ |----- align="center" style="background:#9b9" ! style="background:#fff" |04D0 | title="U+04D0: CYRILLIC CAPITAL LETTER A WITH BREVE" | Ӑ | title="U+04D1: CYRILLIC SMALL LETTER A WITH BREVE" | ӑ | title="U+04D2: CYRILLIC CAPITAL LETTER A WITH DIAERESIS" | Ӓ | title="U+04D3: CYRILLIC SMALL LETTER A WITH DIAERESIS" | ӓ | title="U+04D4: CYRILLIC CAPITAL LIGATURE A IE" | Ӕ | title="U+04D5: CYRILLIC SMALL LIGATURE A IE" | ӕ | title="U+04D6: CYRILLIC CAPITAL LETTER IE WITH BREVE" | Ӗ | title="U+04D7: CYRILLIC SMALL LETTER IE WITH BREVE" | ӗ | title="U+04D8: CYRILLIC CAPITAL LETTER SCHWA" | Ә | title="U+04D9: CYRILLIC SMALL LETTER SCHWA" | ә | title="U+04DA: CYRILLIC CAPITAL LETTER SCHWA WITH DIAERESIS" | Ӛ | title="U+04DB: CYRILLIC SMALL LETTER SCHWA WITH DIAERESIS" | ӛ | title="U+04DC: CYRILLIC CAPITAL LETTER ZHE WITH DIAERESIS" | Ӝ | title="U+04DD: CYRILLIC SMALL LETTER ZHE WITH DIAERESIS" | ӝ | title="U+04DE: CYRILLIC CAPITAL LETTER ZE WITH DIAERESIS" | Ӟ | title="U+04DF: CYRILLIC SMALL LETTER ZE WITH DIAERESIS" | ӟ |----- align="center" style="background:#9b9" ! style="background:#fff" |04E0 | title="U+04E0: CYRILLIC CAPITAL LETTER ABKHASIAN DZE" | Ӡ | title="U+04E1: CYRILLIC SMALL LETTER ABKHASIAN DZE" | ӡ | title="U+04E2: CYRILLIC CAPITAL LETTER I WITH MACRON" | Ӣ | title="U+04E3: CYRILLIC SMALL LETTER I WITH MACRON" | ӣ | title="U+04E4: CYRILLIC CAPITAL LETTER I WITH DIAERESIS" | Ӥ | title="U+04E5: CYRILLIC SMALL LETTER I WITH DIAERESIS" | ӥ | title="U+04E6: CYRILLIC CAPITAL LETTER O WITH DIAERESIS" | Ӧ | title="U+04E7: CYRILLIC SMALL LETTER O WITH DIAERESIS" | ӧ | title="U+04E8: CYRILLIC CAPITAL LETTER BARRED O" | Ө | title="U+04B9: CYRILLIC SMALL LETTER BARRED O" | ө | title="U+04EA: CYRILLIC CAPITAL LETTER BARRED O WITH DIAERESIS" | Ӫ | title="U+04EB: CYRILLIC SMALL LETTER BARRED O WITH DIAERESIS" | ӫ | style="background:#ff9" title="U+04EC: CYRILLIC CAPITAL LETTER E WITH DIAERESIS" | Ӭ | style="background:#ff9" title="U+04ED: CYRILLIC SMALL LETTER E WITH DIAERESIS" | ӭ | title="U+04EE: CYRILLIC CAPITAL LETTER U WITH MACRON" | Ӯ | title="U+04EF: CYRILLIC SMALL LETTER U WITH MACRON" | ӯ |----- align="center" style="background:#9b9" ! style="background:#fff" |04F0 | title="U+04F0: CYRILLIC CAPITAL LETTER U WITH DIAERESIS" | Ӱ | title="U+04F1: CYRILLIC SMALL LETTER U WITH DIAERESIS" | ӱ | title="U+04F2: CYRILLIC CAPITAL LETTER U WITH DOUBLE ACUTE" | Ӳ | title="U+04F3: CYRILLIC SMALL LETTER U WITH DOUBLE ACUTE" | ӳ | title="U+04F4: CYRILLIC CAPITAL LETTER CHE WITH DIAERESIS" | Ӵ | title="U+04F5: CYRILLIC SMALL LETTER CHE WITH DIAERESIS" | ӵ | style="background:#b99" title="U+04F6: CYRILLIC CAPITAL LETTER GHE WITH DESCENDER" | Ӷ | style="background:#b99" title="U+04F7: CYRILLIC SMALL LETTER GHE WITH DESCENDER" | ӷ | title="U+04F8: CYRILLIC CAPITAL LETTER YERU WITH DIAERESIS" | Ӹ | title="U+04F9: CYRILLIC SMALL LETTER YERU WITH DIAERESIS" | ӹ | style="background:#866" title="U+04FA: CYRILLIC CAPITAL LETTER GHE WITH STROKE AND HOOK" | Ӻ | style="background:#866" title="U+04FB: CYRILLIC SMALL LETTER GHE WITH STROKE AND HOOK" | ӻ | style="background:#866" title="U+04FC: CYRILLIC CAPITAL LETTER HA WITH HOOK" | Ӽ | style="background:#866" title="U+04FD: CYRILLIC SMALL LETTER HA WITH HOOK" | ӽ | style="background:#866" title="U+04FE: CYRILLIC CAPITAL LETTER HA WITH STROKE" | Ӿ | style="background:#866" title="U+04FF: CYRILLIC SMALL LETTER HA WITH STROKE" | ӿ

|}
Легенда:
Unicode 1.0 Unicode 4.0
Unicode 1.1 Unicode 4.1
Unicode 2.x Unicode 5.0
Unicode 3.0 Unicode 5.1
Unicode 3.1 Unicode 6.0
Unicode 3.2 Unicode 7.0

Cyrillic Supplement: U+0500–U+052F[править]

Название блока передаётся по-русски как дополнение к кириллице или кириллица дополнительная. Содержит 24 буквы (каждая в прописном и строчном варианте), не используемых для славянских языков. Помимо восьми букв для письменности языка коми и букв для алеутской орфографии, там есть также буква «Ԥ» (U+0524, U+0525), нужная для современной абхазской орфографии. Высказывающееся на некоторых вебсайтах мнение, что блок содержит «[только] устаревшие буквы», является ошибочным, хотя большинство из представленных 24 букв вышли из употребления.

Таблица кодовых позиций блока Cyrillic Supplement
{| border="1" cellpadding="2" cellspacing="0"

|+ |----- style="background:#ccf" ! width="4%" |U+!! width="6%" |0!! width="6%" |1!! width="6%" |2!! width="6%" |3!! width="6%" |4!! width="6%" |5!! width="6%" |6!! width="6%" |7!! width="6%" |8!! width="6%" |9!! width="6%" |A!! width="6%" |B!! width="6%" |C!! width="6%" |D!! width="6%" |E!! width="6%" |F |----- align="center" style="background:#885" ! style="background:#fff" |0500 | title="U+0500: CYRILLIC CAPITAL LETTER KOMI DE" | Ԁ | title="U+0501: CYRILLIC SMALL LETTER KOMI DE" | ԁ | title="U+0502: CYRILLIC CAPITAL LETTER KOMI DJE" | Ԃ | title="U+0503: CYRILLIC SMALL LETTER KOMI DJE" | ԃ | title="U+0504: CYRILLIC CAPITAL LETTER KOMI ZJE" | Ԅ | title="U+0505: CYRILLIC SMALL LETTER KOMI ZJE" | ԅ | title="U+0506: CYRILLIC CAPITAL LETTER KOMI DZJE" | Ԇ | title="U+0507: CYRILLIC SMALL LETTER KOMI DZJE" | ԇ | title="U+0508: CYRILLIC CAPITAL LETTER KOMI LJE" | Ԉ | title="U+0509: CYRILLIC SMALL LETTER KOMI LJE" | ԉ | title="U+050A: CYRILLIC CAPITAL LETTER KOMI NJE" | Ԋ | title="U+050B: CYRILLIC SMALL LETTER KOMI NJE" | ԋ | title="U+050C: CYRILLIC CAPITAL LETTER KOMI SJE" | Ԍ | title="U+050D: CYRILLIC SMALL LETTER KOMI SJE" | ԍ | title="U+050E: CYRILLIC CAPITAL LETTER KOMI TJE" | Ԏ | title="U+050F: CYRILLIC SMALL LETTER KOMI TJE" | ԏ |----- align="center" style="background:#833" ! style="background:#fff" |0510 | style="background:#866" title="U+0510: CYRILLIC CAPITAL LETTER REVERSED ZE" | Ԑ | style="background:#866" title="U+0511: CYRILLIC SMALL LETTER REVERSED ZE" | ԑ | style="background:#866" title="U+0512: CYRILLIC CAPITAL LETTER EL WITH HOOK" | Ԓ | style="background:#866" title="U+0513: CYRILLIC SMALL LETTER EL WITH HOOK" | ԓ | title="U+0514: CYRILLIC CAPITAL LETTER LHA" | Ԕ | title="U+0515: CYRILLIC SMALL LETTER LHA" | ԕ | title="U+0516: CYRILLIC CAPITAL LETTER RHA" | Ԗ | title="U+0517: CYRILLIC SMALL LETTER RHA" | ԗ | title="U+0518: CYRILLIC CAPITAL LETTER YAE" | Ԙ | title="U+0519: CYRILLIC SMALL LETTER YAE" | ԙ | title="U+051A: CYRILLIC CAPITAL LETTER QA" | Ԛ | title="U+051B: CYRILLIC SMALL LETTER QA" | ԛ | title="U+051C: CYRILLIC CAPITAL LETTER WE" | Ԝ | title="U+051D: CYRILLIC SMALL LETTER WE" | ԝ | title="U+051E: CYRILLIC CAPITAL LETTER ALEUT KA" | Ԟ | title="U+051F: CYRILLIC SMALL LETTER ALEUT KA" | ԟ |----- align="center" style="background:#609" ! style="background:#fff" |0520 | style="background:#833" title="U+0520: CYRILLIC CAPITAL LETTER EL WITH MIDDLE HOOK" | Ԡ | style="background:#833" title="U+0521: CYRILLIC SMALL LETTER EL WITH MIDDLE HOOK" | ԡ | style="background:#833" title="U+0522: CYRILLIC CAPITAL LETTER EN WITH MIDDLE HOOK" | Ԣ | style="background:#833" title="U+0523: CYRILLIC SMALL LETTER EN WITH MIDDLE HOOK" | ԣ | style="background:#806" title="U+0524: CYRILLIC CAPITAL LETTER PE WITH DESCENDER" | Ԥ | style="background:#806" title="U+0525: CYRILLIC SMALL LETTER PE WITH DESCENDER" | ԥ | title="U+0526: CYRILLIC CAPITAL LETTER SHHA WITH DESCENDER" | Ԧ | title="U+0527: CYRILLIC SMALL LETTER SHHA WITH DESCENDER" | ԧ | title="U+0528: CYRILLIC CAPITAL LETTER EN WITH LEFT HOOK" | Ԩ | title="U+0529: CYRILLIC SMALL LETTER EN WITH LEFT HOOK" | ԩ | title="U+052A: CYRILLIC CAPITAL LETTER DZZHE" | Ԫ | title="U+052B: CYRILLIC SMALL LETTER DZZHE" | ԫ | title="U+052C: CYRILLIC CAPITAL LETTER DCHE" | Ԭ | title="U+052D: CYRILLIC SMALL LETTER DCHE" | ԭ | title="U+052E: CYRILLIC CAPITAL LETTER EL WITH DESCENDER" | Ԯ | title="U+052F: CYRILLIC SMALL LETTER EL WITH DESCENDER" | ԯ

|}

Прочие[править]

Cyrillic Extended-A (U+2DE0–U+2DFF) содержит 32 выносных варианта букв, именуемых «буквотитла» — надстрочных, не занимающих ширину букв, специфичных для православного славянского письма.

Cyrillic Extended-B (U+A640–U+A69F) содержит буквы, использовавшиеся для старославянского языка (включая ещё несколько буквотител), а также для устаревших орфографий абхазского. Там также есть комбинационные символы для чисел на основе кириллицы, не вошедшие в блок Cyrillic.

Cyrillic Extended-C (U+1C80–U+1C8F) не содержит независимых символов — см. ниже.

Характеристики и особенности[править]

Кириллица в Юникоде занимает так много кодовых позиций, главным образом, из-за обилия лигатур, вариантов с диакритиками и оригинальных букв, созданных советскими лингвистами для письменностей народов СССР — многие из которых вышли из употребления — а также исторических графических вариантов букв, ничем кроме элементов начертания не отличающихся от знаков славянского алфавита. Это отличается от ситуации с латиницей, где много кодового пространства уходит на выделенные (precomposed) комбинации базовых 26 букв с диакритическими знаками такими, как « ̀», « ́», « ̂», « ̈». Если в испанской орфографии символы для находящихся под ударением гласных можно напрямую брать из Latin-1 Supplement (восходящему к ISO 8859-1), то ру́сские ударения приходится отмечать комбинационным символом U+0301, не имеющим ширины, но занимающим отдельную позицию в данных.

Все блоки Юникода, выделенные под кириллицу, принадлежат так называемой Основной плоскости (BMP, она же «плоскость 0»). Это значит, что каждая кодовая позиция требует ровно одно 16-битное кодовое слово в кодировке UTF-16.

Каждый код из блока Cyrillic, а также прилегающего к нему блока Cyrillic Supplement, требует 2 байта в кодировке UTF-8. Коды из прочих упомянутых блоков требуют в UTF-8 по 3 байта каждый.

История[править]

Блок Cyrillic был основан с версией стандарта 1.0 (1991), хотя 4 определённых тогда кодовых позиции были затем переназначены. В 2006–2007 годах имели место оживлённые дискуссии между восточноевропейскими и балканскими славистами, а также американскими представителями консорциума Unicode, по поводу кодирования старославянской кириллицы. Нехватка свободного пространства в блоке Cyrillic делала очевидно необходимым грядущее создание новых блоков. Высказывались также предложения (в частности, белградским филологом Зораном Костичем) о регистрации старославянской кириллицы как системы письма, отдельной от современной; в ином случае для старославянских текстов предлагалось использовать так называемый Private Use Area U+Exxx с разработкой неофициального стандарта кодировки. Включение в Юникод отдельного «старославянского алфавита» было, в итоге, отвергнуто. Последний символ в блок Cyrillic назначила версия 5.1 (2008); она же дала весь Cyrillic Extended-A и начала наполнение Cyrillic Extended-B. Версии с 3.2 (2002) по 7.0 (2014) населяли также Cyrillic Supplement. Представление кириллицы было в основном завершено версией стандарта 8.0 (2015), однако 9.0 (2016) добавила блок Cyrillic Extended-C, содержащий девять особых графических вариантов букв, встречающихся в религиозных книгах старообрядцев.

Интересные факты[править]

  • Количество кодов, выделенных в Юникоде под кириллицу (считающуюся алфавитом), почти втрое превосходит этот показатель для деванагари, являющегося слоговым письмом.[1]
  • В число 443 «официально» кириллических символов не входят расположенные в блоке Cyrillic комбинационные символы U+0485 COMBINING CYRILLIC DASIA PNEUMATA и U+0486 COMBINING CYRILLIC PSILI PNEUMATA, «письменность» которых задана как Inherited (то есть, они могут использоваться с другими системами письма).
  • Несмотря на шесть лет, прошедшие с завершения стандартизации кодов для старославянской кириллицы, в конце 2021 года ещё существуют сайты, предлагающие средневековые тексты в нестандартных вариантах кодировки. Несколько кодировок[2] помещают кириллицу в Private Use Area (см. выше). Другие[3] заменяют в шрифтах латинские и прочие символы на старославянскую кириллицу. В обоих случаях напрочь игнорируются достижения современных версий стандарта Unicode.

Примечания[править]

  1. Исключением является простановка ударений в русском[⇨] и македонском[⇨] языках.
  2. Причина бывает разной. Иногда букв слишком много, чтобы комфортно разместиться в 8-битной кодовой странице. Чаще заинтересованные стороны не могут договориться о едином стандарте, то есть, имеются конкурирующие версии кодовой таблицы. В отдельных случаях хромает поддержка фирмами-производителями ПО: к примеру, система Windows, по-видимому, не поддерживает KZ-1048 — стандарт Казахстана.

Источники[править]

  1. 1,0 1,1 https://www.unicode.org/Public/UNIDATA/Scripts.txt
  2. Пример: http://mns.udsu.ru/mns/srch.search; присутствует также на домене manuscripts.ru.
  3. Пример: http://www.orthlib.info/ (англ.)

Ссылки[править]

Официальные таблицы символов:

Кодировки символов
Основы Алфавиттекстнабор символовконверсия
Исторические кодировки Докомп.: семафорная (Макарова)МорзеБодоМТК-2
Комп.: 6-битнаяУППRADIX-50EBCDICДКОИ-8 ) • КОИ-7ISO 646
современное
8-битное
представление
символы ASCIIуправляющиепечатные )
8-битные код.стр. ISO 8859 • кириллица (КОИ-8ГОСТ 19768-87MacCyrillic)
Windows 12501251 (кир.)1252125312541255125612571258WGL4
IBM & DOS 437850852855866 «альт.»МИКНИИ ЭВМ
Многобайтные Традиционные DBCSGB 2312 ) • HTML
Unicode UTFсписок символов (кириллица • латиница)
Связанные темы интерфейс пользователяраскладка клавиатурылокальперевод строкикракозябрытранслитнестандартные шрифты