Кодирование символов (информатика)

Кодирование символов в информатике — это процесс присвоения каждому из символов какого-либо алфавита (буквам, цифрам, знакам препинания и вспомогательным символам) уникального цифрового кода, который представлен одним или несколькими байтами. В свою очередь, совокупность этих кодов представляет собой соответствующую кодовую таблицу (кодовую страницу). В настоящее время более употребим термин «набор символов» (англ. character set), который узаконен международным стандартом RFC2278^[1], так как термин кодовая таблица, как правило, обозначает частный случай таблицы набора символов с однобайтовым кодированием.

Кодирование символов в компьютере[править]

Процесс кодирования символов, позволяющий представить текстовую информацию в виде машинного кода, активно используется в самых разных языках программирования, например таких как Java^[2], Perl^[3], XSLT^[4], а также в HTML^[5].

В настоящее время преобладают три типа кодировок: 8-ми битовые ASCII^[6] и EBCDIC^[7] и 16-битовые кодировки, основанные на Юникоде^[8]. Представление UTF-8 в Юникоде полностью совместимо с ASCII. Кодировки на основе EBCDIC (такие как ДКОИ) применяются лишь на некоторых мэйнфреймах. Ранее каждая операционная система имела свой собственный набор символов. На сегодняшний день используемые наборы символов стандартизованы и зависят от типа операционной системы как дань традиции и определяются локальными настройками^[9].

Для примера ниже приведена часть кодовой таблицы ASCII (для символов, цифр и буквы латинского алфавита):


Шаблон:По диагонали	0	1	2	3	4	5	6	7	8	9	A	B	C	D	E	F
2	Пробел	!	"	#	$	%	&	'	(	)	*	+	,	-	.	/
3	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
4	@	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O
5	P	Q	R	S	T	U	V	W	X	Y	Z	[	\	]	^	_
6	`	a	b	c	d	e	f	g	h	i	j	k	l	m	n	o
7	p	q	r	s	t	u	v	w	x	y	z	{	\|	}	~

где сочетание цифр из вертикального и горизонтального заголовков таблицы в совокупности представляют собой шестнадцатеричное число, являющееся кодом соответствующего символа. Например:

шестнадцатеричное число 30₁₆ является кодом цифры «0». В двоичном представлении это будет 00110000₂

шестнадцатеричное число 4A₁₆ является кодом прописной буквы «J». В двоичном представлении это будет 01001010₂

шестнадцатеричное число 6A₁₆ является кодом строчной буквы «j». В двоичном представлении это будет 01101010₂

8-битовые компьютеры отличались небольшими объёмами оперативной и постоянной памяти, поэтому многобайтовые кодировки в этих устройствах не получили широкого применения. Это объясняется не только большим размером текстов в таких кодировках, но и недостаточным количеством памяти для хранения графики дополнительных символов, а также сложностями в обработке таких строк. В наши дни наиболее часто встречаются следующие стандартные однобайтовые кодировки:

В англоязычных программах — CP437;
В русскоязычных программах используются такие варианты^[10]:
- CP866 — с этими кодировками работают более опытные пользователи, работавшими ранее в DOS. Они поддерживает псевдографические «рамки», но требует хранения оригинального текста ПО в данной кодировке, что может создать трудности для новичков;
- CP1251 — вариант удобен, когда требуется сохранять русские символы в непрерывном массиве для удобства их обработки, и если используется ОС Windows, возможно перекодировать текст без дополнительных утилит. Однако, не поддерживает рисование «рамок».

Автоматическое распознавание кодировок[править]

В различных современных текстовых процессорах и интернет-браузерах присутствует функция автоматического определения кодировок, однако в некоторых случаях текст, введенный, например, в командной строке или ряде программ, неверно интерпретируется, и вместо осмысленного текста появляются нечитаемые символы. Решить проблему чтения такого текста могут многочисленные онлайн декодеры текста.

При работе с однобайтовыми кодировками важно помнить, что частотность использования различных символов может значительно различаться (например, в русском языке часто встречается «о», а знак «ъ» используется редко). Поэтому, зная язык исходного текста, можно выбрать кодировку, в которой частотный профиль байтов лучше соответствует частоте букв этого языка.^[11] Однако такие эвристические методы определения кодировки текста сегодня не используются, поскольку современные технологии в большинстве случаев позволяют безошибочно определить правильную кодовую страницу (как в случае с MIME).

Распространённые кодировки[править]

Универсальные кодовые страницы, имеющие широкое распространение^[12]:

ISO 646
- ASCII
BCDIC
EBCDIC
ISO 8859:
- ISO 8859-1, ISO 8859-2, ISO 8859-3, ISO 8859-4, ISO 8859-5, ISO 8859-6, ISO 8859-7, ISO 8859-8, ISO 8859-9, ISO 8859-10, ISO 8859-11, ISO 8859-13, ISO 8859-14, ISO 8859-15
- CP437, CP737, CP850, CP852, CP855, CP857, CP858, CP860, CP861, CP863, CP865, CP866, CP869
Кодовые страницы, применяемые в Microsoft Windows:
- Windows-1250 для центральноевропейских языков, использующих латиницу (польский, чешский, словацкий, венгерский, словенский, хорватский, румынский и албанский)
- Windows-1251 для языков с кириллической письменностью
- Windows-1252 для западноевропейских языков
- Windows-1253 для греческого
- Windows-1254 для турецкого
- Windows-1255 для иврита
- Windows-1256 для арабского
- Windows-1257 для языков Прибалтики
- Windows-1258 для вьетнамского
MacRoman, MacCyrillic
КОИ8 (KOI8-R, KOI8-U и другие), КОИ-7
Болгарская кодировка
ISCII
VISCII
Big5 (наиболее известна в интерпретации Microsoft как CP950)
- HKSCS
Guobiao
- GB2312
- GBK (соответствует Microsoft CP936)
- GB18030
Shift JIS для японского (соответствующая Microsoft CP932)
EUC-KR для корейского (соответствующая Microsoft CP949)
Сетевое кодирование ISO-2022 и EUC для китайской письменности
Кодировки UTF-8, UTF-16 и UTF-32, которые включены в стандарт Юникод.

См. также[править]

Ссылки[править]

Юникод-коды символов на unicode.org

Примечания[править]

↑ RFC 2278. Network Working Group (1998). Проверено 14 октября 2024.
↑ Перечень основных «кодировок» в руководстве по Java SE 6. Архивировано из первоисточника 16 декабря 2008. Проверено 15 октября 2024.
↑ Обсуждение темы «кодировок» в документации по языку Perl. Архивировано из первоисточника 6 октября 2008. Проверено 15 октября 2024.
↑ Обсуждение темы «кодировок» в документации по технологии XSLT. Архивировано из первоисточника 13 августа 2017. Проверено 15 октября 2024.
↑ Обсуждение соотношения терминов «кодировка» и «набор символов» в документации по языку HTML. Архивировано из первоисточника 26 октября 2008. Проверено 15 октября 2024.
↑ ASCIIангл.. dictionary.cambridge.org. Архивировано из первоисточника 27 сентября 2017. Проверено 15 октября 2024.
↑ Extended Binary Coded Decimal Information Code. Dictionary of Computer and Internet Terms. Архивировано из первоисточника 7 сентября 2010. Проверено 14 октября 2024.
↑ The Unicode® Standard: A Technical Introduction. The Unicode Standard. Архивировано из первоисточника 10 марта 2010. Проверено 15 октября 2024.
↑ Спецификации наборов символов на сайте IANA. Архивировано из первоисточника 16 июля 2004. Проверено 15 октября 2024.
↑ Кодовые страницы. Информатика 54. Проверено 15 октября 2024.
↑ Универсальный декодер — конвертер кириллицы. Архивировано из первоисточника 28 декабря 2014. Проверено 15 октября 2024.
↑ Кодировки символов и формат UTF-8 (2024-04-14). Проверено 15 октября 2024.

Основы

Исторические кодировки

Докомпьютерные:	семафорная (Макарова) Морзе Бодо МТК-2
Компьютерные:	6-битная УПП RADIX-50 EBCDIC ДКОИ-8 КОИ-7 ISO 646 ANSEL

современное
8-битное
представление

символы	ASCII управляющие печатные
8-битные код.стр.	ISO 8859 кириллица КОИ-8 ГОСТ 19768-87 MacCyrillic
Windows	1250 1251 (кир.) 1252 1253 1254 1255 1256 1257 1258 WGL4
IBM & DOS	437 850 852 855 866 «альт.» МИК НИИ ЭВМ

Многобайтные

Традиционные	DBCS GB 2312 HTML
Unicode	UTF список символов кириллица латиница

Связанные темы

Компьютерные кодировки

Одним из источников, использованных при создании данной статьи, является статья из википроекта «Знание.Вики» («znanierussia.ru») под названием «Кодирование символов (информатика)», расположенная по следующим адресам:

—	https://baza.znanierussia.ru/mediawiki/index.php/Кодирование_символов_(информатика)
—	«https://znanierussia.ru/articles/Кодирование_символов_(информатика)»

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий.

Всем участникам Знание.Вики предлагается прочитать материал «Почему Циклопедия?».

[1] RFC 2278. Network Working Group (1998). Проверено 14 октября 2024.

[2] Перечень основных «кодировок» в руководстве по Java SE 6. Архивировано из первоисточника 16 декабря 2008. Проверено 15 октября 2024.

[3] Обсуждение темы «кодировок» в документации по языку Perl. Архивировано из первоисточника 6 октября 2008. Проверено 15 октября 2024.

[4] Обсуждение темы «кодировок» в документации по технологии XSLT. Архивировано из первоисточника 13 августа 2017. Проверено 15 октября 2024.

[5] Обсуждение соотношения терминов «кодировка» и «набор символов» в документации по языку HTML. Архивировано из первоисточника 26 октября 2008. Проверено 15 октября 2024.

[6] ASCIIангл.. dictionary.cambridge.org. Архивировано из первоисточника 27 сентября 2017. Проверено 15 октября 2024.

[7] Extended Binary Coded Decimal Information Code. Dictionary of Computer and Internet Terms. Архивировано из первоисточника 7 сентября 2010. Проверено 14 октября 2024.

[unicode-techintro-8] The Unicode® Standard: A Technical Introduction. The Unicode Standard. Архивировано из первоисточника 10 марта 2010. Проверено 15 октября 2024.

[9] Спецификации наборов символов на сайте IANA. Архивировано из первоисточника 16 июля 2004. Проверено 15 октября 2024.

[10] Кодовые страницы. Информатика 54. Проверено 15 октября 2024.

[11] Универсальный декодер — конвертер кириллицы. Архивировано из первоисточника 28 декабря 2014. Проверено 15 октября 2024.

[12] Кодировки символов и формат UTF-8 (2024-04-14). Проверено 15 октября 2024.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Кодирование символов (информатика)

Содержание

Кодирование символов в компьютере[править]

Автоматическое распознавание кодировок[править]

Распространённые кодировки[править]

См. также[править]

Ссылки[править]

Примечания[править]

Навигация

Кодирование символов (информатика)

Кодирование символов в компьютере[править]

Автоматическое распознавание кодировок[править]

Распространённые кодировки[править]

См. также[править]

Ссылки[править]

Примечания[править]

Навигация

Поиск