Unicode
Универсальный charset, международный стандарт.
By Иван Курманов <ik@ahinea.com>, Sun, 30 Mar 2003 14:15:00
Так же известен под названием ISO 10646.
База данных по символам и знакам (в том числе буквам и иероглифам) всех основных языков мира. Эта база данных включает для каждого символа/знака:
- название, например "ПРОПИСНАЯ КИРИЛЛИЧЕСКАЯ БУКВА БЭ";
- номер, состоящий из четырех шестнадцатеричных цифр и обычно записываемый как "U+091D", то есть перед цифрами добавляется "U+";
- дополнительные свойства символа (properties), например, "это буква", или "это знак препинания";
- сам символ (его наиболее простое, распространенное изображение), в качестве примера.
Кроме этого, о символе может быть известно, что он не используется сам по себе, а только как часть составного сиволам, или только в определенной последовательности с другими символами. И многие другие детали, специфичные для разных систем письменности и разных языков.
UTF-8 и UTF-16
Ядро стандарта Unicode - это набор символов, или character set. Но набор символов - это просто таблица: число -- символ. И текст, с точки зрения Unicode, - это последовательность символов, то есть последовательность чисел.
Для того, что бы использовать набор символов для хранения, обработки или передачи данных по сети еще нужен способ преобразовать последовательность чисел в последовательность байтов. Это называется кодировка, или по-английски: encoding.
UTF-8 и UTF-16 это две кодировки, которые используются для представления Unicode данных.
- Unicode official website
http://www.unicode.org/
Я использовал эту статью:
- On the Goodness of Unicode
http://www.tbray.org/ongoing/When/200x/2003/04/06/Unicode
Tim Bray популярно рассказывает о Unicode