コンピュータは数値しか扱えないため、「a」「あ」などの文字には「97」「33440」などの数値を割り当てて管理しています。この文字と数値の対応関係、もしくは割り当てられる数値のことを文字コードもしくは文字符号化方法と言います。
同じ文字でも文字符号化方法が異なると、割り当てられる文字コードも異なってきます。例えば、「あ」はShift_JISなら「33440」ですが、EUC-JPなら「42146」、UTF-8なら「16944」が割り当てられます。
IANA: CHARACTER SETSで登録されている文字コードの一覧を見ることができます。
文字コード名 | 文字セット |
---|---|
日本語(Shift_JIS) | Shift_JIS |
日本語(EUC-JP) | EUC-JP |
日本語(ISO-2022-JP、通称JIS) | ISO-2022-JP |
Unicode(UTF-8) | UTF-8 |
Unicode(UTF-16) | UTF-16 |
欧文(ISO-8859-1) | ISO-8859-1 |
中央ヨーロッパ(ISO-8859-2) | ISO-8859-2 |
バルト文字(ISO-8859-4) | ISO-8859-4 |
キリル文字(ISO-8859-5) | ISO-8859-5 |
ギリシア語(ISO-8859-7) | ISO-8859-7 |
中国語(繁体)(Big5) | Big5 |
中国語(簡体)(GB2312) | GB2312 |
厳密に言うと、文字コード=文字符号化方法ではありません。
現存する文字の中から扱う文字を取り出した集合を文字集合と呼びます。「アルファベット(A?Z、a?z)」「ひらがな(あ?ん)」「カタカナ(ア?ン)」「常用漢字」などは文字集合です。日本語の文字集合には次のようなものがあります。
文字と文字に割り当てる数値との関係を定めたものが文字符号化方法です。Shift_JISとEUC-JPは同じ文字集合JIS X 0208を利用しますが、文字に割り当てる数値は異なっています。例えば「あ」はShift_JISなら「33440」ですが、EUC-JPなら「42146」となります。
日本語の文字符号化方法として代表的なのは、次の4つです。
文字集合と文字符号化方法を合わせた概念を文字コードと言います。