目次
「1バイト文字」と「2バイト文字」
コンピューターを触っているとたまに「1バイト文字」、「2バイト文字」という言葉が出てくることがあります。1バイト文字は半角文字、2バイト文字は全角文字という意味で使われることが多いです。そもそも「バイト(Byte)」とは?
バイトとは、アルファベット1個分の情報量のことです。 これだけでは分かりにくいので説明します。 コンピューターはスイッチのオン・オフ、0と1の組み合わせで情報を処理します。このスイッチ1個のことをビットと呼びます。 1ビットは0と1の2通り。 2ビットは01、10、00、11の4通り。 3ビットは2×2×2で8通り というふうにビットは前の数字に2倍するペースで表現できるパターンが増えていきます。 このビットを用いて、半角英数字と&や!などの記号を全て割り当てて表現するのに必要なパターンが8ビット(28=256通り)。 これを1バイトと呼ぶことにしたわけです。全角文字は2バイト文字?
コンピューターは英語圏で作られたので1バイトで良かったのですが、日本語を表すのには256通りじゃ足りません。アルファベットは26通りしかありませんが、しかし日本語は五十音もあります。しかもひらがなだけでなくカタカナや漢字まであります。なので2バイトのパターンが必要だったのです。 しかし実際は2バイトでは足りず、現在では漢字などは3バイトを超えるものも数多くあります。これでは一概に「全角文字は2バイトだ」とは言えませんが、早くなくても「おはよう」というように、全角文字は「2バイト文字」と呼ばれています。 半角文字は1バイト。 全角文字は2バイトとか3バイトとか4バイトとかで表現される文字。 と覚えておけば間違いないようです。 他の2バイト文字の仲間としては中国語、韓国語などがあります。