日進日歩で日々進捗

非情報系学生による技術の備忘録。進捗出していきたい

Unicord, ASCII文字コードを勉強してみた

文字コードとは??

今回、PostgresQLの開発をするにあたり、文字コードの理解が曖昧と感じる場面が多くあったので、調べたことをまとめたいと思っています。

参考にした記事
gihyo.jp

よく耳にする文字コード

ASCII, UTF-8, Unicord, Shift-JISなどの言葉を耳にしたことがあるエンジニアは多いと思います。これらが文字コードになります。

一番最初にできた文字コードがASCIIコード

ASCIIコードは最初にできた文字コードで、これは7bitと先頭1bitをチェックサムに用いた合計1byteの文字コードで、これらはアルファベットを表すのに使われました。
しかしこれらのASCIIコードで表すことができるのは、2^7 = 128種類しかりません。これでは、英語に発音記号をつけるような欧州文字や漢字、日本語を表現することはできません。
そこで、後に2byteの文字コードが誕生しました。
そこで、日本語に対応する文字コードや、欧州文字、漢字に対応する文字コードが誕生します。

Unicordが国際対応した文字コード

これらの2byte文字コードの誕生によって、多くの国の文字が表現できるようになりましたが、そこで問題になるのが互換性の問題です。
同じバイト列でも文字コードが違うとまったく違う文字列に複合されてしまうので、互換性が非常に大事になってきます。
ここで、国際的な文字コードの規格として誕生したのが、Unicordです。これによって、世界的に文字コードを統一して扱えるようになりました。