UTF-8 kódtábla

A UTF-8 (8-bites UCS/Unicode Transformation Format) egy változó hosszúságú karakterkódolási rendszer, amely az Unicode karakterkészletet használja. Az Unicode egy átfogó karakterkészlet, amely szinte minden írásrendszerben használt karaktert tartalmazza, beleértve a latin betűket ékezetekkel, az ázsiai írásjeleket, az emoji-kat és még sok más jelet.

A UTF-8 kódolás minden Unicode karaktert 1-től 4 bájt hosszúságú sorozatokkal kódol. Az ASCII karaktereket továbbra is 1 bájt hosszúságú sorozatokkal kódolja, így a UTF-8 visszafelé kompatibilis az ASCII-vel.

A teljes Unicode karakterkészlet több mint 140 000 különböző karaktert tartalmaz, és ez a szám folyamatosan nő. Ezen karakterek listájának és UTF-8 kódjainak bemutatása meghaladja ezen válasz kereteit, és gyakorlatilag lehetetlen lenne egyetlen válaszban teljes egészében megjeleníteni.

Azonban a Unicode Consortium weboldala rendelkezik egy teljes Unicode karakterkészletet tartalmazó adatbázissal, amely tartalmazza a karakterek UTF-8 kódjait is. Az Unicode karaktereket és azok UTF-8 kódjait az alábbi hivatkozás alapján érheted el: Unicode Character Database

Magyar ékezetek UTF-8 kódtáblája

Az alábbiakban láthatod a magyar nyelven gyakran használt ékezetes karakterek UTF-8 kódjait. Ezek a karakterek többnyire 2 bájtot (16 bitet) foglalnak el a UTF-8 kódolásban.

KarakterUTF-8 Kód (hexadecimális)UTF-8 Kód (bináris)
áC3 A111000011 10100001
éC3 A911000011 10101001
íC3 AD11000011 10101101
óC3 B311000011 10110011
öC3 B611000011 10110110
őC5 9111000101 10010001
úC3 BA11000011 10111010
üC3 BC11000011 10111100
űC5 B111000101 10110001
ÁC3 8111000011 10000001
ÉC3 8911000011 10001001
ÍC3 8D11000011 10001101
ÓC3 9311000011 10010011
ÖC3 9611000011 10010110
ŐC5 9011000101 10010000
ÚC3 9A11000011 10011010
ÜC3 9C11000011 10011100
ŰC5 B011000101 10110000

A táblázatban a karakterek mellett megtalálható a UTF-8 kódjuk hexadecimális és bináris formában is. A UTF-8 kódolásban minden karakter kódja egy vagy több bájtból áll, ahol minden bájt 8 bitet tartalmaz. Az ékezetes karakterek többnyire 2 bájtot foglalnak el.

Speciális karakterek UTF-8 kódtáblája

A gyakran használt speciális karakterek UTF-8 kódjait az alábbi táblázatban találhatod meg. Ezek a karakterek legtöbbje 1 bájtot (8 bitet) foglal el, de néhányuk, mint például az emojik, több bájtot is igénybe vehet.

KarakterUTF-8 Kód (hexadecimális)UTF-8 Kód (bináris)
!2100100001
2200100010
#2300100011
$2400100100
%2500100101
&2600100110
2700100111
(2800101000
)2900101001
*2A00101010
+2B00101011
,2C00101100
2D00101101
.2E00101110
/2F00101111
:3A00111010
;3B00111011
<3C00111100
=3D00111101
>3E00111110
?3F00111111
@4001000000
[5B01011011
\5C01011100
]5D01011101
^5E01011110
_5F01011111
`6001100000
{7B01111011
|7C01111100
}7D01111101
~7E01111110
E2 82 AC11100010 10000010 10101100
©C2 A911000010 10101001
®C2 AE11000010 10101110
E2 84 A211100010 10000100 10100010
E2 9C 8511100010 10011100 10000101
😊F0 9F 98 8A11110000 10011111 10011000 10001010

Ez a táblázat a leggyakrabban használt speciális karaktereket és azok UTF-8 kódjait tartalmazza. A hexadecimális és bináris oszlopokban láthatod, hogyan vannak ezek a karakterek kódolva a UTF-8 kódolási rendszerben.

Szólj hozzá!