UTF-8 kódtábla

A UTF-8 (8-bites UCS/Unicode Transformation Format) egy változó hosszúságú karakterkódolási rendszer, amely az Unicode karakterkészletet használja. Az Unicode egy átfogó karakterkészlet, amely szinte minden írásrendszerben használt karaktert tartalmazza, beleértve a latin betűket ékezetekkel, az ázsiai írásjeleket, az emoji-kat és még sok más jelet.

A UTF-8 kódolás minden Unicode karaktert 1-től 4 bájt hosszúságú sorozatokkal kódol. Az ASCII karaktereket továbbra is 1 bájt hosszúságú sorozatokkal kódolja, így a UTF-8 visszafelé kompatibilis az ASCII-vel.

A teljes Unicode karakterkészlet több mint 140 000 különböző karaktert tartalmaz, és ez a szám folyamatosan nő. Ezen karakterek listájának és UTF-8 kódjainak bemutatása meghaladja ezen válasz kereteit, és gyakorlatilag lehetetlen lenne egyetlen válaszban teljes egészében megjeleníteni.

Azonban a Unicode Consortium weboldala rendelkezik egy teljes Unicode karakterkészletet tartalmazó adatbázissal, amely tartalmazza a karakterek UTF-8 kódjait is. Az Unicode karaktereket és azok UTF-8 kódjait az alábbi hivatkozás alapján érheted el: Unicode Character Database

Magyar ékezetek UTF-8 kódtáblája

Az alábbiakban láthatod a magyar nyelven gyakran használt ékezetes karakterek UTF-8 kódjait. Ezek a karakterek többnyire 2 bájtot (16 bitet) foglalnak el a UTF-8 kódolásban.

Karakter	UTF-8 Kód (hexadecimális)	UTF-8 Kód (bináris)
á	C3 A1	11000011 10100001
é	C3 A9	11000011 10101001
í	C3 AD	11000011 10101101
ó	C3 B3	11000011 10110011
ö	C3 B6	11000011 10110110
ő	C5 91	11000101 10010001
ú	C3 BA	11000011 10111010
ü	C3 BC	11000011 10111100
ű	C5 B1	11000101 10110001
Á	C3 81	11000011 10000001
É	C3 89	11000011 10001001
Í	C3 8D	11000011 10001101
Ó	C3 93	11000011 10010011
Ö	C3 96	11000011 10010110
Ő	C5 90	11000101 10010000
Ú	C3 9A	11000011 10011010
Ü	C3 9C	11000011 10011100
Ű	C5 B0	11000101 10110000

A táblázatban a karakterek mellett megtalálható a UTF-8 kódjuk hexadecimális és bináris formában is. A UTF-8 kódolásban minden karakter kódja egy vagy több bájtból áll, ahol minden bájt 8 bitet tartalmaz. Az ékezetes karakterek többnyire 2 bájtot foglalnak el.

Speciális karakterek UTF-8 kódtáblája

A gyakran használt speciális karakterek UTF-8 kódjait az alábbi táblázatban találhatod meg. Ezek a karakterek legtöbbje 1 bájtot (8 bitet) foglal el, de néhányuk, mint például az emojik, több bájtot is igénybe vehet.

Karakter	UTF-8 Kód (hexadecimális)	UTF-8 Kód (bináris)
!	21	00100001
„	22	00100010
#	23	00100011
$	24	00100100
%	25	00100101
&	26	00100110
‘	27	00100111
(	28	00101000
)	29	00101001
*	2A	00101010
+	2B	00101011
,	2C	00101100
–	2D	00101101
.	2E	00101110
/	2F	00101111
:	3A	00111010
;	3B	00111011
<	3C	00111100
=	3D	00111101
>	3E	00111110
?	3F	00111111
@	40	01000000
[	5B	01011011
\	5C	01011100
]	5D	01011101
^	5E	01011110
_	5F	01011111
`	60	01100000
{	7B	01111011
\|	7C	01111100
}	7D	01111101
~	7E	01111110
€	E2 82 AC	11100010 10000010 10101100
©	C2 A9	11000010 10101001
®	C2 AE	11000010 10101110
™	E2 84 A2	11100010 10000100 10100010
✅	E2 9C 85	11100010 10011100 10000101
😊	F0 9F 98 8A	11110000 10011111 10011000 10001010

Ez a táblázat a leggyakrabban használt speciális karaktereket és azok UTF-8 kódjait tartalmazza. A hexadecimális és bináris oszlopokban láthatod, hogyan vannak ezek a karakterek kódolva a UTF-8 kódolási rendszerben.

Magyar ékezetek UTF-8 kódtáblája

Speciális karakterek UTF-8 kódtáblája

Szólj hozzá! Válasz megszakítása