A UTF-8 (8-bites UCS/Unicode Transformation Format) egy változó hosszúságú karakterkódolási rendszer, amely az Unicode karakterkészletet használja. Az Unicode egy átfogó karakterkészlet, amely szinte minden írásrendszerben használt karaktert tartalmazza, beleértve a latin betűket ékezetekkel, az ázsiai írásjeleket, az emoji-kat és még sok más jelet.
A UTF-8 kódolás minden Unicode karaktert 1-től 4 bájt hosszúságú sorozatokkal kódol. Az ASCII karaktereket továbbra is 1 bájt hosszúságú sorozatokkal kódolja, így a UTF-8 visszafelé kompatibilis az ASCII-vel.
A teljes Unicode karakterkészlet több mint 140 000 különböző karaktert tartalmaz, és ez a szám folyamatosan nő. Ezen karakterek listájának és UTF-8 kódjainak bemutatása meghaladja ezen válasz kereteit, és gyakorlatilag lehetetlen lenne egyetlen válaszban teljes egészében megjeleníteni.
Azonban a Unicode Consortium weboldala rendelkezik egy teljes Unicode karakterkészletet tartalmazó adatbázissal, amely tartalmazza a karakterek UTF-8 kódjait is. Az Unicode karaktereket és azok UTF-8 kódjait az alábbi hivatkozás alapján érheted el: Unicode Character Database
Magyar ékezetek UTF-8 kódtáblája
Az alábbiakban láthatod a magyar nyelven gyakran használt ékezetes karakterek UTF-8 kódjait. Ezek a karakterek többnyire 2 bájtot (16 bitet) foglalnak el a UTF-8 kódolásban.
Karakter | UTF-8 Kód (hexadecimális) | UTF-8 Kód (bináris) |
---|---|---|
á | C3 A1 | 11000011 10100001 |
é | C3 A9 | 11000011 10101001 |
í | C3 AD | 11000011 10101101 |
ó | C3 B3 | 11000011 10110011 |
ö | C3 B6 | 11000011 10110110 |
ő | C5 91 | 11000101 10010001 |
ú | C3 BA | 11000011 10111010 |
ü | C3 BC | 11000011 10111100 |
ű | C5 B1 | 11000101 10110001 |
Á | C3 81 | 11000011 10000001 |
É | C3 89 | 11000011 10001001 |
Í | C3 8D | 11000011 10001101 |
Ó | C3 93 | 11000011 10010011 |
Ö | C3 96 | 11000011 10010110 |
Ő | C5 90 | 11000101 10010000 |
Ú | C3 9A | 11000011 10011010 |
Ü | C3 9C | 11000011 10011100 |
Ű | C5 B0 | 11000101 10110000 |
A táblázatban a karakterek mellett megtalálható a UTF-8 kódjuk hexadecimális és bináris formában is. A UTF-8 kódolásban minden karakter kódja egy vagy több bájtból áll, ahol minden bájt 8 bitet tartalmaz. Az ékezetes karakterek többnyire 2 bájtot foglalnak el.
Speciális karakterek UTF-8 kódtáblája
A gyakran használt speciális karakterek UTF-8 kódjait az alábbi táblázatban találhatod meg. Ezek a karakterek legtöbbje 1 bájtot (8 bitet) foglal el, de néhányuk, mint például az emojik, több bájtot is igénybe vehet.
Karakter | UTF-8 Kód (hexadecimális) | UTF-8 Kód (bináris) |
---|---|---|
! | 21 | 00100001 |
„ | 22 | 00100010 |
# | 23 | 00100011 |
$ | 24 | 00100100 |
% | 25 | 00100101 |
& | 26 | 00100110 |
‘ | 27 | 00100111 |
( | 28 | 00101000 |
) | 29 | 00101001 |
* | 2A | 00101010 |
+ | 2B | 00101011 |
, | 2C | 00101100 |
– | 2D | 00101101 |
. | 2E | 00101110 |
/ | 2F | 00101111 |
: | 3A | 00111010 |
; | 3B | 00111011 |
< | 3C | 00111100 |
= | 3D | 00111101 |
> | 3E | 00111110 |
? | 3F | 00111111 |
@ | 40 | 01000000 |
[ | 5B | 01011011 |
\ | 5C | 01011100 |
] | 5D | 01011101 |
^ | 5E | 01011110 |
_ | 5F | 01011111 |
` | 60 | 01100000 |
{ | 7B | 01111011 |
| | 7C | 01111100 |
} | 7D | 01111101 |
~ | 7E | 01111110 |
€ | E2 82 AC | 11100010 10000010 10101100 |
© | C2 A9 | 11000010 10101001 |
® | C2 AE | 11000010 10101110 |
™ | E2 84 A2 | 11100010 10000100 10100010 |
✅ | E2 9C 85 | 11100010 10011100 10000101 |
😊 | F0 9F 98 8A | 11110000 10011111 10011000 10001010 |
Ez a táblázat a leggyakrabban használt speciális karaktereket és azok UTF-8 kódjait tartalmazza. A hexadecimális és bináris oszlopokban láthatod, hogyan vannak ezek a karakterek kódolva a UTF-8 kódolási rendszerben.