A UTF-8 (8-bites UCS/Unicode Transformation Format) egy változó hosszúságú karakterkódolási rendszer, amely az Unicode karakterkészletet használja. Az Unicode egy átfogó karakterkészlet, amely szinte minden írásrendszerben használt karaktert tartalmazza, beleértve a latin betűket ékezetekkel, az ázsiai írásjeleket, az emoji-kat és még sok más jelet.
A UTF-8 kódolás minden Unicode karaktert 1-től 4 bájt hosszúságú sorozatokkal kódol. Az ASCII karaktereket továbbra is 1 bájt hosszúságú sorozatokkal kódolja, így a UTF-8 visszafelé kompatibilis az ASCII-vel.
A teljes Unicode karakterkészlet több mint 140 000 különböző karaktert tartalmaz, és ez a szám folyamatosan nő. Ezen karakterek listájának és UTF-8 kódjainak bemutatása meghaladja ezen válasz kereteit, és gyakorlatilag lehetetlen lenne egyetlen válaszban teljes egészében megjeleníteni.
Azonban a Unicode Consortium weboldala rendelkezik egy teljes Unicode karakterkészletet tartalmazó adatbázissal, amely tartalmazza a karakterek UTF-8 kódjait is. Az Unicode karaktereket és azok UTF-8 kódjait az alábbi hivatkozás alapján érheted el: Unicode Character Database
Magyar ékezetek UTF-8 kódtáblája
Az alábbiakban láthatod a magyar nyelven gyakran használt ékezetes karakterek UTF-8 kódjait. Ezek a karakterek többnyire 2 bájtot (16 bitet) foglalnak el a UTF-8 kódolásban.
| Karakter | UTF-8 Kód (hexadecimális) | UTF-8 Kód (bináris) |
|---|---|---|
| á | C3 A1 | 11000011 10100001 |
| é | C3 A9 | 11000011 10101001 |
| í | C3 AD | 11000011 10101101 |
| ó | C3 B3 | 11000011 10110011 |
| ö | C3 B6 | 11000011 10110110 |
| ő | C5 91 | 11000101 10010001 |
| ú | C3 BA | 11000011 10111010 |
| ü | C3 BC | 11000011 10111100 |
| ű | C5 B1 | 11000101 10110001 |
| Á | C3 81 | 11000011 10000001 |
| É | C3 89 | 11000011 10001001 |
| Í | C3 8D | 11000011 10001101 |
| Ó | C3 93 | 11000011 10010011 |
| Ö | C3 96 | 11000011 10010110 |
| Ő | C5 90 | 11000101 10010000 |
| Ú | C3 9A | 11000011 10011010 |
| Ü | C3 9C | 11000011 10011100 |
| Ű | C5 B0 | 11000101 10110000 |
A táblázatban a karakterek mellett megtalálható a UTF-8 kódjuk hexadecimális és bináris formában is. A UTF-8 kódolásban minden karakter kódja egy vagy több bájtból áll, ahol minden bájt 8 bitet tartalmaz. Az ékezetes karakterek többnyire 2 bájtot foglalnak el.
Speciális karakterek UTF-8 kódtáblája
A gyakran használt speciális karakterek UTF-8 kódjait az alábbi táblázatban találhatod meg. Ezek a karakterek legtöbbje 1 bájtot (8 bitet) foglal el, de néhányuk, mint például az emojik, több bájtot is igénybe vehet.
| Karakter | UTF-8 Kód (hexadecimális) | UTF-8 Kód (bináris) |
|---|---|---|
| ! | 21 | 00100001 |
| „ | 22 | 00100010 |
| # | 23 | 00100011 |
| $ | 24 | 00100100 |
| % | 25 | 00100101 |
| & | 26 | 00100110 |
| ‘ | 27 | 00100111 |
| ( | 28 | 00101000 |
| ) | 29 | 00101001 |
| * | 2A | 00101010 |
| + | 2B | 00101011 |
| , | 2C | 00101100 |
| – | 2D | 00101101 |
| . | 2E | 00101110 |
| / | 2F | 00101111 |
| : | 3A | 00111010 |
| ; | 3B | 00111011 |
| < | 3C | 00111100 |
| = | 3D | 00111101 |
| > | 3E | 00111110 |
| ? | 3F | 00111111 |
| @ | 40 | 01000000 |
| [ | 5B | 01011011 |
| \ | 5C | 01011100 |
| ] | 5D | 01011101 |
| ^ | 5E | 01011110 |
| _ | 5F | 01011111 |
| ` | 60 | 01100000 |
| { | 7B | 01111011 |
| | | 7C | 01111100 |
| } | 7D | 01111101 |
| ~ | 7E | 01111110 |
| € | E2 82 AC | 11100010 10000010 10101100 |
| © | C2 A9 | 11000010 10101001 |
| ® | C2 AE | 11000010 10101110 |
| ™ | E2 84 A2 | 11100010 10000100 10100010 |
| ✅ | E2 9C 85 | 11100010 10011100 10000101 |
| 😊 | F0 9F 98 8A | 11110000 10011111 10011000 10001010 |
Ez a táblázat a leggyakrabban használt speciális karaktereket és azok UTF-8 kódjait tartalmazza. A hexadecimális és bináris oszlopokban láthatod, hogyan vannak ezek a karakterek kódolva a UTF-8 kódolási rendszerben.