IT
UTF-8 vs EUC-KR 알아보자
hoonylab
2025. 4. 8. 23:06
728x90
반응형
✅ 문자 인코딩이란?
문자 인코딩은 사람이 이해하는 문자(character)를 컴퓨터가 이해할 수 있도록 숫자(바이트)로 변환하는 방식입니다. 예를 들어 “가”라는 글자는 컴퓨터가 직접 이해하지 못하기 때문에, 이를 숫자(예: 0xB0A1
)로 변환해 저장해야 합니다. 이때 사용되는 규칙이 바로 문자 인코딩 방식입니다.
🔤 UTF-8 인코딩 방식
UTF-8(8-bit Unicode Transformation Format)은 유니코드 기반의 인코딩 방식으로, 전 세계 대부분의 언어를 표현할 수 있는 범용 인코딩입니다.
- 가변 길이 인코딩: 1~4바이트
- 영어: 1바이트 / 한글: 2~3바이트
- 웹 표준 인코딩
- 다양한 언어를 동시에 표현 가능
🇰🇷 EUC-KR 인코딩 방식
EUC-KR(Extended Unix Code for Korean)은 주로 한글만 표현하기 위해 설계된 인코딩입니다.
- 고정 길이 인코딩: 영어 1바이트 / 한글 2바이트
- 한글 2350자(완성형) 표현 가능
- 과거 한국 웹사이트에서 주로 사용됨
- 이모지, 한자 등은 표현 불가
🔍 UTF-8 vs EUC-KR 차이점 요약
항목 | UTF-8 | EUC-KR |
---|---|---|
문자 범위 | 전 세계 문자 지원 (유니코드) | 한글, 영어 위주 |
바이트 수 | 가변 (1~4바이트) | 고정 (영어 1, 한글 2바이트) |
호환성 | 웹 표준, 국제화에 강함 | 오래된 시스템에 주로 사용 |
사용 사례 | 현대 웹, 모바일, JSON 등 | 과거 한국 웹, 일부 레거시 시스템 |
한자/이모지 | 표현 가능 | 표현 불가 |
✍️ 예시: "안녕하세요 John!" 인코딩 비교
문장: 안녕하세요 John!
1. UTF-8 인코딩 결과 (Hex 값)
글자 | UTF-8 |
---|---|
안 | EC 95 88 |
녕 | EB 85 95 |
하 | ED 95 98 |
세 | EC 84 B8 |
요 | EC 9A 94 |
(공백) | 20 |
J | 4A |
o | 6F |
h | 68 |
n | 6E |
! | 21 |
총 바이트 수: 한글 5글자 × 3바이트 + 영문 및 기호 6바이트 = 18바이트
2. EUC-KR 인코딩 결과 (Hex 값)
글자 | EUC-KR |
---|---|
안 | BE C8 |
녕 | C7 D1 |
하 | C7 A5 |
세 | BC BC |
요 | BF EB |
(공백) | 20 |
J | 4A |
o | 6F |
h | 68 |
n | 6E |
! | 21 |
총 바이트 수: 한글 5글자 × 2바이트 + 영문 및 기호 6바이트 = 16바이트
🧠 정리하자면...
- UTF-8: 다국어 지원, 국제 표준, 웹/모바일에서 추천
- EUC-KR: 한글 전용, 과거 시스템에 한정적으로 사용
728x90
반응형