IT

UTF-8 vs EUC-KR 알아보자

hoonylab 2025. 4. 8. 23:06
728x90
반응형

✅ 문자 인코딩이란?

문자 인코딩은 사람이 이해하는 문자(character)를 컴퓨터가 이해할 수 있도록 숫자(바이트)로 변환하는 방식입니다. 예를 들어 “가”라는 글자는 컴퓨터가 직접 이해하지 못하기 때문에, 이를 숫자(예: 0xB0A1)로 변환해 저장해야 합니다. 이때 사용되는 규칙이 바로 문자 인코딩 방식입니다.

문자 인코딩 개념 이미지

🔤 UTF-8 인코딩 방식

UTF-8(8-bit Unicode Transformation Format)은 유니코드 기반의 인코딩 방식으로, 전 세계 대부분의 언어를 표현할 수 있는 범용 인코딩입니다.

  • 가변 길이 인코딩: 1~4바이트
  • 영어: 1바이트 / 한글: 2~3바이트
  • 웹 표준 인코딩
  • 다양한 언어를 동시에 표현 가능

UTF-8 구조도

🇰🇷 EUC-KR 인코딩 방식

EUC-KR(Extended Unix Code for Korean)은 주로 한글만 표현하기 위해 설계된 인코딩입니다.

  • 고정 길이 인코딩: 영어 1바이트 / 한글 2바이트
  • 한글 2350자(완성형) 표현 가능
  • 과거 한국 웹사이트에서 주로 사용됨
  • 이모지, 한자 등은 표현 불가

한글 키보드와 EUC-KR 관련

🔍 UTF-8 vs EUC-KR 차이점 요약

항목 UTF-8 EUC-KR
문자 범위 전 세계 문자 지원 (유니코드) 한글, 영어 위주
바이트 수 가변 (1~4바이트) 고정 (영어 1, 한글 2바이트)
호환성 웹 표준, 국제화에 강함 오래된 시스템에 주로 사용
사용 사례 현대 웹, 모바일, JSON 등 과거 한국 웹, 일부 레거시 시스템
한자/이모지 표현 가능 표현 불가

✍️ 예시: "안녕하세요 John!" 인코딩 비교

문장: 안녕하세요 John!

1. UTF-8 인코딩 결과 (Hex 값)

글자 UTF-8
EC 95 88
EB 85 95
ED 95 98
EC 84 B8
EC 9A 94
(공백) 20
J 4A
o 6F
h 68
n 6E
! 21

총 바이트 수: 한글 5글자 × 3바이트 + 영문 및 기호 6바이트 = 18바이트

2. EUC-KR 인코딩 결과 (Hex 값)

글자 EUC-KR
BE C8
C7 D1
C7 A5
BC BC
BF EB
(공백) 20
J 4A
o 6F
h 68
n 6E
! 21

총 바이트 수: 한글 5글자 × 2바이트 + 영문 및 기호 6바이트 = 16바이트

🧠 정리하자면...

  • UTF-8: 다국어 지원, 국제 표준, 웹/모바일에서 추천
  • EUC-KR: 한글 전용, 과거 시스템에 한정적으로 사용

코딩과 인코딩의 개념 일러스트

728x90
반응형