ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • UTF-8 vs EUC-KR 알아보자
    IT 2025. 4. 8. 23:06
    728x90
    반응형

    ✅ 문자 인코딩이란?

    문자 인코딩은 사람이 이해하는 문자(character)를 컴퓨터가 이해할 수 있도록 숫자(바이트)로 변환하는 방식입니다. 예를 들어 “가”라는 글자는 컴퓨터가 직접 이해하지 못하기 때문에, 이를 숫자(예: 0xB0A1)로 변환해 저장해야 합니다. 이때 사용되는 규칙이 바로 문자 인코딩 방식입니다.

    문자 인코딩 개념 이미지

    🔤 UTF-8 인코딩 방식

    UTF-8(8-bit Unicode Transformation Format)은 유니코드 기반의 인코딩 방식으로, 전 세계 대부분의 언어를 표현할 수 있는 범용 인코딩입니다.

    • 가변 길이 인코딩: 1~4바이트
    • 영어: 1바이트 / 한글: 2~3바이트
    • 웹 표준 인코딩
    • 다양한 언어를 동시에 표현 가능

    UTF-8 구조도

    🇰🇷 EUC-KR 인코딩 방식

    EUC-KR(Extended Unix Code for Korean)은 주로 한글만 표현하기 위해 설계된 인코딩입니다.

    • 고정 길이 인코딩: 영어 1바이트 / 한글 2바이트
    • 한글 2350자(완성형) 표현 가능
    • 과거 한국 웹사이트에서 주로 사용됨
    • 이모지, 한자 등은 표현 불가

    한글 키보드와 EUC-KR 관련

    🔍 UTF-8 vs EUC-KR 차이점 요약

    항목 UTF-8 EUC-KR
    문자 범위 전 세계 문자 지원 (유니코드) 한글, 영어 위주
    바이트 수 가변 (1~4바이트) 고정 (영어 1, 한글 2바이트)
    호환성 웹 표준, 국제화에 강함 오래된 시스템에 주로 사용
    사용 사례 현대 웹, 모바일, JSON 등 과거 한국 웹, 일부 레거시 시스템
    한자/이모지 표현 가능 표현 불가

    ✍️ 예시: "안녕하세요 John!" 인코딩 비교

    문장: 안녕하세요 John!

    1. UTF-8 인코딩 결과 (Hex 값)

    글자 UTF-8
    EC 95 88
    EB 85 95
    ED 95 98
    EC 84 B8
    EC 9A 94
    (공백) 20
    J 4A
    o 6F
    h 68
    n 6E
    ! 21

    총 바이트 수: 한글 5글자 × 3바이트 + 영문 및 기호 6바이트 = 18바이트

    2. EUC-KR 인코딩 결과 (Hex 값)

    글자 EUC-KR
    BE C8
    C7 D1
    C7 A5
    BC BC
    BF EB
    (공백) 20
    J 4A
    o 6F
    h 68
    n 6E
    ! 21

    총 바이트 수: 한글 5글자 × 2바이트 + 영문 및 기호 6바이트 = 16바이트

    🧠 정리하자면...

    • UTF-8: 다국어 지원, 국제 표준, 웹/모바일에서 추천
    • EUC-KR: 한글 전용, 과거 시스템에 한정적으로 사용

    코딩과 인코딩의 개념 일러스트

    728x90
    반응형

    댓글

Designed by Tistory.