본문 바로가기

반응형

EUC-KR

gedit 에서 윈도우에서 만든 텍스트 파일을 열때 글자가 깨지는 경우 윈도우에서 텍스트 파일을 생성하면 기본적으로 euc-kr, UHC, cp949 등으로 나타내는 문자집합을 사용한다. 우분투나 기타 리눅스에서는 UTF-8이라는 문자집합을 기본으로 사용하므로 인해서 바이트로 저장되는 문자열을 서로다른 방식으로 해석하다보니 정상적으로 표현이 안되는 것이다. gedit의 경우 내가 주력으로 사용하는 에디터인데, auto detect 항목에 윈도우에서 사용하는 문자집합을 넣어주면 아주 잘 작동한다. 나의 경우 dconf-editor 라는 툴을 사용하여 수정하였다. 위치는 org -> gnome -> gedit -> preference -> encodings 까지 찾아 들어가면auto-detected 라는 항목이 있을 것이다. 아마 기본값은 ['UTF-8', 'CURRENT', .. 더보기
euc-kr, cp949, ms949 포맷을 utf-8 로 charset 을 변환하는 방법 간단한 명령어로 문자셋을 변경할 수 있는 명령어가 존재합니다. iconv 라는 것으로 딱봐도 변환 기능을 제공합니다. 사용방법은 다음과 같습니다. $ iconv -c -f euc-kr -t utf-8 test_euckr.txt > test_utf8.txt 간단히 설명을 달아보면 -c 는 변환하겠다는 의미이고, -f 는 변환전 문자셋을 지정하는 듯 합니다. from 같은 의미인 듯 합니다. -t 는 변경할 문자셋으로 to 정도로 해석하면 되겠지요. 그리고 마지막으로 변경할 파일을 뒤에 써주면 되고, 그 이후는 출력방향을 파일로 지정하여 담아내겠다는 것이죠. 뒤부분( > test_utf8.txt ) 부분을 제거하면 화면으로 출력되는 것을 볼 수 있습니다. 끝. 더보기

반응형