codeheart 위치로그  |  태그  |  미디어로그  |  방명록
icon 리눅스 일괄 텍스트 파일 character set 인코딩 변환
개발/Linux | 2013. 9. 2. 02:59

참고:

http://stackoverflow.com/questions/4544669/batch-convert-latin-1-files-to-utf-8-using-iconv



보통 윈도우에서 디폴트로 저장한 경우(euc-kr)이 된다.

이런 경우 리눅스 에디터에서 읽으면 인식하지 못하여 깨진다.

다음은 *.txt 파일을 euc-kr 로 가정하여 utf-8 로 변환된 파일을 converted 폴더에 생성해주는 것이다.

주의할 점은 euc-kr 이 아닌 경우도, 이러한 가정을 통해 변환을 하므로 반드시 열어서 확인해야 한다. (gedit *)


mkdir converted

find . -iname "*.txt" -type f -exec iconv -f euc-kr -t utf-8 "{}" -o ./converted/"{}" \;

>> 설명하자면 모든 *.txt 일반 파일에 대해서 iconv 를 통해 euc-kr 을 utf-8 로 변환된 파일을 일괄 생성.


참고: enca (이는 엔코딩을 자체 판단하여 변환해주는 기능이 있지만, 해본 결과 euc-kr 을 제대로 판단하지 못한다. -L 옵션으로 language 힌트를 주는게 있는 것 같긴 한데 kr 언어를 지원하지 않는 듯 하다. 알아봐야 함)


arrow 트랙백 | 댓글



관리자  |   글쓰기
BLOG main image
code heart story
분류 전체보기 (74)
생활 (0)
잡담 (8)
컴퓨터 (11)
개발 (52)
Total :
Today :
Yesterday :
rss
위치로그 : 태그 : 방명록 : 관리자
코드하트's Blog is powered by Daum / Designed by plyfly.net