2012年2月1日水曜日

Terminalで文字コードを変換する方法

メモ帳などのエディタでテキストデータを作成すると,
文字コードが勝手に埋めこまれてることがあります.

ファイルの先頭に<U+FEFF>みたいな表記がある.
(メモ帳では見えないが,lessコマンドで見れる.)
これはバイト順マークといって,UTF-8を識別するためのもの.
しかし日本国内のみのものであり,国際的には認知されていない.
(どんだけ厄介やねーーーーん!!)

これ,テキストデータ処理するときにかなりじゃま.
実際(扱えない謎の)文字列として認識されちゃうので除去しましょう.

コマンド:
nkf [option] [file]


使用例:
1) nkf -g ex.txt
ex.txtの文字コードをチェックする.

2) nkf -w ex.txt
ex.txtの文字コードをUTF-8に変換して出力する.

3) nkf -w --overwrite ex.txt
ex.txtの文字コードをUTF-8に変換して上書きする.


こんな感じ.ちょー簡単!


参考:

0 件のコメント:

コメントを投稿