メモ帳などのエディタでテキストデータを作成すると,
文字コードが勝手に埋めこまれてることがあります.
ファイルの先頭に<U+FEFF>みたいな表記がある.
(メモ帳では見えないが,lessコマンドで見れる.)
これはバイト順マークといって,UTF-8を識別するためのもの.
しかし日本国内のみのものであり,国際的には認知されていない.
(どんだけ厄介やねーーーーん!!)
これ,テキストデータ処理するときにかなりじゃま.
実際(扱えない謎の)文字列として認識されちゃうので除去しましょう.
コマンド:
nkf [option] [file]
使用例:
1) nkf -g ex.txt
ex.txtの文字コードをチェックする.
2) nkf -w ex.txt
ex.txtの文字コードをUTF-8に変換して出力する.
3) nkf -w --overwrite ex.txt
ex.txtの文字コードをUTF-8に変換して上書きする.
こんな感じ.ちょー簡単!
参考:
0 件のコメント:
コメントを投稿