Mac OS X下各种文件编码的转换方法

    何曾几时本猫还在windows下编码的时候,那时ruby的源代码的编码格式都是gbk啊!导致N多中文显示为乱码。后来无奈写了个转换代码从gbk编码转为utf-8格式的小工具:

#!/usr/bin/ruby
#tool 4 gbk encoding to utf8 

src_path = $*[0]
unless src_path
	puts "usage #{$0[2..-1]} gbk_file"
	exit 1
end

dir_name,base_name = File.split(src_path)
dst_path = dir_name << '/u8_' << base_name
f_src = File.open(src_path,"r:gbk")
f_dst = File.open(dst_path,"w:utf-8")

f_src.each_with_index do |line,i|
	line.encode!("utf-8")
	if(i < 2)
		#line.gsub!(/gbk/,"utf-8") if(line =~ /^#[ ]*coding*/)
		line.gsub!(/gbk/,"utf-8") if(line =~ /^*coding*/)
	end
	f_dst.puts line
end

f_src.close
f_dst.close
`chmod +x #{dst_path}`

再后来发现mac系统下自带iconv这个好东东啊:

ICONV(1)                   Linux Programmer's Manual                  ICONV(1)

NAME

       iconv - character set conversion

SYNOPSIS

       iconv [OPTION...] [-f
encoding] [-t
encoding] [inputfile ...]

       iconv -l

DESCRIPTION

       The  iconv program converts text from one encoding to another encoding.

       More precisely, it converts from the encoding given for the 
-f  option

       to  the  encoding  given  for  the
-t option. Either of these encodings

       defaults to the encoding of the current locale. All the
inputfiles  are

       read  and  converted  in  turn;  if no
inputfile is given, the standard

       input is used. The converted text is printed to standard output.

       The encodings permitted are system dependent. For the  libiconv  imple-

       mentation, they are listed in the iconv_open(3) manual page.

       Options controlling the input and output format:

       -f
encoding, --from-code=encoding

我们来试一下,创建一个utf-8格式的文本:

路人甲:最近又多学了德语,现在懂中文,英语和德语啊
猫猫:靠,我早精通十几门语言了
路人甲:擦,我才不信
猫猫:汇编语言,C语言,C++语言,C#语言,ruby语言,javascript语言...
路人甲:...

用iconv转换为gbk格式(或者反向转换也可以):

apple@kissAir: ruby_src$iconv -f UTF-8 -t GBK ex_u8.txt > ex_gbk.txt

apple@kissAir: ruby_src$cat ex_gbk.txt

·?˼?:????ֶ?ѧ?˵?????ڶ????ģ?Ӣ??͵??ﰡ

èè?????????羫ͨʮ??????????

·?˼ף??????ҲŲ???

èè?????????,C????,C++???ԣ?C#????,ruby????,javascript????...

·?˼?:...apple@kissAir: ruby_src$

我们可以看一下iconv到底支持多少种编码格式,貌似是超多的啊:

apple@kissAir: ruby_src$iconv -l

ANSI_X3.4-1968 ANSI_X3.4-1986 ASCII CP367 IBM367 ISO-IR-6 ISO646-US ISO_646.IRV:1991 US US-ASCII CSASCII

UTF-8

UTF-8-MAC UTF8-MAC

ISO-10646-UCS-2 UCS-2 CSUNICODE

UCS-2BE UNICODE-1-1 UNICODEBIG CSUNICODE11

UCS-2LE UNICODELITTLE

ISO-10646-UCS-4 UCS-4 CSUCS4

UCS-4BE

UCS-4LE

UTF-16

UTF-16BE

UTF-16LE

UTF-32

UTF-32BE

UTF-32LE

UNICODE-1-1-UTF-7 UTF-7 CSUNICODE11UTF7

UCS-2-INTERNAL

UCS-2-SWAPPED

UCS-4-INTERNAL

UCS-4-SWAPPED

C99

JAVA

CP819 IBM819 ISO-8859-1 ISO-IR-100 ISO8859-1 ISO_8859-1 ISO_8859-1:1987 L1 LATIN1 CSISOLATIN1

ISO-8859-2 ISO-IR-101 ISO8859-2 ISO_8859-2 ISO_8859-2:1987 L2 LATIN2 CSISOLATIN2

ISO-8859-3 ISO-IR-109 ISO8859-3 ISO_8859-3 ISO_8859-3:1988 L3 LATIN3 CSISOLATIN3

ISO-8859-4 ISO-IR-110 ISO8859-4 ISO_8859-4 ISO_8859-4:1988 L4 LATIN4 CSISOLATIN4

CYRILLIC ISO-8859-5 ISO-IR-144 ISO8859-5 ISO_8859-5 ISO_8859-5:1988 CSISOLATINCYRILLIC

ARABIC ASMO-708 ECMA-114 ISO-8859-6 ISO-IR-127 ISO8859-6 ISO_8859-6 ISO_8859-6:1987 CSISOLATINARABIC

ECMA-118 ELOT_928 GREEK GREEK8 ISO-8859-7 ISO-IR-126 ISO8859-7 ISO_8859-7 ISO_8859-7:1987 ISO_8859-7:2003 CSISOLATINGREEK

HEBREW ISO-8859-8 ISO-IR-138 ISO8859-8 ISO_8859-8 ISO_8859-8:1988 CSISOLATINHEBREW

ISO-8859-9 ISO-IR-148 ISO8859-9 ISO_8859-9 ISO_8859-9:1989 L5 LATIN5 CSISOLATIN5

ISO-8859-10 ISO-IR-157 ISO8859-10 ISO_8859-10 ISO_8859-10:1992 L6 LATIN6 CSISOLATIN6

ISO-8859-11 ISO8859-11 ISO_8859-11

ISO-8859-13 ISO-IR-179 ISO8859-13 ISO_8859-13 L7 LATIN7

ISO-8859-14 ISO-CELTIC ISO-IR-199 ISO8859-14 ISO_8859-14 ISO_8859-14:1998 L8 LATIN8

ISO-8859-15 ISO-IR-203 ISO8859-15 ISO_8859-15 ISO_8859-15:1998 LATIN-9

ISO-8859-16 ISO-IR-226 ISO8859-16 ISO_8859-16 ISO_8859-16:2001 L10 LATIN10

KOI8-R CSKOI8R

KOI8-U

KOI8-RU

CP1250 MS-EE WINDOWS-1250

CP1251 MS-CYRL WINDOWS-1251

CP1252 MS-ANSI WINDOWS-1252

CP1253 MS-GREEK WINDOWS-1253

CP1254 MS-TURK WINDOWS-1254

CP1255 MS-HEBR WINDOWS-1255

CP1256 MS-ARAB WINDOWS-1256

CP1257 WINBALTRIM WINDOWS-1257

CP1258 WINDOWS-1258

850 CP850 IBM850 CSPC850MULTILINGUAL

862 CP862 IBM862 CSPC862LATINHEBREW

866 CP866 IBM866 CSIBM866

CP1131

MAC MACINTOSH MACROMAN CSMACINTOSH

MACCENTRALEUROPE

MACICELAND

MACCROATIAN

MACROMANIA

MACCYRILLIC

MACUKRAINE

MACGREEK

MACTURKISH

MACHEBREW

MACARABIC

MACTHAI

HP-ROMAN8 R8 ROMAN8 CSHPROMAN8

NEXTSTEP

ARMSCII-8

GEORGIAN-ACADEMY

GEORGIAN-PS

KOI8-T

CP154 CYRILLIC-ASIAN PT154 PTCP154 CSPTCP154

KZ-1048 RK1048 STRK1048-2002 CSKZ1048

MULELAO-1

CP1133 IBM-CP1133

ISO-IR-166 TIS-620 TIS620 TIS620-0 TIS620.2529-1 TIS620.2533-0 TIS620.2533-1

CP874 WINDOWS-874

VISCII VISCII1.1-1 CSVISCII

TCVN TCVN-5712 TCVN5712-1 TCVN5712-1:1993

ISO-IR-14 ISO646-JP JIS_C6220-1969-RO JP CSISO14JISC6220RO

JISX0201-1976 JIS_X0201 X0201 CSHALFWIDTHKATAKANA

ISO-IR-87 JIS0208 JIS_C6226-1983 JIS_X0208 JIS_X0208-1983 JIS_X0208-1990 X0208 CSISO87JISX0208

ISO-IR-159 JIS_X0212 JIS_X0212-1990 JIS_X0212.1990-0 X0212 CSISO159JISX02121990

CN GB_1988-80 ISO-IR-57 ISO646-CN CSISO57GB1988

CHINESE GB_2312-80 ISO-IR-58 CSISO58GB231280

CN-GB-ISOIR165 ISO-IR-165

ISO-IR-149 KOREAN KSC_5601 KS_C_5601-1987 KS_C_5601-1989 CSKSC56011987

EUC-JP EUCJP EXTENDED_UNIX_CODE_PACKED_FORMAT_FOR_JAPANESE CSEUCPKDFMTJAPANESE

MS_KANJI SHIFT-JIS SHIFT_JIS SJIS CSSHIFTJIS

CP932

ISO-2022-JP CSISO2022JP

ISO-2022-JP-1

ISO-2022-JP-2 CSISO2022JP2

CN-GB EUC-CN EUCCN GB2312 CSGB2312

GBK

CP936 MS936 WINDOWS-936

GB18030

ISO-2022-CN CSISO2022CN

ISO-2022-CN-EXT

HZ HZ-GB-2312

EUC-TW EUCTW CSEUCTW

BIG-5 BIG-FIVE BIG5 BIGFIVE CN-BIG5 CSBIG5

CP950

BIG5-HKSCS:1999

BIG5-HKSCS:2001

BIG5-HKSCS:2004

BIG5-HKSCS BIG5-HKSCS:2008 BIG5HKSCS

EUC-KR EUCKR CSEUCKR

CP949 UHC

CP1361 JOHAB

ISO-2022-KR CSISO2022KR

CP856

CP922

CP943

CP1046

CP1124

CP1129

CP1161 IBM-1161 IBM1161 CSIBM1161

CP1162 IBM-1162 IBM1162 CSIBM1162

CP1163 IBM-1163 IBM1163 CSIBM1163

DEC-KANJI

DEC-HANYU

437 CP437 IBM437 CSPC8CODEPAGE437

CP737

CP775 IBM775 CSPC775BALTIC

852 CP852 IBM852 CSPCP852

CP853

855 CP855 IBM855 CSIBM855

857 CP857 IBM857 CSIBM857

CP858

860 CP860 IBM860 CSIBM860

861 CP-IS CP861 IBM861 CSIBM861

863 CP863 IBM863 CSIBM863

CP864 IBM864 CSIBM864

865 CP865 IBM865 CSIBM865

869 CP-GR CP869 IBM869 CSIBM869

CP1125

EUC-JIS-2004 EUC-JISX0213

SHIFT_JIS-2004 SHIFT_JISX0213

ISO-2022-JP-2004 ISO-2022-JP-3

BIG5-2003

ISO-IR-230 TDS565

ATARI ATARIST

RISCOS-LATIN1

最后说点题外话,夸一下UNIX系统的整体性和统一性,这种统一性带来学习成本的急剧下降,而且让人很有成就感。比如我在ruby中知道正则表达式最后加i表示忽略大小写,我有次用grep查找的时候发觉也要忽略大小写查找,你猜猜我用神马选项:grep -i xxx,就是这么统一,这么和谐。windows下可以吗?哦,对了windows下人家不玩console,人家都玩窗口...

时间: 2024-10-05 14:52:32

Mac OS X下各种文件编码的转换方法的相关文章

Mac OS X下MySQL 5.0的默认连接数

这段时间mysql上的开发过程中崩溃2次,一直没有找到原因,由于使用macbook已经内存满配,top查看也无异常.sar也正常.mysql日志也没有什么有价值的信息.本文介绍其解决方法:修改Mac OS X下MySQL 5.0的默认连接数. 这段时间服务器崩溃2次,一直没有找到原因,今天看到论坛发出的错误信息邮件,想起可能是MySQL的默认连接数引起的问题,一查果然,老天,默认 连接数才100, 怎么够呀,在网上找了半天资料,有说修改my.cnf的,有说修改safe_mysqld,试了,前者无

Mac OS X 下安装Nginx问题详解

  Mac OS X 下安装Nginx问题碰到的朋友不多,因为在mac系统安装nginx环境不实用了,不过有人碰到了我们就一起来看看,说不定对你会有帮助呢. 我是通过brew install nginx的,前面都很顺利, nginx常用命令: nginx -s stop/quit/reopen/reload 用ln -s 命令创建个软件链接于 /usr/sbin/ 下以方便操作. 直接搞个server看看效果,代码如下: server { listen 80; server_name www.g

关于Mac OS X操作系统对文件扩展名和打开方式的处理

  用过PC的人肯定知道,Windows对文件扩展名非常敏感,一个jpg图片,改名时把".jpg"删掉了,结果--Windows不认识它了. Linux呢?那哥们儿基本不看扩展名,把软件命名为".txt",照样可以执行.至于苹果电脑Mac OS X操作系统,基本介于Windows和Linux之间--扩展名是要看的,但决不像微软那样迷信文件扩展名后缀. 详情如下 苹果电脑Mac OS X操作系统打开文件时,并不先看文件的扩展名,而是优先察看它有没有被指定打开方式(修改

mac OS X 下ft_rich游戏的重构

      ft_rich是用ruby写的一个简单得扑克大富翁游戏,逻辑很简单,使用了终端颜色 的特性.     原来是在windows下使用ruby c ext实现的颜色功能,现在在mac OS x下做移植, 因为后者终端直接支持颜色显示,所以没那么复杂了--直接在ruby里使用 gem highline搞定鸟.     windows下的颜色使用的是一个class Ctxt#color方法,Ctxt是在c ext中调用 native win32 api实现的.移植得第一步,我想先跑起来这个程

Mac OS X下的动态链接库

动态链接库已成为现代操作系统的基本组成部分,比如Windows下数不清的.DLL文件和 臭名昭著的DLL地狱,Linux下成千上万的.so文件.Mac OS X下也有许多动态链接库, 他们的扩展名是.dylib. .dylib是Mach-O格式,也就是Mac OS X下的二进制文件格式.Mac OS X提供了一系列 工具,用于创建和访问动态链接库. 编译器/usr/bin/cc,也就是gcc了,Apple改过的.这个主要还是一个壳,去调用其他 的一些部件.当然同时还有/usr/bin/c++,等

《PHP和MySQL Web开发从新手到高手(第5版)》一一1.3 在Mac OS X下安装

1.3 在Mac OS X下安装 PHP和MySQL Web开发从新手到高手(第5版) 在本节中,我们将介绍如何在一台运行Mac OS X version 10.5(Leopard)的Mac计算机上开始运行一个安装了PHP和MySQL的Web服务器.如果你使用的并不是Mac计算机,可以跳过本节. Mac OS X将Apache和PHP都作为标准安装组件来安装,它是唯一这么做的面向消费者的OS(实际上,它还附带了Ruby.Python和Perl,所有这些都是流行的Web编程语言).也就是说,只需要

mac os X下的updatedb

    unix或linux下使用locate指令在其数据库中查询文件,使用updatedb可以 更新locate的数据库.而在mac os X下却找不到updated这个程序.使用 man locate查看,得知locate数据库位置在:     /var/db/locate.datebase 而所谓的updatedb程序在:     /usr/libexec/locate.updatedb 知道了位置直接调用就可以了.

《PHP和MySQL Web开发从新手到高手(第5版)》一1.3 在Mac OS X下安装

1.3 在Mac OS X下安装 PHP和MySQL Web开发从新手到高手(第5版)在本节中,我们将介绍如何在一台运行Mac OS X version 10.5(Leopard)的Mac计算机上开始运行一个安装了PHP和MySQL的Web服务器.如果你使用的并不是Mac计算机,可以跳过本节. Mac OS X将Apache和PHP都作为标准安装组件来安装,它是唯一这么做的面向消费者的OS(实际上,它还附带了Ruby.Python和Perl,所有这些都是流行的Web编程语言).也就是说,只需要几

Mac OS X下GnuPlot的安装

Gnuplot是一个科学界广泛使用的作图软件,从Unix软件发展而来,是一款免费软件.因为其强大的作图功能,逐渐也有其他行业的人来维护支持这个软件,使其变的越来越流行. Mac下的安装: Mac下的Gunplot有两个主要的形式:第一个就是Carbon二进制的文件,如果你运行的是经典的Mac OS系统(OS X之前),那这个可能是你唯一的选择.这个版本也可以在OS X下运行.如果你只是希望能够看到一个gnuplot文件的输出结果,而不需要安装软件到系统上,那么使用这个版本会非常方便.它不需要X-