-
isilo和txt的编码问题 - [一些资源]
2007-09-12
版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
http://stjacob.blogbus.com/logs/8226027.html
最近用isilo看电子书,它提供了PDB和PRC格式以及txt的支持。这个软件对palm和wm的支持都非常棒,而且对txt的完美支持是我选择这个软件的第一理由,毕竟txt比其他的电子书格式显得更加地灵活。我可以从任何网络载体上获得txt资源。于是问题来了,复制某些论坛文章的时候会出现“在这个编码下,有些文字无法显示”的问题,需要你使用windows自带的记事本重新编码。而记事本自带有ANSI,unicode,unicode big endian,utf-8。而这些并不能在isilo下正确显示(乱码)!虽然isilo自带的编码很多。
先看看这些编码
ANSI编码(本地化):为使计算机支持更多语言,通常使用 0x80~0xFF 范围的 2 个字节来表示 1 个字符。比如:汉字 '中' 在中文操作系统中,使用 [0xD6,0xD0] 这两个字节存储。不同的国家和地区制定了不同的标准,由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 JIS 编码。不同 ANSI 编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段 ANSI 编码的文本中。ANSI是一个国际标准,不同国家标准。
UNICODE(国际化):历史上, 有两个独立的, 创立单一字符集的尝试. 一个是国际标准化组织(ISO)的 ISO 10646 项目, 另一个是由(一开始大多是美国的)多语言软件制造商组成的协会组织的 Unicode 项目. 幸运的是, 1991年前后, 两个项目的参与者都认识到, 世界不需要两个不同的单一字符集. 它们合并双方的工作成果, 并为创立一个单一编码表而协同工作. 两个项目仍都存在并独立地公布各自的标准, 但 Unicode 协会和 ISO/IEC JTC1/SC2 都同意保持 Unicode 和 ISO 10646 标准的码表兼容, 并紧密地共同调整任何未来的扩展.
Unicode 的实现方式不同于编码方式。一个字符的 Unicode 编码是确定的。但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对 Unicode 编码的实现方式有所不同。Unicode 的实现方式称为Unicode转换格式(Unicode Translation Format,简称为 UTF)。 Unicode 的实现方式还包括 UTF-7、Punycode、CESU-8、SCSU、UTF-32等,这些实现方式有些仅在一定的国家和地区使用,有些则属于未来的规划方式。目前通用的实现方式是 UTF-16小尾序(BOM)、UTF-16大尾序(BOM)和 UTF-8。在微软公司Windows XP操作系统附带的记事本中,“另存为”对话框可以选择的四种编码方式除去非 Unicode 编码的 ANSI 外,其余三种“Unicode”、“Unicode big endian”和“UTF-8”即分别对应这三种实现方式。Unicode是一个国际标准,根据不同文字的特点有不同的优化?实现?标准。
根据isilo的自带编码,它支持ansi和utf-8。下面是几个常用软件的编码支持。
编码unicode 编码ansi 编码utf-8
sviewer (unicode) (GB2312或GBK) (utf-8)
qreader (标准字符集、通用字符集) (东亚、GB2312或GBK) (东亚、utf-8)
readm (x) (GB2312或GBK) (utf-8)
isilo (x) (GB2312) (utf-8)
yedit (ISO8859-1) (GB2312或GBK) (ISO8859-1)notepad (OK) (x) (x)
自带记事本 (OK) (OK) (x)随机文章:
精巧的图形处理软件--SnagIt 2008-04-25胜利之光 friday.night.lights第二季字幕[原创](更新到第八集) 2008-03-16解决字幕 2008-03-13体验prism 2007-10-30一个相当不错的在线取色器 2007-05-13
收藏到:Del.icio.us




评论