• isilo和txt的编码问题 - [一些资源]

    2007-09-12

    版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
    http://stjacob.blogbus.com/logs/8226027.html

    最近用isilo看电子书,它提供了PDB和PRC格式以及txt的支持。这个软件对palm和wm的支持都非常棒,而且对txt的完美支持是我选择这个软件的第一理由,毕竟txt比其他的电子书格式显得更加地灵活。我可以从任何网络载体上获得txt资源。于是问题来了,复制某些论坛文章的时候会出现“在这个编码下,有些文字无法显示”的问题,需要你使用windows自带的记事本重新编码。而记事本自带有ANSI,unicode,unicode big endian,utf-8。而这些并不能在isilo下正确显示(乱码)!虽然isilo自带的编码很多。

    先看看这些编码

    ANSI编码(本地化):为使计算机支持更多语言,通常使用 0x80~0xFF 范围的 2 个字节来表示 1 个字符。比如:汉字 '中' 在中文操作系统中,使用 [0xD6,0xD0] 这两个字节存储。不同的国家和地区制定了不同的标准,由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 JIS 编码。不同 ANSI 编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段 ANSI 编码的文本中。ANSI是一个国际标准,不同国家标准。

    UNICODE(国际化):历史上, 有两个独立的, 创立单一字符集的尝试. 一个是国际标准化组织(ISO)的 ISO 10646 项目, 另一个是由(一开始大多是美国的)多语言软件制造商组成的协会组织的 Unicode 项目. 幸运的是, 1991年前后, 两个项目的参与者都认识到, 世界不需要两个不同的单一字符集. 它们合并双方的工作成果, 并为创立一个单一编码表而协同工作. 两个项目仍都存在并独立地公布各自的标准, 但 Unicode 协会和 ISO/IEC JTC1/SC2 都同意保持 Unicode 和 ISO 10646 标准的码表兼容, 并紧密地共同调整任何未来的扩展.

    Unicode 的实现方式不同于编码方式。一个字符的 Unicode 编码是确定的。但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对 Unicode 编码的实现方式有所不同。Unicode 的实现方式称为Unicode转换格式(Unicode Translation Format,简称为 UTF)。 Unicode 的实现方式还包括 UTF-7、Punycode、CESU-8、SCSU、UTF-32等,这些实现方式有些仅在一定的国家和地区使用,有些则属于未来的规划方式。目前通用的实现方式是 UTF-16小尾序(BOM)、UTF-16大尾序(BOM)和 UTF-8。在微软公司Windows XP操作系统附带的记事本中,“另存为”对话框可以选择的四种编码方式除去非 Unicode 编码的 ANSI 外,其余三种“Unicode”、“Unicode big endian”和“UTF-8”即分别对应这三种实现方式。Unicode是一个国际标准,根据不同文字的特点有不同的优化?实现?标准。

    根据isilo的自带编码,它支持ansi和utf-8。下面是几个常用软件的编码支持。

                                  编码unicode          编码ansi                        编码utf-8
    sviewer       (unicode)       (GB2312或GBK)       (utf-8) 
    qreader   (标准字符集、通用字符集) (东亚、GB2312或GBK)    (东亚、utf-8)
    readm            (x)       (GB2312或GBK)            (utf-8)
    isilo              (x)            (GB2312)        (utf-8)
    yedit       (ISO8859-1)       (GB2312或GBK)      (ISO8859-1)notepad          (OK)           (x)               (x)
    自带记事本        (OK)            (OK)                 (x)

     

     


    收藏到:Del.icio.us




    评论

  • 分析的不错,受教了~ 可惜了isilo不支持unicode格式

发表评论

您将收到博主的回复邮件
记住我