当前位置:99696大富豪棋牌 > 关于我们 > 字符(Character)是各种文字和符号的总称,各种编码

字符(Character)是各种文字和符号的总称,各种编码

文章作者:关于我们 上传时间:2019-10-03

我们为什么喜欢网上聊天、发朋友圈和微博?至少作者我认为,很大一部分原因是因为有各种表情符号、颜文字(Emoji),乃至人民群众喜闻乐见的表情包。在一个用0和1构成的数码世界,没有表情包根本不能聊天好么……

1,什么是字符编码?

      字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。中文文字数目大,而且还分为简体中文和繁体中文两种不同书写规则的文字,而计算机最初是按英语单字节字符设计的,因此,对中文字符进行编码,是中文信息交流的技术基础。

字符集是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB 18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。

99696大富豪棋牌 1图片来源:imgur.com

字符(Character)是文字与符号的总称,包括文字、图形符号、数学符号等。一组抽象字符的集合就是字符集(Charset)。字符集的出现是为了信息进行传播储存提供方便。目前常用到字符集有:ASCII,ISO 8859-1,Unicode,GB2312

ASCII

中文文字数目大,而且还分为简体中文和繁体中文两种不同书写规则的文字,而计算机最初是按英语单字节字符设计的,因此,对中文字符进行编码,是中文信息交流的技术基础。本文将按照字符集的时间顺序讨论几种典型的字符集,选取几种代表性的中文字符集,研究历史由来、特点、技术特征。

实际上,很多互联网特色的表情,反而传递了更多更生动的情感,进可战斗,退可卖萌,实在是太好用了。(表情包有2、3个G、现实生活中的面瘫,你们躺枪了么?)

3,各种编码集有哪些特点?

名称由来

ASCII(American Standard Code for Information Interchange,美国信息互换标准编码)是基于罗马字母表的一套电脑编码系统。

特点

它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO 646。

  ASCII 字符集

在表情包和表情符号诞生之前,我们只能用字符来表示情绪,于是有了很多虽然线条简单、但却萌力爆表的字符表情(Emoticon,和Emoji不太一样),由各种各样的或正常、或稀奇古怪的符号构成。这些表情也一直保留到了现在,甚至还常常被使用——但你知道这些符号都来自哪里吗?

ASCII:

包含内容

控制字符:回车键、退格、换行键等。

可显示字符:英文大小写字符、阿拉伯数字和西文符号。

  1.名称的由来

你的表情,也是别人的语言

(·д·),(ノ°д°)ノ,这么惊讶是在干什么?这个惊讶的“嘴”д,是西里尔字母(Kirillica)的一部分,读音是De。俄语、塞尔维亚语、哈萨克斯坦语,都用的是西里尔字母。

(=^ω^=),这个圆圆的兔唇ω,如果把它单拿出来,可能很多人也认识。它是希腊语里面的“欧米茄”(Omega),希腊字母表里面的最后一个字母,物理里面用大写的它Ω表示电阻。而(°Δ°)惊慌脸里面的三角形Δ,念“德尔塔”(Delta,小写是δ),初中数学里面是方程根的判定。

99696大富豪棋牌 2希腊字母表。图片来源:Wikipedia

很多你觉得稀奇古怪的字符,实际上是另外的书写体系的一部分。我们所熟知的现代西方大部分语言都是用拉丁字母拼写的(有的带有个别的特殊字符和变音符号,例如德语字母上面的“眼睛”)。

要说的话,古老的希腊语可是拉丁字母和西里尔字母的“妈”。灿烂的古希腊文明孕育出了最早的数学和哲学,而在文艺复兴以后的现代科学发展中,简洁又意蕴深刻的希腊字母也被频频用作数学和物理中的符号,算是西方学术界的一种传统。

西里尔字母用希腊语字母改写,得名于向斯拉夫蛮族们传教的圣人西里尔。这套字符通行于斯拉夫语族大部分语言,曾经苏联用它进行“民族语言改造”,更扩大了它的势力范围(例如哈萨克语属于突厥语系,也使用了西里尔字母)。

99696大富豪棋牌 3斯拉夫民族使用的西里尔字母表。图片来源:Wikipedia

ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统。

包含内容:控制字符(回车,退格,换行键),可显示式字符(英文大小写,阿拉伯数字和西文符号)。

技术特征:7位(bits)表示一个字符,共128字符

不足之处:只能表示英语,想西欧,东亚和拉美地区的语言符号无法表示。

技术特征

7位(bits)表示一个字符,共128字符,字符值从0到127,其中32到126是可打印字符。

  ASCII(American Standard Code for Information Interchange,美国信息互换标准代码)是基于罗马字母表的一套电脑编码系统。

更稀奇古怪的语言符号

如果说西里尔字母和希腊字母还能算混个脸熟,下面的这些符号,就有点“是不是专门为表情包设计的”嫌疑了。

比如(ღ˘⌣˘ღ),这真的不是桃心么?ლ(╹◡╹ლ),这真的不是手指么?其实,这是格鲁吉亚的文字“骑士体”,分别念做ghani和lasi,但却圆滚滚的萌萌的呢。格鲁吉亚文由他们的民族先祖创制,有人推断是学希腊文字而来,但正本之源却一直没有定论。最早的格鲁吉亚文出现在公元400多年,这套独特的文字和高加索山里的民族一样,拥有古老而独特的历史。

99696大富豪棋牌 4(作者随手截图的)格鲁吉亚文。图片来源:Wikipedia

(ง •_•)ง,这个捏拳的姿势,还有(ฅ• . •ฅ)的“爪子”,来自弯弯扭扭的泰文。这个(ಥ_ಥ)流泪的怨念之眼,和(ಠ_ಠ)这个皱眉的大眼睛,来源是卡纳达文。这两个稀奇古怪的文字系统,都来自一个大的文字系统之母——婆罗米文字。

99696大富豪棋牌 5印度孔雀王朝的阿育王流传下的石刻诏书就是用婆罗米文写就的。图片来源:Wikipedia

在公元前3-4世纪,盘踞在印度半岛的强大的“孔雀王朝”使用的就是婆罗米文字,而这种文字派生出了多种文字系统,例如泰文、天城文(印地语使用的文字)、古吉拉特文、僧伽罗文、泰米尔文,甚至还有藏文,多流行于南亚和东南亚。

这些风格各异的符号,大家可以感受一下……

99696大富豪棋牌 6一些婆罗米系文字的辅音。图片来源:Wikipedia

不过,要往上追溯的话,婆罗米文字是由一种古老的闪族文字“阿拉米文”演变而来,阿拉米文跟腓尼基文血缘甚近,都来自原始的迦南字母;前面提到的拉丁、西里尔字母的妈希腊字母,也来自腓尼基-迦南书写体系。晕了吧?一句话总结,上面出现的所有稀奇古怪的字符,都有一个同样的祖宗。

99696大富豪棋牌 7上文中提到的婆罗米文字,拉丁、西里尔字母,还有它们的妈希腊字母,都来自腓尼基-迦南书写体系。图片来源:Wikipedia

还有更稀奇的。ᕙ(˵ ಠ vಠ ˵)ᕗ这里面两个“举拳”的符号,以及奔跑的小人ᕕ( ᐛ )ᕗ,实际上来自北美的一个原住民部落纳斯喀皮人(Naskapi),他们使用文字的方向表示不同的元音读音。神奇吧!

99696大富豪棋牌 8纳斯喀皮文字的读音。你找到ᐛ了吗?图片来源:Wikipedia

ISO 8859-1:

扩展字符集

7位编码的字符集只能支持128个字符,为了表示更多的欧洲常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符,共256字符。

ASCII扩展字符集:它是从ASCII字符集扩充出来的,扩充后的符号增加了表格符号、计算符号、希腊字母和特殊的拉丁符号。

  2.特点

太熟悉的语言,反而读不懂……

既然我们的表情用了别人的语言,那别人的表情岂不是要用我们的?

当然啦!比如,在英国的西汉姆球迷中,许多的推特名都带着“父”字。

99696大富豪棋牌 9图片来源:Twitter

作者我百思不得其解,直到我看到了他们的队徽……

99696大富豪棋牌 10果然是个自带爹的队徽啊……图片来源:whufc.com

不仅仅是歪果仁借用我们的符号,中国网友们也在重定义着自己的文字。比如人民群众喜闻乐见的“囧”,现在看到之后都会条件反射出一张“囧脸”,恰好读音又是“窘迫”的“窘”字,简直就是完美的文字表情。

实际上,“囧”原意为光明,《说文解字》里解为“窻牖麗廔闓朙”,别看一个字都不认识,但都是与采光的窗户有关的,囧本身是个象形字。

99696大富豪棋牌 11“囧”字的甲骨文形式。是不是少了一些囧感?图片来源:Wikipedia

若一定要说表情丰富的象形字,“观”字的甲骨文和金文要更生动一些,瞪着大眼睛警觉的即视感。

99696大富豪棋牌 12左边第二个字就是金文的“观”,整幅字是“听鸟观鱼”。图片来源:网易网友“风之行”博客

其实这也没有什么值得奇怪的,不就是强行象形嘛。汉字天生就有很多象形字,被老外拿去那是再正常不过。比如,

( ^_^)o自自o(^_^ ) 代表碰杯,

(╬ ಠ益ಠ) 代表极度厌恶,

ヽ(o`皿′o)ノ代表愤怒,

凸(`0´)凸代表竖中指,

川´・ω・`川 代表熊(的毛),

(个_个) 代表眼睛,

((( ̄へ ̄井)代表不爽,

♪(((#^-^)八(^_^*)))♪ 代表high five,

(〃’▽’)_中☆{{{Д}}} 代表拿锤子敲,

(oT-T)尸 代表举白旗,如此等等……

等等,这怎么看起来这么别扭啊。

别扭就对了!因为你已经知道这些字的“含义”,这些含义和它的外形存在了冲突。

实验心理学有一个经典成果叫“斯特鲁普效应”,描述的就正是类似这样的现象。心理学家约翰·斯特鲁普在纸上涂上几种颜色的墨水,让被试把颜色念出来。区别是,第一组里的墨水组成了表示颜色的单词,而且还和墨水的颜色不一样;第二组里墨水就是方框框。

就像这样:

红 黄 蓝 绿

■   ■   ■   ■

是不是很困扰?是不是看到第一个字总是想念“红”而不能正常地念出墨水的颜色“绿”?斯特鲁普发现被试要花很久才能成功念出第一组的墨水颜色,而第二组没有困难。反过来,如果让被试念出字本身的内容,那么用什么墨水就无关紧要了。看起来,当我们阅读一个字的时候,它的含义是“优先”的;我们会先自动读出它的意义,然后才想起来实验员的要求,努力把它纠回去。

我们作为汉语母语使用者,阅读汉语表情文字遇到的就是这样的问题。当然,如果你反复地盯着这些表情文字,慢慢地它们好像又变得正常了。“语义饱和”在其中发挥了作用——反复想一个单词会让它变成无意义的笔画组合,而在表情文字里这样正好能让我们识别出它的象形含义。(关于语义饱和,可以参考果壳问答: 为什么有时候看到一个汉字时间长了,会觉得不认识这个字呢?)

ISO 8859-1,正式编号为ISO/IEC 8859-1:1998,又称Latin-1或“西欧语言”,是国际标准化组织内ISO/IEC 8859的第一个8位字符集。

它以ASCII为基础,在空置的0xA0-0xFF的范围内,加入96个字母及符号,藉以供使用附加符号的拉丁字母语言使用。曾推出过 ISO 8859-1:1987 版。

包含内容:ASCII编码包含的,部分西欧使用的语言。

技术特征:8位表示一个字符。

GB2312

  它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO 646。

从ASCII到Unicode的信息进化史

好了,说完了文字,我们再来说表情符号的另一个重要来源:特殊符号。

前一阵子非常流行的(╯‵□′)╯︵┴─┴掀桌表情(对,如果你用的是搜狗输入法,输入“掀桌”二字即可出现)。那个“桌”,实际上就是特殊符号的一种——表格符号。在稍微有些时日的DOS系统里面,人们只能使用纯文本,那么碰到图和表格怎么办呢?于是,人们加入了一些特殊符号来满足这个需求。

但是往哪儿加这些符号呢?

一开始,人们在电脑上用的是一套叫做ASCII(读作“阿斯克”,American Standard Code for Information Interchange,美国信息交换标准代码)的编码系统,主要用于显示英语和常用的标点,于1967年发布、1986年更新,一共只有128个字符(其中有95个是可以显示的,剩下的都是“控制符”),算上大小写、数字和标点,基本也就是你的键盘上有什么就是什么了。

99696大富豪棋牌 13即使这样,用ASCII也能搞艺术……都是大触啊!图片来源:larc.unt.edu

所以呢,早期大家聊天的表情,笑脸都是“:)”这样的。上古网络小说《第一次的亲密接触》里面,宅男主角可是能够对着这样一个微笑符号yy好久的。

但是ASCII的128个字符肯定是不够用的,别说表情了,你让人家打个naïve都没法点上“很天真”的两个点,很难受是吧,欧洲的各国工程师更是不能忍,于是他们在ASCII的基础上,制定了扩展版的ESCII,将原来的7位扩展为8位,空间一下子从128升级到了256。但是由于做扩展ASCII的人太多,标准并不兼容,关键时刻还是乱码一片。

大名鼎鼎的IBM代码页437(Code page 437),是比较流行的扩展ASCII编码系统之一,也是MS-DOS使用的字符编码。可以看到,这时候就已经有前面提到的表格符号了,此外还有不少数学符号、货币符号——对表情包事业也是巨大的贡献啊!

99696大富豪棋牌 14代码页437从128位到255位的字符编码。图片来源:utopia.knoware.nl

其实不仅仅是这些符号,前面空出来的“控制符”区域,其实被一些系统暗戳戳地规定成了“特别图像字元”。里面藏了黑白两个笑脸呢!这大概就是“官方表情包”了?但……其实并非每个系统都采用了这些字符,并不能算是标准。

99696大富豪棋牌 15看到左上角的8比特笑脸了吗?图片来源:Wikipedia

Anyway,随着信息事业扩展到世界各地,一个更大、更包容的编码系统势在必行,那就是Unicode(万国码),1991年正式发布的编码标准,从8位一下提升到了16位,一口气把前面说到那些奇奇怪怪的语言字符都包含进来了。最关键的是,全部的简体和繁体中文也在这个系统里!(中日韩的汉字是1992年加进来的)

至今为止,Unicode已经发布到了8.0版,一共120,737个字符。表情包的花样也跟着指数级上升,玩法被脑洞大开的世界各地网友不断翻新。

比如前一阵子流行的所谓“Lenny face”,( ͡° ͜ʖ ͡°),这个和doge有点异曲同工的邪恶表情,“眉毛”和“嘴”其实是“双弱音符”(Double Breve),和其它字符结合出现,并不是一个独立的字符。这种玩法也常见于一个泰语的上标字符不断叠加成“搭楼”的效果,是一个意思。这些都是在Unicode编码系统内实现的。

其它的什么太阳☀花草❀✿桃心❤萌萌大眼睛◕v◕(其实是四分之三)之类,也都是Unicode编码系统里面的字符啦。而且,最新的Unicode 8.0里面,也内嵌了表情字符喔。但如果系统版本不兼容的话,那这些都会统统变成方块,一点也不萌了。

99696大富豪棋牌 16图片来源:Wikipedia

总之,表情符号从很大程度上,是我们对于符号的重新赋意,也就是一种使用既有工具和内容的再创造了。很多也是从小圈子里面传出来的,比如著名的2chan和Reddit。虽然现在各个软件系统里面都用图标定义了真正的“颜文字”,但我们依然热衷于用自己的脑补功力,在简单的线条和符号里制造生动的表情。

你们还闲着干啥?还不赶紧晒一下你最得意的表情……(编辑:Stellasun)

 

Unicode:

名称由来

GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实施。

  3.包含内容

Unicode字符集编码是Universal Multiple-Octet Coded Character Set 通用多八位编码字符集的简称,是由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的字符编码系统,支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990年开始研发,1994年正式公布,最新版本是2005年3月31日的Unicode 4.1.0。

技术特征:16位编码,每个字符占用2个字节。一个字符的Unicode编码是确定的。但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对Unicode编码的实现方式有所不同。Unicode的实现方式称为Unicode转换格式(Unicode Transformation Format,简称为UTF)。如果一个7位的ASCII字符的Unicode文件,在传输过程中如果使用2个字节的原Unicode编码传输会造成比较大的浪费。对于这种情况,可以使用UTF-8编码,这是一种变长编码,它将基本7位ASCII字符仍用7位编码表示,占用一个字节(首位补0)。而遇到与其他Unicode字符混合的情况,将按一定算法转换,每个字符使用1-3个字节编码,并利用首位为0或1进行识别。

特点

GB2312是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。

  控制字符:回车键、退格、换行键等。

GB2312:

包含内容

GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445 个图形字符。其中包括6763个汉字,其中一级汉字3755个,二级汉字3008个;包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

  可显示字符:英文大小写字符、阿拉伯数字和西文符号

GB 2312 或 GB 2312-80 是中国国家标准简体中文字符集,全称《信息交换用汉字编码字符集·基本集》,又称GB0,由中国国家标准总局发布,1981年5月1日实施。GB2312编码通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。

包含内容:6763个汉字,其中一级汉字3755个,二级汉字3008个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个字符。

技术特征:每个汉字及符号以两个字节来表示。第一个字节称为“高位字节”,第二个字节称为“低位字节”。“高位字节”使用了0xA1-0xF7,“低位字节”使用了0xA1-0xFE0xA0)。 由于一级汉字从16区起始,汉字区的“高位字节”的范围是0xB0-0xF7,“低位字节”的范围是0xA1-0xFE,占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。

技术特征

(1)分区表示:

GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。

各区包含的字符如下:01-09区为特殊符号;16-55区为一级汉字,按拼音排序;56-87区为二级汉字,按部首/笔画排序;10-15区及88-94区则未有编码。

(2)双字节表示

两个字节中前面的字节为第一字节,后面的字节为第二字节。习惯上称第一字节为“高字节” ,而称第二字节为“低字节”。

“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。

  4.技术特征

编码举例

以GB2312字符集的第一个汉字“啊”字为例,它的区号16,位号01,则区位码是1601,在大多数计算机程序中,高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。计算公式是:0xB0=0xA0+16, 0xA1=0xA0+1。

  7位(bits)表示一个字符,共128字符

BIG5

  5.ASCII扩展字符集

名称由来

又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五家软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立,故称大五码。

Big5码的产生,是因为当时台湾不同厂商各自推出不同的编码,如倚天码、IBM PS55、王安码等,彼此不能兼容;另一方面,台湾政府当时尚未推出官方的汉字编码,而中国大陆的GB2312编码亦未有收录繁体中文字。

特点

Big5字符集共收录13,053个中文字,该字符集在中国台湾使用。耐人寻味的是该字符集重复地收录了两个相同的字:“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。

编码方法

Big5码使用了双字节储存方法,以两个字节来编码一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。高位字节的编码范围0xA1-0xF9,低位字节的编码范围0x40-0x7E及0xA1-0xFE。

各编码范围对应的字符类型如下:0xA140-0xA3BF为标点符号、希腊字母及特殊符号,另外于0xA259-0xA261,存放了双音节度量衡单位用字:兙兛兞兝兡兣嗧瓩糎;0xA440-0xC67E为常用汉字,先按笔划再按部首排序;0xC940-0xF9D5为次常用汉字,亦是先按笔划再按部首排序。

局限性

尽管Big5码内包含一万多个字符,但是没有考虑社会上流通的人名、地名用字、方言用字、化学及生物科等用字,没有包含日文平假名及片假名字母。

例如台湾视“着”为“著”的异体字,故没有收录“着”字。康熙字典中的一些部首用字(如“亠”、“疒”、“辵”、“癶”等)、常见的人名用字(如“堃”、“煊”、“栢”、“喆”等) 也没有收录到Big5之中。

  7位编码的字符集只能支持128个字符,为了表示更多的欧洲常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符,共256字符。

GB18030

  ASCII扩展字符集比ASCII字符集扩充出来的符号包括表格符号、计算符号、希腊字母和特殊的拉丁符号。

名称由来

GB 18030的全称是GB18030-2000《信息交换用99696大富豪棋牌,汉字编码字符集基本集的扩充》,是我国政府于2000年3月17日发布的新的汉字编码国家标准,2001年8月31日后在中国市场上发布的软件必须符合本标准。

  GB2312 字符集

特点

GB 18030字符集标准的出台经过广泛参与和论证,

99696大富豪棋牌 17GB18030 字符集

来自国内外知名信息技术行业的公司,信息产业部和原国家质量技术监督局联合实施。

GB 18030字符集标准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。该标准的字符总编码空间超过150万个编码位,收录了27484个汉字,覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准(GB2312,GB13000.1)兼容。

  1.名称的由来

编码方法

GB 18030标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分使用0×00至0×7F码(对应于ASCII码的相应码)。双字节部分,首字节码从0×81至0×FE,尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE,第二、四个字节编码码位均为0×30至0×39。

  GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实施。

包含内容

双字节部分收录内容主要包括GB13000.1全部CJK汉字20902个、有关标点符号、表意文字描述符13个、增补的汉字和部首/构件80个、双字节编码的欧元符号等。 四字节部分收录了上述双字节字符之外的,包括CJK统一汉字扩充A在内的GB 13000.1中的全部字符。

  2.特点

Unicode

  GB2312是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。

名称由来

Unicode字符集编码是Universal Multiple-Octet Coded Character Set 通用多八位编码字符集的简称,是由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的字符编码系统,支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990年开始研发,1994年正式公布,最新版本是2012年1月31日的Unicode 6.1。

  3.包含内容

特征

Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

  GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445 个图形字符。其中包括6763个汉字,其中一级汉字3755个,二级汉字3008个;包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

本文由99696大富豪棋牌发布于关于我们,转载请注明出处:字符(Character)是各种文字和符号的总称,各种编码

关键词: