2007年,我们的“字词生活”
作者:不详 时间:2008/11/25 18:48:13 来源:会员转发 人气:432
日前,教育部、国家语委发布了2007年中国语言生活状况报告,这是教育部、国家语委第三次向社会发布年度语言生活状况报告(以下简称“报告”)。报告认为,2007年的中国语言生活,总体上健康和谐,生动活泼,诸多领域多彩靓丽。此外,还有不少热点问题值得我们关注。
语言生活热点
报告认为,2007年的生活语言出现一些新的热点。
首先是非英语外语语种热,俗称“小语种”热。2007年北京外国语大学、中国传媒大学、广东外语外贸大学等高校,报考“小语种”人数比往年增长五成甚至一倍。北京暑期“小语种”培训班招生数量,2007年比2006年增长近30%。我国现有的“小语种”人才培养,还不能满足社会经济文化发展的需要,包括俄语、西班牙语、意大利语、葡萄牙语、阿拉伯语等8种外语人才已然不足。报告建议有关部门应根据国家的未来发展做好外语语种规划,采取切实有效的措施鼓励非英语外语语种的教育。
其次是虚假广告用语引起公众的广泛关注。2007年,公众热议广告语言虚假问题。不少广告信息失真、格调低俗、言语失范。2007年中央电视台“3•15晚会”对虚假广告强力曝光。许多名人代言的广告,如某种减肥茶、某种不粘锅等,语言名不副实。据广告新闻网统计,2007年(截止到11月),有关虚假广告250多条,涉及保健用品、药品、医疗器械及医疗机构等方面的约为60%。卫生部、国家工商总局、国家广电总局、国家食品药品监管局及一些地方政府为此采取了不少维护消费者权益的措施。
再其次是汉语国际传播持续升温。2007年共有来自188个国家和地区的19.6万名各类留学人员在我国境内的544所高等学校和其他教学、科研机构学习。来华留学生数量、生源国家和地区的数量,均达到新中国历史上的新高。
2007年,全球开办的孔子学院已有210所,分布在64个国家和地区,教职工逾千人,开设汉语课程1200多班次,学员4.6万人。
汉字使用情况
报告认为,2007年汉字的使用特点是高频字数量稳定,低频字随机偶然出现。
2005年、2006年、2007年的数据调查分别是在7.32亿、9.79亿、10.07亿字的语料上进行的,三年数据调查的语料量不同,总字种数也不同。2005年、2006年、2007年覆盖率达到80%的字种数分别是581、591、595;达到90%的字种数分别是943、958、964;达到99%的字种数分别是2314、2377、2394。从高频字占总字种数的比例来看,随着总字种数的增加,高频字的比例呈减小的趋势。这些数据表明高频字并不会随语料规模或字种的增加而增多,而是趋于保持稳态。这说明高频字的使用具有很强的稳定性,当语料规模达到一定的值之后,高频字的分布总是比较均匀,语料中所增加的字种数多为偶然使用,对高频常用字的分布影响不大。
对比三年前的600个(覆盖率达到80%以上)最高频率用字,可以很好地看出社会语言生活的变化。如:“涨、季、盘、楼、均”等字在2007年进入前600,而这些字在2006年、2005年均在600位之后。
报告调查显示,尽管年度之间词语的使用变化很大,但覆盖率超过90%的高频词语的使用稳定,词语覆盖率的分布也比较稳定。年度间高频词语的差别不足1000条,年度间共同使用的高频词语平均占高频词语的85.76%。
高频词语中的年度独用词语,多反映了当年的社会热点。如2007年排在前面的高频独用词语“减排、炒股、嫦娥、生猪”等,与年度流行语十分类似,反映了当年的社会生活和重要事件。排在2006年高频独用词语前面的“荣辱观、馒头、核试验”等词则与当年的社会主义荣辱观教育、娱乐界的“一个馒头引发的血案”、朝鲜核武器试验等事件密切相关。
此外,继去年报告向社会公布了171条新词语之后,2007年报告再次向外发布产生的新词语。
报告认为,新词语是语言对社会变化表现最敏感的部分,它凸显了语言的动态变化,是语言监测的重要内容之一,也是人们关注的焦点。2007年的新词语最终采集了254条,这些新词语表现出的特点有:第一,多字词语占优势。其中三字词语36.61%,四字词语28.35%,两者合计近65%。第二,大量使用词语模类推构词,词族化表现明显,运用较多的类后缀有“~族、~客、~奴、~友、~门、~吧、~日”等。词族化的新词语占27.55%。第三,名词性词语最多,占91.33%。第四,构成材料以汉字为主,兼有别样。254个新词语中有13个字母词。第五,新词语来源于多个渠道,分布在不同领域,反映了社会生活的方方面面。其中生活、文化、科技和经济领域产生的新词语较多,占67.32%。
网络词语
对于网络媒介语言的使用情况,报告以网络媒体监测语料库2007年的语料为基础,调查对象包括汉字、符号、词语以及BBS网络用语。
通过对汉字的覆盖率调查显示,在10%至70%的各级覆盖率下,新闻语料所用的字种数都大于博客语料和BBS语料,这反映新闻类语料涉及的内容更丰富,结构更均匀、平衡,使用的高频字字种更多。
对比新闻语料、博客语料、BBS语料的共用字、独用字发现,新闻、博客和BBS三类语料的共用字种数为8460个,占全部字种数的56.74%。
博客、BBS的独用字比较多,且低频。其中博客有1918个,BBS有1383个,造成这种现象的主要原因为:网络上流行的“火星文”的干扰、一些由生僻字组成的网名、海外网民使用的繁体字等。
调查显示一些与外来词语相关的汉字、与网络相关的语气词进入到高频字中,如“尔、伊、迪、呵、哦”。
对比2007年与2006年的高频字,新闻语料的高频字相对比较稳定,两年的数据相比,前600高频字中,只有13个不同;前1000高频字中,只有20个不同;前3500高频字中,只有74个不同,相同部分占97.89%。而BBS语料的高频字的变化较大,两年的数据相比,前600高频字中,有68个不同;前1000高频字中,有96个不同;前3500高频字中,有148个不同,相同部分占95.77%。
利用频率比值对比分析2006年与2007年的语料,2007年频率比值较大的“跌、涨、股、幅、券”几个字都和股票有关,十七大的召开使得“党”字的频率比值增大;2007年猪肉价格上涨,使得“肉”字的频率比值较大。
基础教育词语
本次报告对新课标九年义务教育阶段语文教材中的“用字”、“用词”、“基本句型”等内容进行了调查。鉴于教材的发行时间、发行量、覆盖面及影响力等因素,报告选取了如下教材作为调查对象:2001-2004年出版的人民教育出版社、江苏教育出版社、语文出版社和北京师范大学出版社的九年制义务教育新课程标准语文教材。
在汉字的使用上,四套教材的容量人教版为48.3万字,苏教版为37.3万字,北师大版为44.9万字,语文版为52.6万字。共出现汉字字种5069个,其中四套教材共用的汉字字种3590个,占总字种的70%;部分教材共用字种905个,占17.8%;只出现于一套教材的独用字种共574个,占11.3%。
汉字使用中,覆盖率为50%时使用了127字,覆盖率为90%时使用了1164字,覆盖率为95%时使用了1712字。前3500字的覆盖率达到99.6%。
在词语应用上,通过使用软件自动分词并经人工干预,得到的分词单位为1290126个,不同的词种数为50670个。在四套教材中均出现的词种数有10460个,占总词种数的20%。在各套教材中,共用词种数最高的占45%,最低的只占36%。每套教材的独用词种数在1/5至1/4之间。
从词语出现的频次来看,覆盖所有语料80%时用了3320条词,覆盖90%时用了9101条词,覆盖95%时用了17505条词。
从词语在课文篇数的分布来看,分布在51篇课文以上的只有1630个词语,占词语总数的3.22%。分布在11-50篇课文的有5297个词语,占词语总数的10.45%。二者相加,共有词种6927个,占词语总数的13.67%,不足词语总数的1/7。出现1次的达23200个词,占词语总数的45.79%,出现1-5次的占77.55%。可见教材词语虽然数量多,但分布面不广,复现率不高。
通过比较词语的出现频次与在课文中的分布,报告认为,分布面广的词更容易凸显语文性词语。根据分布上的特征,再参考语义的指称性与结构的凝固性,提取了基础教育的3000条基本词。这个词表的特点是重视书面语特色,重视古今语言的学习,重视文学语言的学习,重视基本生活词语。
文章评论
共有 0位用户发表了评论 查看完整内容