December 9, 2010

漢字的語文知識

構造原理漢字組字的基本原理,在周禮中就有提到了六書,只是沒有說明具體內容。到了東漢,許慎在《說文解字》中,詳細闡述了「六書」這個漢字構造原理:象形指事會意形聲轉注假借

[編輯] 象形

這種造字法是依照物體的外貌特徵來描繪出來,所謂「畫成其物,隨體詰詘」是也。如日、月、山、水等四個字,最早就是描繪日、月、山、水之圖案,後來逐漸演化變成現在的造型。

[編輯] 指事

這是指表現抽象事情的方法,所謂「各指其事以為之」是也。如人在其上寫作「上」,人在其下寫作「下」,有人稱為抽象的象形。

[編輯] 會意

這個造字法,是將兩個字根組合起來,使衍生出新的含意。如「日」和「月」組起來,就是日光加月光變成「明」。「人」字和「言」字合成「信」字,意思就是人過去所言;有信,就是這個人都很遵守自己說過的話。

[編輯] 形聲

此乃文字內以特定形狀(字根)表特有的音。例如:胡,這個字也可為一個聲符,結合不同的屬性部件,表不同意義如蝴、湖、葫、瑚、醐等,而以同樣的發 音元素(也有的是完全同音),表達不同的事物。但形聲字,也因古今語言音韻變遷,不少古代同類形聲字在今天的官話已無共同音素了,如過、蝸。

[編輯] 轉注

這是用於兩個字互為註釋,彼此同義而不同形,漢代許慎解 釋道:「建類一首,同意相受,考、老是也。」,這怎麼說呢?此二字,古時「考」可作「長壽」講,「老」、「考」相通,意義一致,即所謂「老者考也,考者老 也」。詩經的《大雅·棫樸》亦云:「周王壽考。」。蘇軾的《屈原塔詩》也有「古人誰不死,何必較考折。」一語。其中的「「考」皆「老」意,特別注意的是, 後代的文字學家針對許慎的前述的定義也作了大量的解釋。其中包括「形轉說、聲轉說、義轉說」三類,只是這三種說法有人認為不夠全面,當代古文字家林沄先生 也有解釋說「轉注」就是一個形體(字根)記錄兩個讀音和意義完全不同的兩個詞。例如「帚和婦」與甲骨文中的「母和女」等等。

[編輯] 假借

這法簡言之,借用一字,去表達別的事物。一般來說,是有一個無法描述的新事物,就借用一個發音接近或是屬性近似的字根,來表達這個新事物。例如:「又」,本來是指右手(最早可見於甲骨文)[5],但後來被假借當作別的意思。聞,本意是用耳朵聽東西的意思。例如《大學‧第七章》中有「視而不見,聽而不聞,食而不知其味」,但後來被假借成嗅覺的動詞(不過也有人認為這是錯用)。 (其中「轉注」「假借」兩項的意義,至今爭訟不休,尚無令人滿意的說法。)
總結以上古代六書,前兩項,「造字法」也;中兩項,「組字法」也;後兩項,「用字法」也。這六個原理,是古代文字學學者歸納出來的字學理論。其所含漢字構成法則,是長期演化而成的,不是任何一個人獨創的。

[編輯] 重新解構

《漢字字源:當代新說文解字》中,否定了許慎指形聲字佔八成以上的理據,認為許慎只以小篆籀文作參考,而不了解甲骨文。而該書則以甲骨文作為漢字源頭,重新解釋漢字,認為會意字佔 漢字數量八成以上,也不存在「會意兼形聲」的造字方法。以會意的角度分析「形聲字」,結果所謂形聲字的聲旁完全具有表意作用,認為古人造字大有講究。如 「蜥」字指棲於樹上又能斷開的蛇,「蟋」指知悉並引申為有規律之爬蟲,「蜥」與「蟋」卻不可互換,可見未有加部首時,正是以會意造字。
認定造字方式為象形示意指事會意形聲記號六種,其中出現兩種新造字方法示意記號

[編輯] 示意

示意,即用示意圖表示字義。用圖形表示特徵、抽象事物、事件過程等,例如「用」為打井的示意圖,引申出使用之意,組成「甫」、「甬」、「周」等字。以此方法可解釋更多漢字起源。

[編輯] 記號

記號則是由殘缺不全的字元或沒有具體意義的字組成。如「由」字由「胄」簡化而來,「胄」又由「胤」簡化而來,「胤」解作子孫傳承,因此「由」有源由、來由等字義。

[編輯] 特點

  1. 單一字內就有很高的訊息密度,在表達同樣的事物時,可比表音文字用更短的篇幅表達同樣的訊息,而且更為精密,鮮需依賴前後文的情境理解某字含意(此指傳統字而言,不適當的簡化字有跟表音文字一樣的情形),所以漢字的閱讀效率很高。
  2. 所有漢字乃由1134個字母為基本字根,如金、木、水、火、土、爻、又、心、攵、乂、弋等,像積木一樣組合而成。以意念的聯結組合各種成各式各樣的字,表達各種意涵。
  3. 如不認識一字之意,可拆字,從組成字根以及空間的配置推斷出其字義。當時代演進出現新事物,難以詞的方式來表達或是缺乏效率時,也能以字根組合原則,合成出新字來用,例如:'字,就是近代為了表達新發現的化學元素而新造的字。
  4. 漢字組成的字根空間配置對字義有影響:如同樣是「心跟亡」的合體, 左右排是「忙」,上下排是「忘」,排列不同,導致不同涵義;文字右邊有「乂」這個字的字根,這表示右手(手的左偏旁表示左手)持某物進行某事(金文、甲骨 文考古的發現),如果右手拿斧頭就變成「攵」,有這個字根的,字本義幾乎都是有針對性武力的使用或強制維護一個秩序相關的事物,例如攻、敗、收、散、政、 牧、敕、赦、放等字,跟一個秩序的建立消滅、維持有關。[5]

字形

龜-bw.png
「國」字的筆畫與筆順
各地漢字字形差異
漢字有各種不同的書寫方式,即有不同的字體;不同的字體,漢字的字體形狀不一樣。就算是同樣的字體,也會因使用地區或使用者的不同而有字形上的差異。由於各地對字形的使用並沒有統一,加之大陸地區使用「新字形」,便產生了許多差異。例如「刃」及「角」,在各地寫法都不盡相同。又如「口」字,臺灣官方規定最後一橫要寫得超過上面的橫折露出來一點,其他地區的寫法卻是不出頭的(注意右圖「启」字的口部)。
規整的字體(如:楷書宋體隸書篆書等)書寫下的漢字是一種方塊字,每個字佔據同樣的空間。漢字包括獨體字合體字獨體字不能分割,如「文」、「中」等;合體字由基礎部件組合構成,佔了漢字的90%以上。合體字的常見組合方式有:上下結構,如:「笑」、「尖」;左右結構,如:「詞」、「科」;半包圍結構,如:「同」、「趨」;全包圍結構,如:「團」、「回」;複合結構,如:「贏」、「斑」等。漢字的基末級部件(或稱基礎部件)包括獨體字、偏旁部首和其他非字部件。
所謂的「文字」,古代是兩個東西,東漢許慎《說文解字》敘:「倉頡之初作書,蓋依類象形,故為之文,其後形聲相益,即謂之字。」;宋鄭樵《象類書》云:「獨體為文,合體為字」。這個,現代的術語叫作字根部件,漢字是以意念的表達需要組合所需部件於一方塊,合成千千萬萬的字。
鄭樵的搜集,以形為主的文有三百三十個,稱為形母,以聲為主的文共有八百七十個,稱為聲母,合計一千二百文。
但鄭樵的聲母形母已經失傳,近代周何教授依據中文資訊交換碼(CCCII)第二集的22394字的字集重新整理的結果,得出漢字有869個聲母及 265個形母,共計1134個。形母:鄭樵的搜集,有三百三十個。現代的研究整理,是265個。聲母:鄭樵的搜集,有八百七十個。現代的研究整理,是 869個。
末級部件,再行拆解,及為漢字的最小構成單位:筆畫。漢字的筆畫離不開「」、「」、「」、「」、「」、「」這六種基本筆畫,另外還有「」。以書法為例,對各種筆畫都有多種不同寫法,尤其以折的變化最多。
書寫漢字時,筆畫的走向和出現的先後次序,即「筆順」,是比較固定的。基本規則是,從上到下,從左到右,先橫後豎,先撇後捺,先外後內,先外後內再封口,先中間後兩邊。不同書寫體漢字的筆順可能有所差異。

[編輯] 讀音

漢字是多種語言的共同書寫體系,每個字代表一個音節或數個音節(視語言而定)。此外念法上在日語以及各漢語中,讀音有「音讀」和「訓讀」之分。
古代漢語,曾存在一個漢字多個音節的情況,從唐朝開始減為一字一音節。現代標準漢語中,皆由一個聲母、一個韻母聲調確定,實際用到1300多個音節。由於漢字數目龐大,因而有明顯的同音字現象;同時還有一字多音的情形,稱為多音字或破音字。這一情況與各種漢語方言是普遍一致。而其他少數民族借漢字表音時,也有存在一字多音節的情況。
漢字大致為一字一種發音,存在訓讀,但現今已不常用。
在漢字的發音上,有著多音節,如(こく)、(にく),也有單音節如空気(空氣)的気(き,Ki),此外有許多字因訓讀、音讀,在不同狀況,發不同音的情形。
除了日本以外,其他漢字使用地區仍有少數字使用多音節字,如「浬」(海里)、「嗧」(加侖)、「瓩」(千瓦)、吋(英寸)、哩(英里)等。臺灣官方機構或民間均普遍使用,在大陸地區由於官方廢除已不使用,但一般人也理解其意思。

[編輯] 注音

最早的注音方法是讀若法直注法。讀若法就是用音近的字來注音,許慎的說文解字就採用這種注音方法,如「埻,射臬也,讀若准」。 直注法就是用另一個漢字來表明這個漢字的讀音,如「女為說己者容」中,使用「說者曰悅」來進行注音。
以上兩種方法都有先天上不完善的地方,有些字沒有同音字或是同音字過於冷僻,這就難以發揮注音的作用,例如「襪音韈」等。
魏晉時期發展出了反切法,據傳是受使用拼音文字的梵文影響。漢字的發音可以透過反切法進行標註,即用第一個字的聲母和第二個字的韻母和聲調合拼來注音,使得所有漢字發音都有可能組合出來。如「練,朗甸切」,即「練」的發音是「朗」的聲母與「甸」的韻母及聲調所拼成。
近代以來,又發展出了仿漢字形式的注音符號及眾多拉丁化拼音方式。注音符號一直都是台灣官方教學的一部分,學生在學習漢字前先要求必需掌握。而目前中國大陸最為廣泛使用的是漢語拼音
由於漢字以本身表義為主,注音方面較為薄弱。這個特性使得上下千年的文獻,不至於產生如同使用拼音文字的西方世界一樣,用字措辭太懸殊的差距,但也造成推斷古代聲韻的難度,必須進行專門的漢語音韻學才能推測它們在上古漢語中古漢語的發音。例如「龐」從「龍」而得聲,但今日北京話前者讀「páng」(ㄆㄤˊ),後者為「lóng」(ㄌㄨㄥˊ)。
潘悟雲和法國學者沙加爾認為:漢朝之前,某些漢字可能代表著兩個音節以上的發音,即這些字具有次要音節和主要音節。詳見上古漢語

[編輯] 漢字與詞語

主條目:詞語
漢字是漢文組成的最小單位,大半漢字就可以為獨立表意單位,為單字詞。隨著語言文字的發展,有大量慣用的詞語甚至多字詞出現,近代白話尤其眾多,主要分為
  • 同義複詞:如「遭遇」(二字同義)
  • 反義複詞:一笑泯「恩仇」(兩字反義,兩個意思都保存)
  • 偏義複詞:不吝惜「去留」(兩字反義,但只有「留」的意思)
不過,從另一方面來說,準確掌握為數眾多的複合詞的搭配形式和用法也成了一種負擔。漢語常用詞彙約為幾萬條,總詞彙量約有百萬條,從數量上來說可能使有些人望而卻步。
而從古文的角度來看,多用字本義,比起過度依賴詞語,會來的精確且有效率,例如朱邦復先生就提倡精確使用「字」的復古作為。

[編輯] 漢字的數量

漢字由於是開放集合,數量並沒有準確數字,日常所使用的漢字約為幾千字。漢字數量的首次統計是漢朝許慎在《說文解字》中進行的,共收錄9353字。其後,南朝顧野王所撰的《玉篇》據記載共收16917字,在此基礎上修訂的《大廣益會玉篇》則據說有22726字。此後收字較多的是宋朝官修的《類篇》,收字31319個;另一部宋朝官修的《集韻》中收字53525個,曾經是收字最多的一部書。
近代編集的字典收字量更高,如清朝的《康熙字典》收字47035個;臺灣的《中文大字典》收字49905個;大陸的《漢語大字典》收字54678;最新的《中華字海》收字85568個,包含了《漢語大字典》、《中文大字典》、《康熙字典》和《說文解字》的所有收字;日本的《大漢和字典》收字48902個,另有附錄1062個。21世紀已出版的字數最多的是《日本今昔文字鏡》,收字15萬個。
20世紀所新創的,還有第一批簡化字後跟第二批的「二簡字」,其中也包括社會上不少人造的文字,不過二簡字已被大陸官方廢除,只有少數字在社會上流行,但現時並沒有於計算機編碼中被收錄。
在漢字計算機編碼標準中,目前最大的漢字編碼是臺灣的國家標準CNS11643,目前(4.0)共收錄可考證之正簡、日、韓語漢字共76,067個,在戶政系統等官方機構普遍使用。臺灣及港澳地區民間通用的大五碼收錄正體漢字13053個。GB 18030是中華人民共和國現時最新的內碼字集,GBK收錄簡體、正體及日語、韓語漢字20912個,而早期的GB 2312收錄簡體漢字6763個。而Unicode中日韓統一表意文字基本字集則收錄漢字20902個,另有兩個擴展區,總數亦高達七萬多字。
初期的漢字系統字數不足,很多事物以通假字表 示,使文字的表述存在較大歧義。為完善表述的明確性,漢字經歷了逐步複雜、字數大量增加的階段。過去在漢字組成基本因子(前述字根部件)研究與教學上落 後,造成學習上必須逐字學習難以舉一反三,漢字數量越多學習越困難,組建新字的風氣日趨保守,也沒有相應的資訊處理技術,於是有許多單一的漢語意義是以詞 表示,例如常見的雙字詞,所以近代書寫的發展多朝向造新詞而非造新字。

[編輯] 常用字

[編輯] 中國

香港教育署2000年頒布的《常用字字形表》收錄4,759字,適用於中國香港1996年頒布的《常用國字標準字體》收錄4,808字,適用於台灣國家語言文字工作委員會1988年頒布的《現代漢語常用字表》收錄3,500字(2,500個常用字,1,000個次常用字),適用於中國大陸
2007年中國語言生活狀況報告裏,在10.07億漢字的語料上,進行漢字使用情況數據調查,結果為:595字數的覆蓋率達到80%,964字數的覆蓋率達到90%,2394字數的覆蓋率達到99%。[6]
山西大學計算機科學系受國家語言文字工作委員會委託,抽樣統計200萬字的材料,檢測《現代漢語常用字表》收字的使用頻率。結果是:2,500常用字覆蓋率達97.97%,1,000次常用字覆蓋率達1.51%,合計共3,500字覆蓋率達99.48%。 這說明只需學習約3,500個字,已可以正常閱讀中文。

[編輯] 日本

參見:當用漢字常用漢字日本漢字能力檢定
日本內閣1946年頒布《當用漢字》,收錄1,850漢字;文部省國語審議會(今文部科學省文化審議會)於1981年頒布《常用漢字》,收錄1,945漢字,取代《當用漢字》。依《常用漢字》,1006個漢字在小學教授,939個在中學中教授,共計1,945個。
1975年日本漢字能力檢定協會推出日本漢字能力檢定,測試日本人對漢字的掌握。直至2007年,共2,716,711人考核。成績分為12級,由最高至最低排列分別為:1級、準1級、2級、準2級、3級、4級、5級、6級、7、8級、9級、10級。

[編輯] 韓國

參見:教育用基礎漢字

[編輯] 筆劃最少與最多的漢字

最簡單的漢字只有一劃,但卻不止一個字:除了「一」字以外,「丨」、「亅」、「丿」等都是漢字,而且都有各自的讀音。而現時已知最多筆畫的漢字,應該是「Tron.svg」,由3個「龍」字和3個「雲」個組合而成,共有84劃,這個字收錄於日本的TRON[1]計劃內。其次是由四個「龍」字組成的「𪚥」字,有64劃,收錄於統漢碼;同樣屬於64劃的字有四個興組成的字,收入自《中文大辭典》再之後的是由四個「雷」字組成的字,有52劃,收錄於《說文解字》。
  • 一說128畫的「雷」的古字,由16個「田」與8個「回」組成。

No comments:

Post a Comment