發表文章

目前顯示的是 6月, 2021的文章

胡家菘,Unicode, UTF-8, 資料型態

圖片
維基百科UTF8 劉任昌101單元 劉任昌102單元    UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼,也是一種字首碼。它可以用一至四個位元組對Unicode字元集中的所有有效編碼點進行編碼,屬於Unicode標準的一部分,最初由肯·湯普遜和羅布·派克提出。由於較小值的編碼點一般使用頻率較高,直接使用Unicode編碼效率低下,大量浪費記憶體空間。UTF-8就是為了解決向下相容ASCII碼而設計,Unicode中前128個字元,使用與ASCII碼相同的二進位值的單個位元組進行編碼,而且字面與ASCII碼的字面一一對應,這使得原來處理ASCII字元的軟體無須或只須做少部份修改,即可繼續使用。因此,它逐漸成為電子郵件、網頁及其他儲存或傳送文字優先採用的編碼方式。  自2009年以來,UTF-8一直是全球資訊網的最主要的編碼形式(對所有,而不僅是Unicode範圍內的編碼)(並由WHATWG宣布為強制性的「適用於所有事物(for all things)」,UTF-8使用一至六個位元組為每個字元編碼(儘管如此,2003年11月UTF-8被RFC 3629重新規範,只能使用原來Unicode定義的區域,U+0000到U+10FFFF,也就是說最多四個位元組)。   UTF-8使用四至六個位元組來編碼似乎太耗費資源了。但UTF-8對所有常用的字元都可以用三個位元組表示,而且它的另一種選擇,UTF-16編碼,對前述的第四種字元同樣需要四個位元組來編碼,所以要決定UTF-8或UTF-16哪種編碼比較有效率,還要視所使用的字元的分布範圍而定。不過,如果使用一些傳統的壓縮系統,比如DEFLATE,則這些不同編碼系統間的的差異就變得微不足道了。若顧及傳統壓縮演算法在壓縮較短文字上的效果不大,可以考慮使用Unicode標準壓縮格式(SCSU)。(胡家菘整理自維基百科)

胡家菘,JavaScript,使用漢堡、三明治等字元,電腦漢字編碼繪文字的UNICODE

圖片
🍔漢堡 🍟薯條 🍕披薩 🌭熱狗 🥪三明治 🍿爆米花 繪文字EMOJI的UNICODE 資料data,又稱「數據」,圖片、聲音、文字…等都是數位化 digitization,可以儲存、傳遞、分析。為何Line, FB, Google…免費?  最早的數位化標準ASCII,例如  換列=Char(10)=二進位(110)=十六進位(A) =十進位(8+2+0) =十進位(10+0).  空白=Char(32)=二進位(100000)=十六進位(20) =十進位(32+0) =十進位(2x16+0).  “a”=Char(97) =二進位(1100001)=十六進位(1101)=十進位(64+32+1)=十進位(4x16+2x16+0+1).  第086單元Unicode萬國碼,是ASCII的延伸。  “龍”=Unichar(40845)=十六進位(9F8D) =十進位(9x4096+15x256+8x16+13). 第100單元Unicode萬國碼再被延伸至。  漢堡=🍔=Unicode(127828) =十六進位(1F354) =十進位(65536+15x4096+3x256+5x16+4) 電腦漢字編碼UNICODE 劉任昌教學影片100 劉任昌教學影片101