"യു.ടി.എഫ്-8" എന്ന താളിന്റെ പതിപ്പുകൾ തമ്മിലുള്ള വ്യത്യാസം
(ചെ.) യന്ത്രം ചേര്ക്കുന്നു: ar, ca, cs, da, de, el, eo, es, fi, fr, he, hr, hu, it, ja, ko, lt, lv, nl, nn, no, pl, pt, ru, sk, sl, sr, sv, tr, uk, zh |
No edit summary |
||
വരി 1: | വരി 1: | ||
{{Prettyurl|UTF-8}} |
{{Prettyurl|UTF-8}} |
||
യൂണികോഡില് ഉപയോഗിക്കുന്ന ഒരു എന്കോഡിങ്ങ് രീര്തിയാണ് '''യു.ടി.എഫ്-8''' ('''UTF-8''')(8-bit UCS/Unicode Transformation Format). ഈ എന്കോഡിങ്ങ് രീതിയനുസരിച്ച് യൂണികോഡിലുള്ള ഏതു ചിഹ്നങ്ങളെയും സൂചിപ്പിക്കുവാന് കഴിയും മാത്രവുമല്ല ഇത് ആസ്കി (ASCII) എന്കോഡിങ്ങിനെ ഉള്ക്കൊള്ളുന്നുമുണ്ട്. അതിനാല് തന്നെ കമ്പ്യൂട്ടര് വിവരസാങ്കേതിക രംഗത്ത് നിലവില് ഏറ്റവും സ്വീകാര്യമായ എന്കോഡിങ്ങ് രീതിയായി ഇത് മാറി. ഇ-മെയില്, വെബ് താളുകള്,<ref name="GoogleUnicode">{{cite web | url=http://googleblog.blogspot.com/2008/05/moving-to-unicode-51.html | title=Moving to Unicode 5.1 | date=[[May 5]] [[2008]] | publisher=Official Google Blog| accessdate=2008-05-08}}</ref> തുടങ്ങി ക്യാരക്ടറുകള് ശേഖരിക്കുകയും കൈമാറ്റം ചെയ്യുകയും ചെയ്യുന്ന മേഖലകളില് ഇത് ഉപയോഗിക്കപ്പെടുന്നു. |
[[യൂണികോഡ്|യൂണികോഡില്]] ഉപയോഗിക്കുന്ന ഒരു എന്കോഡിങ്ങ് രീര്തിയാണ് '''യു.ടി.എഫ്-8''' ('''UTF-8''')(8-bit UCS/Unicode Transformation Format). ഈ എന്കോഡിങ്ങ് രീതിയനുസരിച്ച് യൂണികോഡിലുള്ള ഏതു ചിഹ്നങ്ങളെയും സൂചിപ്പിക്കുവാന് കഴിയും മാത്രവുമല്ല ഇത് ആസ്കി (ASCII) എന്കോഡിങ്ങിനെ ഉള്ക്കൊള്ളുന്നുമുണ്ട്. അതിനാല് തന്നെ കമ്പ്യൂട്ടര് [[വിവരസാങ്കേതിക വിദ്യ|വിവരസാങ്കേതിക]] രംഗത്ത് നിലവില് ഏറ്റവും സ്വീകാര്യമായ എന്കോഡിങ്ങ് രീതിയായി ഇത് മാറി. [[ഇ-മെയില്]], വെബ് താളുകള്,<ref name="GoogleUnicode">{{cite web | url=http://googleblog.blogspot.com/2008/05/moving-to-unicode-51.html | title=Moving to Unicode 5.1 | date=[[May 5]] [[2008]] | publisher=Official Google Blog| accessdate=2008-05-08}}</ref> തുടങ്ങി ക്യാരക്ടറുകള് ശേഖരിക്കുകയും കൈമാറ്റം ചെയ്യുകയും ചെയ്യുന്ന മേഖലകളില് ഇത് ഉപയോഗിക്കപ്പെടുന്നു. |
||
യു.ടി.എഫ്-8 ല് ഓരോ ചിഹ്നത്തെയും ഒന്നും മുതല് നാല് ഒക്ടെറ്റുകളിലായി (Octet, എട്ട് ബിറ്റുകളുടെ നിര അതായത് ഒരു ബൈറ്റ്) രേഖപ്പെടുത്തപ്പെടുന്നു. 128 യു.എസ്-ആസ്കി (US-ASCII) ക്യാരക്ടറുകള് മാത്രമാണ് ഒരു ബൈറ്റിലായി രേഖപ്പെടുത്തപ്പെടുന്നത്. |
യു.ടി.എഫ്-8 ല് ഓരോ ചിഹ്നത്തെയും ഒന്നും മുതല് നാല് ഒക്ടെറ്റുകളിലായി (Octet, എട്ട് ബിറ്റുകളുടെ നിര അതായത് ഒരു [[ബൈറ്റ്]]) രേഖപ്പെടുത്തപ്പെടുന്നു. 128 യു.എസ്-ആസ്കി (US-ASCII) ക്യാരക്ടറുകള് മാത്രമാണ് ഒരു ബൈറ്റിലായി രേഖപ്പെടുത്തപ്പെടുന്നത്. മറ്റുള്ളവ രണ്ട് മുതല് നാല് ബൈറ്റുകളിലായി വിന്യസിക്കപ്പെടുന്ന. ഈ രീതിയില് മലയാളം ക്യാരക്ടറുകള് രേഖപ്പെടുത്തുവാന് മൂന്ന് ബൈറ്റുകള് വീതം ആവശ്യമാണ്. |
||
==വിവരണം== |
==വിവരണം== |
||
03:42, 19 ഏപ്രിൽ 2009-നു നിലവിലുണ്ടായിരുന്ന രൂപം
യൂണികോഡില് ഉപയോഗിക്കുന്ന ഒരു എന്കോഡിങ്ങ് രീര്തിയാണ് യു.ടി.എഫ്-8 (UTF-8)(8-bit UCS/Unicode Transformation Format). ഈ എന്കോഡിങ്ങ് രീതിയനുസരിച്ച് യൂണികോഡിലുള്ള ഏതു ചിഹ്നങ്ങളെയും സൂചിപ്പിക്കുവാന് കഴിയും മാത്രവുമല്ല ഇത് ആസ്കി (ASCII) എന്കോഡിങ്ങിനെ ഉള്ക്കൊള്ളുന്നുമുണ്ട്. അതിനാല് തന്നെ കമ്പ്യൂട്ടര് വിവരസാങ്കേതിക രംഗത്ത് നിലവില് ഏറ്റവും സ്വീകാര്യമായ എന്കോഡിങ്ങ് രീതിയായി ഇത് മാറി. ഇ-മെയില്, വെബ് താളുകള്,[1] തുടങ്ങി ക്യാരക്ടറുകള് ശേഖരിക്കുകയും കൈമാറ്റം ചെയ്യുകയും ചെയ്യുന്ന മേഖലകളില് ഇത് ഉപയോഗിക്കപ്പെടുന്നു.
യു.ടി.എഫ്-8 ല് ഓരോ ചിഹ്നത്തെയും ഒന്നും മുതല് നാല് ഒക്ടെറ്റുകളിലായി (Octet, എട്ട് ബിറ്റുകളുടെ നിര അതായത് ഒരു ബൈറ്റ്) രേഖപ്പെടുത്തപ്പെടുന്നു. 128 യു.എസ്-ആസ്കി (US-ASCII) ക്യാരക്ടറുകള് മാത്രമാണ് ഒരു ബൈറ്റിലായി രേഖപ്പെടുത്തപ്പെടുന്നത്. മറ്റുള്ളവ രണ്ട് മുതല് നാല് ബൈറ്റുകളിലായി വിന്യസിക്കപ്പെടുന്ന. ഈ രീതിയില് മലയാളം ക്യാരക്ടറുകള് രേഖപ്പെടുത്തുവാന് മൂന്ന് ബൈറ്റുകള് വീതം ആവശ്യമാണ്.
വിവരണം
Unicode | Byte1 | Byte2 | Byte3 | Byte4 | example |
---|---|---|---|---|---|
U+0000-U+007F
|
0xxxxxxx
|
'$' U+0024 → 00100100 → 0x24
| |||
U+0080-U+07FF
|
110yyyxx
|
10xxxxxx
|
'¢' U+00A2 → 11000010,10100010 → 0xC2,0xA2
| ||
U+0800-U+FFFF
|
1110yyyy
|
10yyyyxx
|
10xxxxxx
|
'€' U+20AC → 11100010,10000010,10101100 → 0xE2,0x82,0xAC
| |
U+10000-U+10FFFF
|
11110zzz
|
10zzyyyy
|
10yyyyxx
|
10xxxxxx
|
U+10ABCD → 11110100,10001010,10101111,10001101 → 0xF4,0x8A,0xAF,0x8D
|