Dulingva ret-ĵurnalo |
Zweisprachiges Internet-Journal Esperanto-Deutsch |
parto A - originalaj tekstoj en la germana | Teil A - Originaltexte auf Deutsch |
Unikodo - utila sed neamata |
Unicode - nützlich aber ungeliebt
Für die meisten Computer-Nutzer unbemerkt hat sich in den letzten Jahren im Internet eine Revolution vollzogen: Die Darstellung von Schriftzeichen außerhalb des Grundzeichensatzes (Ziffern und lateinische Buchstaben ohne Umlaute udgl.) wurde weitgehend auf ein neues System umgestellt, einen weltweiten Code - Unicode eben. |
En la komencaj jaroj de la persona komputilo la uzantoj suferis se ili volis prezenti sur la ekrano la germanajn literojn ä, ö, ü aŭ ß. Tiaj literoj ne estis enlistigitaj en la usona 7-bita signaro (ASCII) kio kaŭzis ke oni devis helpe uzi transskribojn kiel ae, oe, ue resp. sz aŭ ss.
|
In den Anfangsjahren des PC hatten Computernutzer ihre liebe Not, wenn sie Umlaute oder das scharfe ß am Bildschirm darstellen wollten. Solche Zeichen waren im amerikanischen 7-Bit-Zeichensatz (ASCII) nicht vorgesehen, weshalb man sich mit Umschreibungen wie ae, oe, ue bzw. sz oder ss behelfen musste.
|
Ĉar tio estis neeltenebla stato, oni solvis la problemon aldonante 128 signojn al la baza signaro. La 8-bita signaro (ANSI) estis naskita. Per unu bajto, tio estas 8 bitoj, oni povas prezenti precize 256 diversajn signojn. 32 el ili estas bezonataj por teknikaj celoj de la funkciigo de programoj, lasante tiel entute 224 signojn por la prezento de literoj. Tio jam estas bela kvanto kaj eblas prezenti jam multajn literojn kiel ekz. â, è, ç, ñ aŭ å kaj æ. Tio sufiĉas por la okcident- eŭropaj lingvoj, sed jam ne por la mez- kaj orienteŭropaj lingvoj kaj tute ne por la rusa aŭ araba. Oni devis helpe enkonduki diversajn kodotabelojn por la unuopaj lingvogrupoj (ekz. mez- kaj sudeŭropaj) kaj la verkanto de teksto devis elekti unu el tiuj tabeloj, sed povis tiam pezenti nur signojn kiuj troviĝis en la elektita tabelo. Tiam ne eblis ekz. en franclingva teksto korekte skribi la nomon de jugoslavaj politikistoj kiel ekz. Milošević. Oni devis forigi la supersignojn kio kondukis al tio ke laŭ la prononco el "Miloŝeviĉ" fariĝis "Miloseviĉ" |
Weil das ein unerträglicher Zustand war, löste man das Problem, indem man den Zeichensatz um 128 Zeichen erweiterte. Der 8-Bit-Zeichensatz (ANSI) war geboren. Mit einem Byte, das sind 8 Bit, kann man genau 256 unterschiedliche Zeichen darstellen. 32 davon werden für technische Zwecke der Programmabwicklung benötigt, sodass für die Darstellung von Schriftzeichen insgesamt 224 Zeichen übrigbleiben. Das ist schon eine ganze Menge und damit kann man viele Schriftzeichen wie z. B. â, è, ç, ñ oder å und æ
darstellen. Das reicht für die westeuropäischen Sprachen aus, allerdings schon nicht mehr für die mittel- und osteuropäischen Sprachen oder gar für Russisch oder Arabisch. Man musste sich behelfen, indem man verschiedene Codetabellen für die verschiedenen Sprachgruppen (z. B. west- mittel und südeuropäisch) einführte und man musste sich dann beim Verfassen eines Textes für eine dieser Code-Tabellen entscheiden und konnte dann aber nur Zeichen darstellen, die in dieser gewählten Code-Tabelle enthalten waren. Es war dann nicht möglich z. B. in einem französischen Text den Namen jugoslawischer Politiker, z. B Milošević richtig zu schreiben. Man musste die Überzeichen weglassen, was dazu führte, dass in der Aussprache aus "Miloschewitsch" ein Milossewitsch wurde. |
Tiun nekontentigan situacion oni volis ŝanĝi. Ĉu entute estis eble atingi universalan enlistigon de signoj en unu tabelo? Evidente tio ne eblis kun unu bajto po signo, sed eblis kun du bajtoj. Se oni por la prezento de signo uzas 2 bajtojn anstataŭ unu, tiam rezultiĝas 256 x 256 = 65.536 prezenteblecoj por skribsignoj. Tio grandmezure sufiĉas por ĉiuj lingvoj de la mondo. Eĉ la miloj da ĉinaj skribsignoj povas trovi lokon en tiom granda universala tabelo. La universala kodo Unikodo estis naskita. La teoria konsekvenco estus ke nun ĉiu teksto bezonus duoble da memoro ol antaŭe. Bonŝance oni trovis por la eûropaj literoj kromsolvon kiu decide malakrigas tiun problemon: Por la signoj de la baza signaro ne okazas iu ŝanĝo, t. e. ili prezentiĝas ankaŭ daŭre per unu bajto, nur la ne tiom oftaj literoj kun aldonaj punktoj aŭ strekoj prezentiĝas per du bajtoj. Tiu normo nomiĝas UTF-8 kaj per si estas la granda solvo de la priskribita problemo.
|
Diesen unbefriedigenden Zustand wollte man ändern. War es denn nicht möglich, eine weltweit einheitliche Zuordnung von Zeichen in einer Tabelle zu erreichen? Mi einem Byte pro Zeichen offenbar nicht, aber mit zwei. Verwendet man für die Darstellung eines Zeichens 2 Byte statt einem, dann hat man 256 x 256 = 65.536 Darstellungsmöglichkeiten für Schriftzeichen. Das reicht für alle Sprachen der Welt so im großen und ganzen aus. Selbst die tausenden chinesischen Schriftzeichen können in einer so großen, weltweiten Code-Tabelle untergebracht werden. Der universelle Code Unicode war geboren. Die theoretische Folge wäre, das nun jeder Text doppelt soviel Speicherplatz bräuchte wie vorher. Allerdings hat man für europäische Schriftzeichen einen Ausweg gefunden, der dieses Problem wesentlich entschärft: Für die im Grundzeichensatz enthaltenen Zeichen ändert sich nichts, d. h. die werden weiterhin mit nur einem Byte dargestellt, nur die in einem Text doch gar nicht so häufig vorkommenden Zeichen mit zusätzlichen Punkten, Strichen udgl. werden mit 2 Byte dargestellt. Diese Norm heißt UTF-8 und ist eigentlich die große Lösung für das beschriebene Problem.
|
Tamen la homoj volonte alkroĉiĝas al tradiciaĵoj, eĉ se tia tradicio ne jam estas longdaŭra. Daŭre estas uzataj ofte la okcident- kaj orienteŭropaj kodotabeloj kaj de nelonge estis eĉ modifitaj por enŝovi la €-signon. Senprobleme tamen funkcias aŭtomate la prezento de teksto kodita laŭ Unikodo. Ĉiuj signoj korekte prezentiĝas sen speciala kroma ago de la leganto.
La problemo ekestas nur dum skribado. Oni ja konscie devas ŝalti de la kutima ekz. okcidenteŭropa kodo al UTF-8, se oni volas redakti retpaĝon laŭ UTF-8. Kaj tion nur malmultaj faras. La aktiva uzado de Unikodo tiel restas limigita je malplimulto de konsciaj uzantoj. Eĉ tie kie la aplikado de Unikodo estas nemalhevebla por la korekta prezento de la signoj, ekz. ĉe Esperanto por ĉ, ĝ, ĥ, ĵ, ŝ kaj ŭ, la homoj preferas surogatan skribon, nur por eskapi la transŝalton al Unikodo. Tio ja estas la problemo de ĉiuj sistemoj por la internacia unuecigo. Oni akceptas ke ili estas necesaj, tamen oni daŭre plej volonte aplikus la propran tradician sistemon. |
Allerdings hängen die Menschen gerne an Althergebrachtem, selbst wenn es das eigentlich noch gar nicht so lange gibt. Es werden weiterhin noch häufig die west- und osteuropäischen Code-Tabellen verwendet und neuerdings sogar geändert, um darin das €-Zeichen unterzubringen. Dabei funktioniert die Darstellung eines in UTF-8 kodierten Texts automatisch. Alle Zeichen werden ohne besonderes Zutun des Lesers richtig dargestellt. Das Problem entsteht nur beim Schreiben. Man muss schon bewusst vom üblichen z. B. westeuropäischen Code auf UTF-8 umschalten, wenn man z. B. eine Webseite in UTF-8 abfassen will. Und das tun nur wenige. Die aktive Verwendung von Unicode UTF-8 bleibt so auf eine Minderheit von bewussten Anwendern beschränkt. Selbst dort, wo die Anwendung von Unicode für die richtige Darstellung der Zeichen unerlässlich ist, z. B. beim Esperanto für ĉ, ĝ, ĥ, ĵ, ŝ und ŭ, verwenden die Menschen oft lieber eine Ersatzschreibweise, nur um dem Umschalten auf Unicode zu entkommen. Das ist eben das Problem aller Systeme zur internationalen Vereinheitlichung: Man sieht ein, dass sie notwendig sind, bliebe aber doch am liebsten beim eigenen althergebrachten System. |