| |
Der Globalzeichensatz Unicode
im Betriebssystem Unix
Neun Monate lang habe ich mich nun mit der
Problematik des universellen 16-bit-Zeichensatzes Unicode (ISO 10646
UCS) zur vereinheitlichten elektronischen Verarbeitung von Texten in
möglichst allen Schriftsprachen der Welt (inklusive der mathematischen
Notation der Natur- und Ingenieurwissenschaften) im recht flexiblen
akademischen Betriebsstem Unix (ISO 9945 POSIX, Unix98, X11R6,
GNU/Linux, Sun Solaris) beschäftigt.
Im Schriftbereich ist Unix ist trotz vielfältiger qualitativ
hochwertiger komplexer Mechanismen (troff, TeX/MetaFont, PostScript,
X11-Internationalisierung) heute nicht mehr so stark wie die
kommerziellen Betriebssysteme Microsoft Windows NT und Apple MacOS 8,
die beide auf der TrueType-Technik basieren, welche sowohl bei der
interaktivem Arbeit auf dem Bildschirm als auch in den dabei
generierten Ausdrucken Verwendung findet. Unix droht(e) durch die
fehlende konsistente Unicode-Unterstützung als ganzes ins
Hintertreffen zu geraten. Ich wollte mit meiner Diplomarbeit
mithelfen, eine derartig ungünstige Entwicklung abzuwenden und Unix
aus dem US-ASCII- oder ISO-2022-zentrierten akademischen Elfenbeinturm
herauszuführen.
Dazu habe ich keine klassische große Einzelapplikation
programmiert, sondern vielmehr - meinen persönlichen Vorlieben
entsprechend - eine theoretische, beschreibende Arbeit zu einem
breiten, zutiefst praktischen Thema erstellt. Das Ergebnis ist der
neue WWW-Server http://czyborra.com/. Er liefert eine enzyklopädische Einführung
in die verschiedenen Zeichensatzstandards bis hin zum Unicode, eine
unixzentrische kommentierte Übersicht über die am freien Markt bereits
existierende Unicode-Unterstützung, sowie eine Vielzahl eigener
Progrämmchen und Vorschläge zur Förderung der Nutzbarkeit der
Unicode-Zeichen in der Unix-Umgebung: einen Bitmap-Font mit inzwischen
34.554 Zeichen, ein verblüffend einfaches Perl-Skript zur
kalligraphischen Formatierung arabischer Texte, einen
SCSU-Dekompressor und eine Vielzahl von Umwandlungstabellen zum
Zugriff auf Unicode-Zeichen mit traditionellen Umschreibungen.
Ein halbes oder dreiviertel Jahr Bearbeitungszeit ist doch kein so
traumhaft unendlicher Zeitraum, wie er mir vorher erschien, und dann
macht einem das Leben noch den einen oder anderen Strich durch die
Rechnung. Die Knappheit der Zeit zwingt mich leider zu Abstrichen bei
der Qualität der Präsentation. Es ist schade, daß ich trotz
mehrmonatiger Fristverlängerung immer noch nicht alle angegangenen
Kapitel präsentieren kann und die vorhandenen Kapitel lediglich als
Browserausdruck in lateinischer Schrift mit Illustrationen im
GIF-Format und ohne durchlaufende Seitennumerierung anbieten kann,
aber ich bin überzeugt, daß die wichtigsten dadurch ins Hintertreffen
geratenen Ideen in den präsentierfähigen Kapiteln zumindest bereits
angerissen werden.
So wird in meinem Kapitel über das Transformationsformat UTF-8
schon eine kommentierte Übersicht der existierenden freien
Unix-Software zum Generieren und Umwandeln von Unicode-Text und
weiteren Unicode-Programmen gegeben und darauf hingewiesen, daß UTF-8
die zukünftige Standardkodierung von E-Mails und
News-Veröffentlichungen im Internet sein wird und wie auch die
Auszeichnungssprache HTML des World-Wide Web inzwischen auf Unicode
basiert ist.
In der Fallstudie des Unicode-Editors Yudit wird nicht nur
prominent im Internet Reklame für diesen gemacht, damit er
standardmäßig in die heutigen Unix-Distributionen und -Installationen
integriert wird, sondern es werden auch anhand des Beispiels Yudit die
Ideen der konfigurierbaren Eingabemethoden, internationalisierten
Benutzerschnittstellen, und vorgeführt, wie man Mailreader wie Pine
zum Anzeigen von Unicode-kodierten Nachrichten bringen kann.
In der Einführung in den Unicode-Zeichenvorrat und meinen
GNU-Unicode-Font und meinen Arabischformatierer werden bereits
verschiedene weiterführende Unicode-Anzeigetechniken angerissen.
Am Tag der Abgabe ergibt sich folgendes Inhaltsverzeichnis:
The Global Character Set Unicode in the Unix
Operating System
- Motivation:
- Illustrated Prehistory: What was there before Unicode?
(compiled using Unicode on Unix)
- The Unicode Standard
- Unicode in Practice
- Unicode on Unix
- Unicode on the Internet
- How can you send Unicode text all over the net?
- Further Reading
Der Vorteil meiner Präsentation im WWW ist, daß ich nun noch die
Möglichkeit habe, die Teile, für die Zeit der Diplomarbeit leider
nicht gereicht hat, in Ruhe zu vervollständigen und der interessierten
Leserschaft im Internet nachzureichen.
Danksagung
Ich möchte allen schön danken, die mich bei der Erstellung dieser
Arbeit begleitet und unterstützt haben, namentlich:
- Herrn Professor Biedl für die Überwindung seiner anfänglichen
Bauchschmerzen, die Auswahl des richtigen Themas, seine Offenheit und
die engagierte persönliche Betreuung;
- Anne van Noordt für meinen Stützpunkt in Amsterdam;
- Leta Mesigna, Siamak Beizai und Omar El-Nubi für Nachhilfe in
Tigrinya, Persisch und Arabisch;
- Peter van Gink für seine Gemüsepfannen;
- Joachim Schulz für seinen Bildschirm und seine verläßliche Sorge;
- Andrea Adams für ihre offenen Arme und die Ausflüge in die
Vergangenheit;
- Andreas Bathe für die PLIP- und Ethernet-Verbindung meines
Laptops und sein permanentes Dasein und seine therapeutischen
Sticheleien;
- Konrad Opitz für eine Sommernacht, einen Talisman und das gute
Vorbild liebevoller Zielstrebigkeit;
- Benedikt Homann fürs Korrekturlesen meiner Briefmarkensammlung;
- David Haymes fürs Obdachlosenasyl;
- Rick Powell and Barbara Dolny
for teaching me English;
- Dietrich Bollmann für die Bereitstellung bibliographischer Schätze;
- Volker Baasner (in memoriam), Jürgen Höhn, Nicholas Lahav und
Ulrike Meibohm für beruhigende Worte, die auch überzeugten;
- Ingolf Haubenreißer und Uwe Müller-Veith für ihren Optimismus;
- der Internet-Gemeinde und der Liste unicode@unicode.org für
Anregungen, Kritik und Ermutigung, insbesondere Gaspar Sinai, Mark
Leisher, Markus Kuhn, Primoz Peterlin, Jungshik Shin und John Clews;
- und nicht zuletzt meinen Eltern sowie dem Studentenwerk und der
TU Berlin für die materiellen Subventionen und die Schaffung der
Grundlagen.
Darüber hinaus habe ich keine unerlaubten fremde Hilfen in Anspruch
genommen, sondern das Werk selbständig erstellt, meine Quellen
angegeben und Zitate gekennzeichnet.
|
| |
|
|