Daten und Informationen
Vorlesung vom 17. Oktober 2016 Birger Krägelin
Inhalt
Repräsentation und Abstraktion
Zahlendarstellung
Stellenwertsysteme Rechnen mit Zahlen Gleitkommazahlen, Rundungsproblematik
Text-Darstellung
Dateien
Repräsentation und Abstraktion
Quelle: Wieners, Uni Köln
Digitalsystem Der Begriff digital bedeutet in der Informatik in Zahlen dargestellt
oder
in Ziffern dargestellt Meistens verbindet man damit die Benutzung des Dualsystems
Stellenwertsysteme Wir rechnen, denken und leben mit dem Dezimalsystem, ohne uns darüber Gedanken zu machen.
Stellenwertsystem: Jede Position einer Ziffer bedeutet eine anderen Wert. Die Stellen entsprechen den Potenzen des Basis-Systems.
Dezimalsystem Die Ziffern einer Zahl entsprechen den Zehnerpotenzen: 17283 3 x Einer
3 x 100
8 x Zehner
8 x 101
2 x Hunderter
2 x 102
7 x Tausender
7 x 103
1 x Zehntausender
1 x 104
Dualsystem Die Ziffern einer Zahl entsprechen den Zweierpotenzen: 11010 0 x Einer
0 x 20
1 x Zweier
1 x 21
0 x Vierer
0 x 22
1 x Achter
1 x 23
1 x Sechzehner
1 x 24
Diese Zahl repräsentiert die Dezimalzahl ………
Umwandeln von Zahlen Zahlen werden umgewandelt durch fortgesetzte Division und Notieren des Restes: einhundertvierundzwanzig / 10
zwölf, Rest 4
zwölf / 10
eins, Rest 2
eins / 10
null,
Rest 1
einhundertvierundzwanzig im Dezimalsystem
1 2 410
Umwandeln von Zahlen einhundertvierundzwanzig / 2 zweiundsechzig,
Rest 0
zweiundsechzig / 2
einunddreißig, Rest 0
einunddreißig / 2
fünfzehn,
Rest 1
fünfzehn / 2
sieben,
Rest 1
sieben / 2
drei,
Rest 1
drei / 2
eins,
Rest 1
eins / 2
null,
Rest 1
einhundertvierundzwanzig im Dualsystem 1 1 1 1 1 0 02
Addieren im Stellenwertsystem Beim Addieren notieren wir den Übertrag: 1 7 2 8 3 + 1 9 5 1 _ 1 7 4 7 8
Addieren im Stellenwertsystem Beim Addieren notieren wir den Übertrag: 1 1 1 1 1 0 0 1 0 1
+ 1
1
1
1
1
1 0 0 0 0 0 0 1
_
Subtrahieren im Stellenwertsystem Beim Subtrahieren gibt es Probleme, wenn das Ergebnis eine negative Zahl ist. Ausweg: Wir stellen negative Zahlen als Zweierkomplement dar. Wir machen das nur im Dualsystem.
Zweierkomplement Umwandeln in das Zweierkomplement: 1. Alle Ziffern vertauschen 2. 1 dazuaddieren 2210
1)
0 0 0 1 0 1 1 0 1 1 1 0 1 0 0 1
2)
1 1 1 0 1 0 1 0
-2210
Subtrahieren mit Zweierkomplement Aufgabe: 34 – 22 = 12
0 0 1 0 0 0 1 0 - 0 0 0 1 0 1 1 0
3410 2210
0 0 1 0 0 0 1 0 + 1 1 1 0 1 0 1 0 1
1
1
1
0 0 0 0 1 1 0 0
_
1210
Multiplizieren und Dividieren Multiplizieren und Dividieren durch fortgesetzte Addition bzw. Subtraktion ---> Hausaufgabe
Hexadezimalsystem Stellenwertsystem zur Basis 16 Ziffern:
0,1,…,9,A,B,C,D,E,F
Vier Ziffern im Dualsystem entsprechen einer Ziffer im Hexadezimalsystem. 0 1 1 1 1 1 0 02 7 C
Kompakte Schreibweise von Dualzahlen
Gleitkommazahlen Reelle Zahlen werden immer im GleitkommaFormat (engl. Floating point) dargestellt.
Dezimal: 1,414 E0 6,5536 E4
1,414 * 100 6,5536 * 104
65.536
Rechnen mit Gleitkommazahlen
Anpassen auf gleichen Exponenten
Addieren/Subtrahieren der Mantisse
Gleitkommazahlen
Dual: Mantisse ist normiert, entspricht einer Darstellung 0,1414 E1
gespeichert werden:
Vorzeichen (1 Bit)
Exponent
(8 oder 11 Bit, Zweierkomplement)
Mantisse
(23 oder 52 Bit)
Rechnen erfolgt in speziellen HardwareEinrichtungen der CPU
Rundungsproblematik Beim Rechnen mit Gleitkommazahlen sind die Ergebnisse nicht exakt.
beim Anpassen auf gleichen Exponent können Bits verloren gehen bei Rechenoperationen (Division) können Bits verloren gehen
Wann sind zwei Zahlen gleich? A=B?
==>
|(A – B)| < ε
Das ist keine Rundung im kaufmännischen Sinn.
Textdarstellung - Zeichencodes Buchstaben und andere Zeichen werden als Dualzahl codiert. Historisch gesehen gibt es ein paar Besonderheiten:
für die Datenübertragung wurden Steuerzeichen benötigt die Amerikaner kennen keine Umlaute für ein paar Sonderzeichen war noch Platz
Zeichencodes US - ASCII Alt, aber immer noch gebräuchlich
33 Steuerzeichen (bei Fernschreiber verwendet) 10 Ziffern 26 Großbuchstaben und 26 Kleinbuchstaben der Rest sind Satzzeichen diverse Klammern mathematische Sonderzeichen Insgesamt 128 Zeichen (7 Bit)
Zeichencodes ISO 8859-1 (oder auch Latin-1) Üblicher 8-Bit Zeichensatz mit europäischen Sonderzeichen (Umlauten)
Enthält US-ASCII weitere 32 Steuerzeichen reicht aus für fast alle europäischen Sprachen es fehlen €-Zeichen einige französische Sonderzeichen (Ligaturen)
Zeichencodes Windows-1252 (auch Codepage 1552) 8-Bit Zeichensatz von Microsoft
Kompatibel zu ISO 8859-1 enthält zusätzliche Zeichen €-Zeichen Ligaturen Tschechische Umlaute
ISO 8859-15
zusätzliche Zeichen nicht kompatibel zu Windows-1252
Zeichencodes Unicode
standardisierter 16-Bit Zeichensatz enthält 65.000 Zeichen für alle Sprachen ab Version 2.0: 17 Zeichenpaletten insgesamt 1,1 Mio Zeichen
UTF-8
Kurzform für Unicode (1 Byte, 2 Byte, 4 Byte) 1 Byte Zeichen kompatibel zu ASCII Zahlen > 128 sind Startbyte für Mehr-ByteZeichen
Dateiformate In Dateien werden Daten unterschiedlicher Formate gespeichert. Dateien können lesbar sein (textorientierte Dateiformate) oder binär. Das Format wird meist durch eine Endung im Dateinamen angezeigt. .txt, .doc, .pdf, .jpg, .mp3 Binäre Formate haben häufig vorne im Inhalt eine Kennzeichnung.
Text-Dateien Textdateien enthalten Daten in lesbarem Format. Die Verwendung des Zeichensatzes ist meist durch das Betriebssystem vorgegeben. Meist ISO-8859-1, heute häufig UTF-8. Zeilen werden durch Sonderzeichen getrennt. Windows: CR-LF Linux: LF
Text-Dokumente Text-Dokumente enthalten neben dem Text-Inhalt zusätzlich Formatierungsangaben.
Schriftarten (Fonts) Textauszeichnungen (fett, kursiv, …)
Maßangaben (Seitenränder)
Zusätzliche Inhalte Inhaltsverzeichnis Kopf-/Fußzeilen Bilder
Andere Dokumente Die meisten Dokument-Dateien sind binäre Formate. Ausnahmen: CSV-Dateien für Excel comma separated value
Neue Office-Formate sind XML-Dateien komprimiert im ZIP-Format
Medien-Dateien
Musik
Bilder
Videos
Musik Töne werden linear digitalisiert.
Abtast-Frequenz bei der CD 44,1 kHz Auflösung bei der CD 16-Bit Zahlen
Meistens in komprimierter Form gespeichert.
MP3 entfernt Teile, die der Mensch normalerweise nicht hören kann.
Bilder Bilder werden in Pixeln gespeichert.
Auflösung Fähigkeiten einer Digitalkamera Auflösung in DPI beim Scannen Farbtiefe drei Farbkomponenten: Rot, Grün, Blau jede Komponente in 8 Bit oder 16 Bit
Meistens in komprimierter Form gespeichert. JPG fasst zu Quadraten zusammen und entfernt ähnliche Farben.
Videos Videos sind eine Folge von Bildern
Auflösung
Farbtiefe
Bildrate Bilder pro Sekunde
Meistens in komprimierter Form gespeichert. MPEG ermittelt Unterschiede zwischen aufeinander folgenden Bildern („Verschiebungsvektoren“).
Übliche Dateigrößen Text-Dateien: ca. 2.000 Zeichen pro DIN-A4 Seite Text-Dokumente: ab 5 KB pro DIN-A4 Seite Musik: 1 MB pro Minute (bei MP3 128 kBit/s) Bilder: 1 MB pro 4 Mpixel Auflösung
Speichergrößen
dual und dezimal
Kibibyte
1024 Byte
kB Kilobyte
103 Byte
Mebibyte
1024 KiB z.B. CD-ROM 650 MiB
MB Megabyte
106 Byte
Gibibyte
1024 MiB in Flash-Speichern
GB Gigabyte
109 Byte
Tebibyte
1024 GiB Festplattengrößen, in Speichernetzwerken
TB Terabyte
1012 Byte
Pebibyte
1024 TiB Datenmengen im wissenschaftlichen Bereich, Google u.a.
PB Petabyte
1015 Byte
Fragen ??