Richard Hamming: Kapitel 13. Informationstheorie

Mir ist das passiert!

„Ziel dieses Kurses ist es, Sie auf Ihre technische Zukunft vorzubereiten.“

Richard Hamming: Kapitel 13. InformationstheorieHallo, Habr. Denken Sie an den tollen Artikel „Du und deine Arbeit“ (+219, 2588 Lesezeichen, 429 Lesevorgänge)?

Also Hamming (ja, ja, selbstüberwachend und selbstkorrigierend Hamming-Codes) gibt es ein Ganzes Buch, verfasst auf der Grundlage seiner Vorlesungen. Wir übersetzen es, weil der Mann seine Meinung sagt.

In diesem Buch geht es nicht nur um IT, es ist auch ein Buch über den Denkstil unglaublich cooler Menschen. „Es ist nicht nur eine Förderung des positiven Denkens; es beschreibt die Bedingungen, die die Chancen auf großartige Arbeit erhöhen.“

Vielen Dank an Andrey Pakhomov für die Übersetzung.

Die Informationstheorie wurde Ende der 1940er Jahre von C. E. Shannon entwickelt. Das Management von Bell Labs bestand darauf, es „Kommunikationstheorie“ zu nennen, weil ... das ist ein viel genauerer Name. Aus offensichtlichen Gründen hat der Name „Informationstheorie“ eine viel größere Wirkung auf die Öffentlichkeit, weshalb Shannon ihn gewählt hat, und dieser Name ist uns bis heute bekannt. Der Name selbst deutet darauf hin, dass es sich bei der Theorie um Informationen handelt, was sie wichtig macht, je tiefer wir in das Informationszeitalter vordringen. In diesem Kapitel werde ich auf einige Hauptschlussfolgerungen dieser Theorie eingehen. Ich werde keine strengen, sondern eher intuitive Beweise für einige einzelne Bestimmungen dieser Theorie liefern, damit Sie verstehen, was „Informationstheorie“ eigentlich ist und wo Sie sie anwenden können und wo nicht.

Was sind „Informationen“? Shannon setzt Information mit Unsicherheit gleich. Er wählte den negativen Logarithmus der Wahrscheinlichkeit eines Ereignisses als quantitatives Maß für die Informationen, die man erhält, wenn ein Ereignis mit der Wahrscheinlichkeit p eintritt. Wenn ich Ihnen zum Beispiel sage, dass das Wetter in Los Angeles neblig ist, dann liegt p nahe bei 1, was uns wirklich nicht viele Informationen gibt. Aber wenn ich sage, dass es im Juni in Monterey regnet, wird die Nachricht unsicher sein und mehr Informationen enthalten. Ein zuverlässiges Ereignis enthält keine Informationen, da log 1 = 0.

Schauen wir uns das genauer an. Shannon glaubte, dass das quantitative Informationsmaß eine kontinuierliche Funktion der Wahrscheinlichkeit eines Ereignisses p sein sollte und für unabhängige Ereignisse additiv sein sollte – die Informationsmenge, die als Ergebnis des Auftretens zweier unabhängiger Ereignisse erhalten wird, sollte gleich sein Menge an Informationen, die durch das Eintreten eines gemeinsamen Ereignisses gewonnen wurden. Beispielsweise werden das Ergebnis eines Würfelwurfs und eines Münzwurfs normalerweise als unabhängige Ereignisse behandelt. Übersetzen wir das oben Gesagte in die Sprache der Mathematik. Wenn I (p) die Informationsmenge ist, die in einem Ereignis mit der Wahrscheinlichkeit p enthalten ist, dann erhalten wir für ein gemeinsames Ereignis, das aus zwei unabhängigen Ereignissen x mit der Wahrscheinlichkeit p1 und y mit der Wahrscheinlichkeit p2 besteht

Richard Hamming: Kapitel 13. Informationstheorie
(x und y sind unabhängige Ereignisse)

Dies ist die funktionale Cauchy-Gleichung, die für alle p1 und p2 gilt. Um diese Funktionsgleichung zu lösen, gehen Sie davon aus

p1 = p2 = p,

das gibt

Richard Hamming: Kapitel 13. Informationstheorie

Wenn p1 = p2 und p2 = p dann

Richard Hamming: Kapitel 13. Informationstheorie

usw. Erweitert man diesen Prozess mit der Standardmethode für Exponentialzahlen, gilt für alle rationalen Zahlen m/n Folgendes

Richard Hamming: Kapitel 13. Informationstheorie

Aus der angenommenen Stetigkeit des Informationsmaßes folgt, dass die logarithmische Funktion die einzige stetige Lösung der Cauchy-Funktionsgleichung ist.

In der Informationstheorie ist es üblich, die Logarithmusbasis mit 2 anzunehmen, sodass eine binäre Auswahl genau 1 Bit an Information enthält. Daher werden Informationen anhand der Formel gemessen

Richard Hamming: Kapitel 13. Informationstheorie

Lassen Sie uns innehalten und verstehen, was oben passiert ist. Zunächst einmal haben wir nicht den Begriff „Information“ definiert; wir haben lediglich die Formel für ihr quantitatives Maß definiert.

Zweitens ist dieses Maß mit Unsicherheiten behaftet, und obwohl es für Maschinen – zum Beispiel Telefonsysteme, Radio, Fernsehen, Computer usw. – einigermaßen geeignet ist, spiegelt es nicht die normale menschliche Einstellung zu Informationen wider.

Drittens ist dies ein relatives Maß, es hängt vom aktuellen Stand Ihres Wissens ab. Wenn Sie sich einen Strom von „Zufallszahlen“ aus einem Zufallszahlengenerator ansehen, gehen Sie davon aus, dass jede nächste Zahl unsicher ist. Wenn Sie jedoch die Formel zur Berechnung von „Zufallszahlen“ kennen, ist die nächste Zahl bekannt und daher nicht bekannt Informationen enthalten.

Shannons Definition von Information ist also in vielen Fällen für Maschinen geeignet, scheint aber nicht zum menschlichen Verständnis des Wortes zu passen. Aus diesem Grund hätte „Informationstheorie“ „Kommunikationstheorie“ heißen sollen. Es ist jedoch zu spät, die Definitionen zu ändern (die der Theorie ihre anfängliche Popularität verschafften und die die Leute immer noch denken lassen, dass es in dieser Theorie um „Informationen“ geht), also müssen wir mit ihnen leben, aber gleichzeitig müssen Sie auch damit leben klar verstehen, wie weit Shannons Definition von Information von der allgemein verwendeten Bedeutung entfernt ist. Bei Shannons Informationen geht es um etwas ganz anderes, nämlich um Unsicherheit.

Folgendes sollten Sie bedenken, wenn Sie eine Terminologie vorschlagen. Inwiefern stimmt eine vorgeschlagene Definition, wie etwa Shannons Definition von Information, mit Ihrer ursprünglichen Idee überein und wie unterschiedlich ist sie? Es gibt fast keinen Begriff, der genau Ihre bisherige Vorstellung von einem Konzept widerspiegelt, aber letztendlich ist es die verwendete Terminologie, die die Bedeutung des Konzepts widerspiegelt, sodass die Formalisierung von etwas durch klare Definitionen immer etwas Lärm verursacht.

Betrachten Sie ein System, dessen Alphabet aus Symbolen q mit Wahrscheinlichkeiten pi besteht. In diesem Fall durchschnittliche Menge an Informationen im System (sein erwarteter Wert) ist gleich:

Richard Hamming: Kapitel 13. Informationstheorie

Dies wird als Entropie des Systems mit der Wahrscheinlichkeitsverteilung {pi} bezeichnet. Wir verwenden den Begriff „Entropie“, weil die gleiche mathematische Form in der Thermodynamik und der statistischen Mechanik vorkommt. Deshalb erzeugt der Begriff „Entropie“ eine gewisse Aura von Bedeutung, die letztlich nicht gerechtfertigt ist. Die gleiche mathematische Form der Notation impliziert nicht die gleiche Interpretation der Symbole!

Die Entropie der Wahrscheinlichkeitsverteilung spielt in der Kodierungstheorie eine große Rolle. Die Gibbs-Ungleichung für zwei verschiedene Wahrscheinlichkeitsverteilungen pi und qi ist eine der wichtigen Konsequenzen dieser Theorie. Das müssen wir also beweisen

Richard Hamming: Kapitel 13. Informationstheorie

Der Beweis basiert auf einem offensichtlichen Diagramm, Abb. 13.I, was das zeigt

Richard Hamming: Kapitel 13. Informationstheorie

und Gleichheit wird nur erreicht, wenn x = 1. Wenden wir die Ungleichung auf jeden Term der Summe von der linken Seite an:

Richard Hamming: Kapitel 13. Informationstheorie

Wenn das Alphabet eines Kommunikationssystems aus q Symbolen besteht, dann erhalten wir aus der Gibbs-Ungleichung, wenn wir die Übertragungswahrscheinlichkeit jedes Symbols qi = 1/q nehmen und q einsetzen

Richard Hamming: Kapitel 13. Informationstheorie

Richard Hamming: Kapitel 13. Informationstheorie

Abbildung 13.I

Das heißt, wenn die Wahrscheinlichkeit der Übertragung aller q Symbole gleich und gleich – 1/q ist, dann ist die maximale Entropie gleich ln q, andernfalls gilt die Ungleichung.

Im Fall eines eindeutig dekodierbaren Codes liegt die Kraftsche Ungleichung vor

Richard Hamming: Kapitel 13. Informationstheorie

Wenn wir nun Pseudowahrscheinlichkeiten definieren

Richard Hamming: Kapitel 13. Informationstheorie

wo natürlich Richard Hamming: Kapitel 13. Informationstheorie= 1, was aus der Gibbs’schen Ungleichung folgt,

Richard Hamming: Kapitel 13. Informationstheorie

und wenden wir ein wenig Algebra an (denken Sie daran, dass K ≤ 1 ist, damit wir den logarithmischen Term weglassen und die Ungleichung vielleicht später verstärken können), erhalten wir

Richard Hamming: Kapitel 13. Informationstheorie

wobei L die durchschnittliche Codelänge ist.

Somit ist die Entropie die Mindestgrenze für jeden Zeichen-für-Symbol-Code mit einer durchschnittlichen Codewortlänge L. Dies ist Shannons Theorem für einen störungsfreien Kanal.

Betrachten Sie nun den Hauptsatz über die Grenzen von Kommunikationssystemen, in denen Informationen als Strom unabhängiger Bits übertragen werden und Rauschen vorhanden ist. Es versteht sich, dass die Wahrscheinlichkeit der korrekten Übertragung eines Bits P > 1/2 ist und die Wahrscheinlichkeit, dass der Bitwert während der Übertragung invertiert wird (ein Fehler auftritt), gleich Q = 1 – P ist. Der Einfachheit halber haben wir Gehen Sie davon aus, dass die Fehler unabhängig sind und die Wahrscheinlichkeit eines Fehlers für jedes gesendete Bit gleich ist – das heißt, es liegt „weißes Rauschen“ im Kommunikationskanal vor.

Die Art und Weise, wie wir einen langen Strom von n Bits in einer Nachricht kodieren, ist die n-dimensionale Erweiterung des Ein-Bit-Codes. Den Wert von n werden wir später bestimmen. Betrachten Sie eine aus n Bits bestehende Nachricht als einen Punkt im n-dimensionalen Raum. Da wir einen n-dimensionalen Raum haben – und der Einfachheit halber gehen wir davon aus, dass jede Nachricht die gleiche Wahrscheinlichkeit des Auftretens hat – gibt es M mögliche Nachrichten (M wird auch später definiert), daher beträgt die Wahrscheinlichkeit, dass jede Nachricht gesendet wird

Richard Hamming: Kapitel 13. Informationstheorie

Richard Hamming: Kapitel 13. Informationstheorie
(Absender)
Anhang 13.II

Betrachten Sie als Nächstes die Idee der Kanalkapazität. Ohne auf Details einzugehen, wird die Kanalkapazität als die maximale Informationsmenge definiert, die unter Berücksichtigung der Verwendung der effizientesten Codierung zuverlässig über einen Kommunikationskanal übertragen werden kann. Es gibt kein Argument dafür, dass über einen Kommunikationskanal mehr Informationen übertragen werden können, als er Kapazität hat. Dies lässt sich für einen binärsymmetrischen Kanal (den wir in unserem Fall verwenden) beweisen. Die Kanalkapazität beim Senden von Bits wird angegeben als

Richard Hamming: Kapitel 13. Informationstheorie

Dabei ist P wie zuvor die Wahrscheinlichkeit, dass in keinem gesendeten Bit ein Fehler auftritt. Beim Senden von n unabhängigen Bits ist die Kanalkapazität gegeben durch

Richard Hamming: Kapitel 13. Informationstheorie

Wenn wir uns der Kanalkapazität nähern, müssen wir für jedes der Symbole ai, i = 1, ..., M fast diese Informationsmenge senden. Unter Berücksichtigung der Tatsache, dass die Wahrscheinlichkeit des Auftretens jedes Symbols ai 1 / beträgt M, wir bekommen

Richard Hamming: Kapitel 13. Informationstheorie

Wenn wir eine von M gleichwahrscheinlichen Nachrichten ai senden, haben wir

Richard Hamming: Kapitel 13. Informationstheorie

Wenn n Bits gesendet werden, erwarten wir das Auftreten von nQ Fehlern. In der Praxis werden wir bei einer Nachricht, die aus n Bits besteht, ungefähr nQ Fehler in der empfangenen Nachricht haben. Für große n, relative Variation (Variation = Verteilungsbreite, )
Die Verteilung der Fehleranzahl wird mit zunehmendem n immer enger.

Auf der Senderseite nehme ich also die zu sendende Nachricht ai und zeichne eine Kugel mit einem Radius um sie herum

Richard Hamming: Kapitel 13. Informationstheorie

Dies ist um einen Betrag gleich e2 etwas größer als die erwartete Fehleranzahl Q (Abbildung 13.II). Wenn n groß genug ist, besteht eine beliebig kleine Wahrscheinlichkeit dafür, dass auf der Empfängerseite ein Nachrichtenpunkt bj erscheint, der über diese Sphäre hinausgeht. Skizzieren wir die Situation, wie ich sie aus Sicht des Senders sehe: Wir haben beliebige Radien von der gesendeten Nachricht ai zur empfangenen Nachricht bj mit einer Fehlerwahrscheinlichkeit gleich (oder fast gleich) der Normalverteilung, die ein Maximum erreicht in nQ. Für jedes gegebene e2 gibt es ein n, das so groß ist, dass die Wahrscheinlichkeit, dass der resultierende Punkt bj außerhalb meiner Sphäre liegt, so gering ist, wie Sie möchten.

Schauen wir uns nun die gleiche Situation von Ihrer Seite an (Abb. 13.III). Auf der Empfängerseite gibt es eine Kugel S(r) mit dem gleichen Radius r um den empfangenen Punkt bj im n-dimensionalen Raum, so dass, wenn die empfangene Nachricht bj in meiner Kugel liegt, die von mir gesendete Nachricht ai in deiner liegt Kugel.

Wie kann ein Fehler auftreten? Der Fehler kann in den in der folgenden Tabelle beschriebenen Fällen auftreten:

Richard Hamming: Kapitel 13. Informationstheorie

Abbildung 13.III

Richard Hamming: Kapitel 13. Informationstheorie

Hier sehen wir, dass, wenn in der um den empfangenen Punkt aufgebauten Kugel mindestens ein weiterer Punkt vorhanden ist, der einer möglicherweise gesendeten unverschlüsselten Nachricht entspricht, bei der Übertragung ein Fehler aufgetreten ist, da nicht festgestellt werden kann, welche dieser Nachrichten übertragen wurde. Die gesendete Nachricht ist nur dann fehlerfrei, wenn der ihr entsprechende Punkt in der Kugel liegt und im angegebenen Code keine anderen Punkte möglich sind, die in derselben Kugel liegen.

Wir haben eine mathematische Gleichung für die Fehlerwahrscheinlichkeit Pe, wenn die Nachricht ai gesendet wurde

Richard Hamming: Kapitel 13. Informationstheorie

Wir können den ersten Faktor im zweiten Term weglassen und ihn als 1 annehmen. Somit erhalten wir die Ungleichung

Richard Hamming: Kapitel 13. Informationstheorie

Offensichtlich ist der

Richard Hamming: Kapitel 13. Informationstheorie

следователно

Richard Hamming: Kapitel 13. Informationstheorie

Bewerben Sie sich erneut für das letzte Semester rechts

Richard Hamming: Kapitel 13. Informationstheorie

Wenn n groß genug ist, kann der erste Term beliebig klein gewählt werden, beispielsweise kleiner als eine bestimmte Zahl d. Deshalb haben wir

Richard Hamming: Kapitel 13. Informationstheorie

Schauen wir uns nun an, wie wir einen einfachen Substitutionscode konstruieren können, um M Nachrichten bestehend aus n Bits zu kodieren. Da Shannon keine Ahnung hatte, wie man einen Code genau erstellt (Fehlerkorrekturcodes waren noch nicht erfunden worden), entschied er sich für die Zufallscodierung. Wirf für jedes der n Bits in der Nachricht eine Münze und wiederhole den Vorgang für M Nachrichten. Insgesamt müssen nM Münzwürfe gemacht werden, also ist es möglich

Richard Hamming: Kapitel 13. Informationstheorie

Codewörterbücher mit der gleichen Wahrscheinlichkeit ½nM. Natürlich bedeutet der zufällige Prozess der Erstellung eines Codebuchs, dass die Möglichkeit von Duplikaten sowie von Codepunkten besteht, die nahe beieinander liegen und daher eine Quelle wahrscheinlicher Fehler darstellen. Man muss beweisen, dass das gegebene n groß genug ist, wenn dies nicht mit einer Wahrscheinlichkeit geschieht, die größer als ein kleiner gewählter Fehlerpegel ist.
Der entscheidende Punkt ist, dass Shannon alle möglichen Codebücher gemittelt hat, um den durchschnittlichen Fehler zu ermitteln! Wir verwenden das Symbol Av[.], um den Durchschnittswert über die Menge aller möglichen Zufallscodebücher zu bezeichnen. Die Mittelung über eine Konstante d ergibt natürlich eine Konstante, da bei der Mittelung jeder Term derselbe ist wie jeder andere Term in der Summe,

Richard Hamming: Kapitel 13. Informationstheorie

was erhöht werden kann (M–1 geht zu M)

Richard Hamming: Kapitel 13. Informationstheorie

Für jede bestimmte Nachricht durchläuft die Codierung bei der Mittelung über alle Codebücher alle möglichen Werte, sodass die durchschnittliche Wahrscheinlichkeit, dass sich ein Punkt in einer Kugel befindet, das Verhältnis des Volumens der Kugel zum Gesamtvolumen des Raums ist. Das Volumen der Kugel beträgt

Richard Hamming: Kapitel 13. Informationstheorie

wobei s=Q+e2 <1/2 und ns eine ganze Zahl sein muss.

Der letzte Term rechts ist der größte in dieser Summe. Schätzen wir zunächst seinen Wert mithilfe der Stirling-Formel für Fakultäten. Wir werden uns dann den abnehmenden Faktor des Termes davor ansehen. Beachten Sie, dass dieser Faktor zunimmt, wenn wir uns nach links bewegen, und so können wir: (1) den Wert der Summe auf die Summe der geometrischen Progression mit beschränken (2) Erweitern Sie die geometrische Folge von ns Termen auf eine unendliche Anzahl von Termen, (3) berechnen Sie die Summe einer unendlichen geometrischen Folge (Standardalgebra, nichts Signifikantes) und erhalten Sie schließlich den Grenzwert (für einen ausreichend großen). N):

Richard Hamming: Kapitel 13. Informationstheorie

Beachten Sie, wie die Entropie H(s) in der Binomialidentität erschien. Beachten Sie, dass die Taylor-Reihenentwicklung H(s)=H(Q+e2) eine Schätzung ergibt, die nur unter Berücksichtigung der ersten Ableitung und unter Vernachlässigung aller anderen erhalten wird. Lassen Sie uns nun den endgültigen Ausdruck zusammenstellen:

Richard Hamming: Kapitel 13. Informationstheorie

wo

Richard Hamming: Kapitel 13. Informationstheorie

Alles was wir tun müssen, ist e2 so zu wählen, dass e3 < e1, und dann wird der letzte Term beliebig klein sein, solange n groß genug ist. Folglich kann der durchschnittliche PE-Fehler so klein wie gewünscht erzielt werden, wobei die Kanalkapazität beliebig nahe bei C liegt.
Wenn der Durchschnitt aller Codes einen ausreichend kleinen Fehler aufweist, muss mindestens ein Code geeignet sein, es gibt also mindestens ein geeignetes Codierungssystem. Dies ist ein wichtiges Ergebnis von Shannon – „Shannons Theorem für einen verrauschten Kanal“, obwohl zu beachten ist, dass er dies für einen viel allgemeineren Fall als für den einfachen binären symmetrischen Kanal, den ich verwendet habe, bewiesen hat. Für den allgemeinen Fall sind die mathematischen Berechnungen viel komplizierter, aber die Ideen sind nicht so unterschiedlich, sodass Sie sehr oft anhand des Beispiels eines bestimmten Falls die wahre Bedeutung des Satzes enthüllen können.

Lassen Sie uns das Ergebnis kritisieren. Wir haben immer wieder gesagt: „Für ausreichend großes n.“ Aber wie groß ist n? Sehr, sehr groß, wenn Sie wirklich nah an der Kanalkapazität sein und gleichzeitig auf die korrekte Datenübertragung achten möchten! So groß, dass Sie sehr lange warten müssen, um eine Nachricht mit genügend Bits anzusammeln, um sie später zu kodieren. In diesem Fall wird die Größe des Zufallscode-Wörterbuchs einfach riesig sein (schließlich kann ein solches Wörterbuch nicht in einer kürzeren Form als einer vollständigen Liste aller Mn Bits dargestellt werden, obwohl n und M sehr groß sind)!

Fehlerkorrigierende Codes vermeiden das Warten auf eine sehr lange Nachricht und das anschließende Codieren und Decodieren dieser über sehr große Codebücher, da sie Codebücher selbst vermeiden und stattdessen normale Berechnungen verwenden. In der einfachen Theorie neigen solche Codes dazu, die Fähigkeit zu verlieren, sich der Kanalkapazität zu nähern und dennoch eine niedrige Fehlerrate beizubehalten. Wenn der Code jedoch eine große Anzahl von Fehlern korrigiert, funktionieren sie gut. Mit anderen Worten: Wenn Sie der Fehlerkorrektur eine gewisse Kanalkapazität zuweisen, müssen Sie die Fehlerkorrekturfunktion die meiste Zeit nutzen, d. h. in jeder gesendeten Nachricht muss eine große Anzahl von Fehlern korrigiert werden, andernfalls wird diese Kapazität verschwendet.

Gleichzeitig ist der oben bewiesene Satz immer noch nicht bedeutungslos! Es zeigt, dass effiziente Übertragungssysteme für sehr lange Bitfolgen clevere Kodierungsschemata verwenden müssen. Ein Beispiel sind Satelliten, die über die äußeren Planeten hinausgeflogen sind; Während sie sich von der Erde und der Sonne entfernen, müssen sie immer mehr Fehler im Datenblock korrigieren: Einige Satelliten verwenden Solarpaneele, die etwa 5 W liefern, andere nutzen Kernenergiequellen, die etwa die gleiche Leistung liefern. Die geringe Leistung der Stromversorgung, die geringe Größe der Senderschüsseln und die begrenzte Größe der Empfängerschüsseln auf der Erde, die enorme Entfernung, die das Signal zurücklegen muss – all dies erfordert die Verwendung von Codes mit einem hohen Maß an Fehlerkorrektur, um eine zu erstellen effektives Kommunikationssystem.

Kehren wir zum n-dimensionalen Raum zurück, den wir im obigen Beweis verwendet haben. Bei der Diskussion haben wir gezeigt, dass fast das gesamte Volumen der Kugel in der Nähe der Außenoberfläche konzentriert ist – daher ist es fast sicher, dass sich das gesendete Signal in der Nähe der Oberfläche der Kugel befindet, die um das empfangene Signal herum aufgebaut ist, selbst bei relativer Entfernung kleiner Radius einer solchen Kugel. Daher ist es nicht verwunderlich, dass das empfangene Signal nach der Korrektur einer beliebig großen Anzahl von Fehlern, nQ, einem Signal ohne Fehler beliebig nahe kommt. Die zuvor diskutierte Verbindungskapazität ist der Schlüssel zum Verständnis dieses Phänomens. Beachten Sie, dass ähnliche Kugeln, die für fehlerkorrigierende Hamming-Codes konstruiert wurden, einander nicht überlappen. Die große Anzahl nahezu orthogonaler Dimensionen im n-dimensionalen Raum zeigt, warum wir M Kugeln mit geringer Überlappung im Raum unterbringen können. Wenn wir eine kleine, beliebig kleine Überlappung zulassen, die nur zu wenigen Fehlern bei der Dekodierung führen kann, können wir eine dichte Anordnung der Kugeln im Raum erreichen. Hamming garantierte ein gewisses Maß an Fehlerkorrektur, Shannon – eine geringe Fehlerwahrscheinlichkeit, hielt aber gleichzeitig den tatsächlichen Durchsatz beliebig nahe an der Kapazität des Kommunikationskanals, was Hamming-Codes nicht können.

Die Informationstheorie sagt uns nicht, wie man ein effizientes System entwirft, aber sie weist den Weg zu effizienten Kommunikationssystemen. Es ist ein wertvolles Werkzeug für den Aufbau von Maschine-zu-Maschine-Kommunikationssystemen, hat aber, wie bereits erwähnt, wenig Relevanz für die Art und Weise, wie Menschen miteinander kommunizieren. Inwieweit die biologische Vererbung technischen Kommunikationssystemen ähnelt, ist einfach unbekannt, daher ist derzeit nicht klar, wie sich die Informationstheorie auf Gene anwenden lässt. Wir haben keine andere Wahl, als es zu versuchen, und wenn der Erfolg uns die maschinelle Natur dieses Phänomens zeigt, dann wird der Misserfolg auf andere wichtige Aspekte der Natur der Information hinweisen.

Lassen Sie uns nicht zu sehr abschweifen. Wir haben gesehen, dass alle ursprünglichen Definitionen mehr oder weniger die Essenz unserer ursprünglichen Überzeugungen zum Ausdruck bringen müssen, sie jedoch durch ein gewisses Maß an Verzerrung gekennzeichnet sind und daher nicht anwendbar sind. Traditionell wird davon ausgegangen, dass die Definition, die wir verwenden, letztendlich tatsächlich das Wesentliche definiert; Dies sagt uns jedoch nur, wie wir Dinge verarbeiten sollen, und vermittelt uns in keiner Weise eine Bedeutung. Der in mathematischen Kreisen so stark favorisierte postulative Ansatz lässt in der Praxis viel zu wünschen übrig.

Nun schauen wir uns ein Beispiel für IQ-Tests an, bei dem die Definition so zirkulär ist, wie Sie es gerne hätten, und daher irreführend. Es entsteht ein Test, der die Intelligenz messen soll. Anschließend wird es überarbeitet, um es so konsistent wie möglich zu machen, und dann wird es veröffentlicht und mit einer einfachen Methode kalibriert, sodass sich herausstellt, dass die gemessene „Intelligenz“ normalverteilt ist (natürlich auf einer Kalibrierungskurve). Alle Definitionen müssen erneut überprüft werden, nicht nur, wenn sie zum ersten Mal vorgeschlagen werden, sondern auch viel später, wenn sie in den Schlussfolgerungen verwendet werden. Inwieweit sind die Definitionsgrenzen für das zu lösende Problem angemessen? Wie oft werden Definitionen, die in einer Situation gegeben wurden, in ganz anderen Situationen angewendet? Das passiert ziemlich oft! In den Geisteswissenschaften, denen Sie in Ihrem Leben unweigerlich begegnen werden, kommt dies häufiger vor.

Daher bestand einer der Zwecke dieser Darstellung der Informationstheorie neben der Demonstration ihrer Nützlichkeit darin, Sie vor dieser Gefahr zu warnen oder Ihnen genau zu zeigen, wie Sie sie nutzen können, um das gewünschte Ergebnis zu erzielen. Es ist seit langem bekannt, dass anfängliche Definitionen viel stärker bestimmen, was Sie am Ende vorfinden, als es scheint. Erste Definitionen erfordern viel Aufmerksamkeit von Ihnen, nicht nur in jeder neuen Situation, sondern auch in Bereichen, mit denen Sie schon lange arbeiten. Dadurch können Sie verstehen, inwieweit es sich bei den erhaltenen Ergebnissen um eine Tautologie und nicht um etwas Nützliches handelt.

Die berühmte Geschichte von Eddington erzählt von Menschen, die mit einem Netz im Meer fischten. Nachdem sie die Größe der gefangenen Fische untersucht hatten, ermittelten sie die Mindestgröße der im Meer vorkommenden Fische! Ihre Schlussfolgerung beruhte auf dem verwendeten Instrument, nicht auf der Realität.

To be continued ...

Wer bei der Übersetzung, dem Layout und der Veröffentlichung des Buches helfen möchte, schreibt uns eine persönliche Nachricht oder eine E-Mail [E-Mail geschützt]

Übrigens haben wir auch die Übersetzung eines weiteren coolen Buches gestartet – „Die Traummaschine: Die Geschichte der Computerrevolution“)

Wir suchen besonders diejenigen, die beim Übersetzen helfen Bonuskapitel, das nur auf Video verfügbar ist. (Transfer für 10 Minuten, die ersten 20 sind bereits vergeben)

Inhalt des Buches und übersetzte KapitelVorwort

  1. Einführung in die Kunst, Wissenschaft und Technik zu betreiben: Lernen lernen (28. März 1995) Übersetzung: Kapitel 1
  2. „Grundlagen der digitalen (diskreten) Revolution“ (30. März 1995) Kapitel 2. Grundlagen der digitalen (diskreten) Revolution
  3. „Geschichte der Computer – Hardware“ (31. März 1995) Kapitel 3. Geschichte der Computer – Hardware
  4. „Geschichte der Computer – Software“ (4. April 1995) Kapitel 4. Geschichte der Computer – Software
  5. „Geschichte der Computer – Anwendungen“ (6. April 1995) Kapitel 5: Geschichte der Computer – Praktische Anwendungen
  6. „Künstliche Intelligenz – Teil I“ (7. April 1995) Kapitel 6. Künstliche Intelligenz – 1
  7. „Künstliche Intelligenz – Teil II“ (11. April 1995) Kapitel 7. Künstliche Intelligenz – II
  8. „Künstliche Intelligenz III“ (13. April 1995) Kapitel 8. Künstliche Intelligenz-III
  9. „n-dimensionaler Raum“ (14. April 1995) Kapitel 9. N-dimensionaler Raum
  10. „Codierungstheorie – Die Darstellung von Informationen, Teil I“ (18. April 1995) Kapitel 10. Codierungstheorie – I
  11. „Codierungstheorie – Die Darstellung von Informationen, Teil II“ (20. April 1995) Kapitel 11. Codierungstheorie – II
  12. „Fehlerkorrigierende Codes“ (21. April 1995) Kapitel 12. Fehlerkorrekturcodes
  13. „Informationstheorie“ (25. April 1995) Kapitel 13. Informationstheorie
  14. „Digitale Filter, Teil I“ (27. April 1995) Kapitel 14. Digitale Filter – 1
  15. „Digitale Filter, Teil II“ (28. April 1995) Kapitel 15. Digitale Filter – 2
  16. „Digitale Filter, Teil III“ (2. Mai 1995) Kapitel 16. Digitale Filter – 3
  17. „Digitale Filter, Teil IV“ (4. Mai 1995) Kapitel 17. Digitale Filter – IV
  18. „Simulation, Teil I“ (5. Mai 1995) Kapitel 18. Modellierung - I
  19. „Simulation, Teil II“ (9. Mai 1995) Kapitel 19. Modellierung - II
  20. „Simulation, Teil III“ (11. Mai 1995) Kapitel 20. Modellierung - III
  21. „Faseroptik“ (12. Mai 1995) Kapitel 21. Glasfaser
  22. „Computergestützter Unterricht“ (16. Mai 1995) Kapitel 22: Computergestützter Unterricht (CAI)
  23. „Mathematik“ (18. Mai 1995) Kapitel 23. Mathematik
  24. „Quantenmechanik“ (19. Mai 1995) Kapitel 24. Quantenmechanik
  25. „Kreativität“ (23. Mai 1995). Übersetzung: Kapitel 25. Kreativität
  26. „Experten“ (25. Mai 1995) Kapitel 26. Experten
  27. „Unzuverlässige Daten“ (26. Mai 1995) Kapitel 27. Unzuverlässige Daten
  28. „Systems Engineering“ (30. Mai 1995) Kapitel 28. Systemtechnik
  29. „Man bekommt, was man misst“ (1. Juni 1995) Kapitel 29: Sie bekommen, was Sie messen
  30. „Woher wissen wir, was wir wissen?“ (Juni 2, 1995) in 10-Minuten-Blöcken übersetzen
  31. Hamming, „You and Your Research“ (6. Juni 1995). Übersetzung: Du und deine Arbeit

Wer bei der Übersetzung, dem Layout und der Veröffentlichung des Buches helfen möchte, schreibt uns eine persönliche Nachricht oder eine E-Mail [E-Mail geschützt]

Source: habr.com

Kommentar hinzufügen