Otros enlaces:
|
En este artículo
- Claude Shannon y la Teoría de la Información Clásica
- Fuentes de Información
- Información, Entropía e Incertidumbre
- Entropía Condicional y Conjunta
- Implicaciones para la Comunicación
- Información y Ruido
- Entropía de Shannon vs. Entropía Termodinámica
- Enlaces
Claude Shannon y la Teoría de la Información Clásica[Inicio]
La comunicación digital moderna depende de la Teoría de la Información, que fue inventada en la década de 1940 por Claude E. Shannon. Shannon publicó por primera vez A Mathematical Theory of Communication en 1947-1948, y publicó conjuntamente The Mathematical Theory of Communciation con Warren Weaver en 1949. Ese texto sigue en publicación por la University of Illinois Press. La Teoría de la Información, a veces referida como Teoría de la Información Clásica en oposición a Teoría de la Información Algorítmica, proporciona un modelo matemático para la comunicación. Aunque Shannon se preocupó principalmente por el problema de las comunicaciones electrónicas, la teoría tiene una aplicabilidad mucho más amplia. La comunicación ocurre siempre que las cosas se copian o se mueven de un lugar y/o tiempo a otro.
Este artículo describe brevemente los conceptos principales de la teoría de Shannon. Las demostraciones matemáticas están fácilmente disponibles en muchas fuentes, incluidos los enlaces de Internet en esta página. Aunque la teoría de Shannon abarca tanto la comunicación digital como la analógica, se ignorará la comunicación analógica por simplicidad. Por otro lado, la Teoría de la Información es un tema bastante técnico, generalmente introducido a estudiantes universitarios de tercer año de ingeniería. Comprenderla realmente requiere conocimientos de estadística y cálculo.
Para aquellos que se preguntan cómo una teoría sobre la comunicación puede relacionarse con la evolución biológica, una visita al sitio web de Tom Schneider, Teoría de la Información Molecular y la Teoría de las Máquinas Moleculares, puede ser de ayuda. De todos modos, los creacionistas ahora disfrutan argumentando sobre la información, y este artículo proporciona material de fondo útil sobre el tema.
Fuentes de información[Inicio]
Una fuentes de información es un sistema que emite desde un conjunto fijo de M símbolos {a1..aM} en una secuencia a cierta tasa (ver Fig.1). En el caso más simple, cada símbolo que podría emitirse desde el sistema es igualmente probable. La letra i representará algún símbolo de salida dado desde el conjunto {a1..aM}. Si todos los símbolos son igualmente probables, entonces la probabilidad de que el símbolo i sea el uno producido es pi=P=1/M sin importar qué símbolo tengamos en mente. Por ejemplo, si la fuente de información puede producir cuatro símbolos igualmente probables (A, B, C y D), entonces cada símbolo tiene una probabilidad de .25 (es decir, 25% o 1/4).
![]() |
Un observador está incierto sobre cuál de los símbolos M se emitirá. Una vez que se observa un símbolo dado ai, el observador ha obtenido información de la fuente. La incertidumbre del observador se reduce. La cantidad de información obtenida puede medirse porque se conoce el número de símbolos posibles. Por definición, la medida de la información I observada del sistema se da por:
I = log2 M=-log2P,
y la unidad de medida son dígitos binarios, o bits. La unidad de medida depende de la base del logaritmo. La mayoría de las veces, la Teoría de la Información utiliza el logaritmo de base 2 (log2). Cualquier otra base de logaritmo funcionaría. Si utilizáramos la base 10, entonces la unidad de medida sería dígitos decimales.
Si un sistema puede emitir cualquiera de 16 símbolos posibles, por cada símbolo observado el observador recibe 4 bits de información. Es decir, reduce la incertidumbre del observador en 4 bits (véase Fig.2). El uso de un logaritmo para medir la información se debe a Ralph V.L. Hartley, cuyo artículo de 1928 es citado por Shannon.
![]() |
Es fácil ver la utilidad de esta definición. Cuando una fuente de información capaz de producir cualquiera de los 128 símbolos básicos ASCII, todos igualmente probables, genera un símbolo, el observador obtiene 7 bits de información, exactamente el número de bits utilizado para codificar el conjunto básico de símbolos ASCII. (ASCII significa American Standard Code for Information Interchange, en uso durante muchos años en máquinas de teletipo y ordenadores. Por supuesto, una fuente de información ASCII real no produce 128 símbolos igualmente probables, pero por simplicidad, pretendemos que lo hace ahora).
![]() |
Shannon describe un sistema de comunicación como una fuentes de información, transmisor, canal, receptor y destino (véase Fig. 3). El destino es nuestro observador. Un requisito básico para un sistema de comunicación es que, con alta fiabilidad, el símbolo en la fuente de información y el símbolo en el destino coincidan. Shannon tuvo una clave insight sobre esto: no importa si el símbolo significa algo. Solo importa si el símbolo en la fuente de información y el destino son los mismos. Fue este insight, el significado debe ser ignorado, lo que permitió a Shannon crear un modelo matemático viable para la información.
A continuación, considere que los símbolos emitidos por una fuente de información pueden no ser igualmente probables. Supongamos que los símbolos {a1..aM} ocurren con probabilidades p1..pM. Dado que {a1..aM} son todos los símbolos posibles, la suma de las probabilidades pi para todos los i es 1. Debido a que el observador no sabe cuál será el siguiente símbolo en la secuencia de salida, la fuente de información se trata como un proceso estocástico. Es decir, asumimos que los símbolos emitidos son aleatorios, ocurriendo con las probabilidades dadas.
Un ejemplo sencillo de un proceso estocástico es una persona lanzando una moneda una y otra vez (ver Fig.4). Los resultados son a veces caras y a veces cruces, pero no podemos predecir los resultados para ningún lanzamiento específico de la moneda. Asumimos, por supuesto, que la moneda es una moneda justa, que tiene un 50% de probabilidad de caras y un 50% de probabilidad de cruces cuando se lanza. Si registráramos la secuencia de lanzamientos de la moneda, podría verse así HHTHTHHTHTTTTHTHHT...
![]() |
El siguiente concepto necesario es una máquina de estados finitos. Se trata de un tipo de máquina que tiene un número finito de condiciones o estados en los que puede encontrarse en cualquier momento dado. Un interruptor de luz, por ejemplo, tiene dos estados: ENCENDIDO y APAGADO. Una máquina de estados finitos no necesita existir físicamente. Podría ser simplemente un modelo matemático en papel o en una computadora. El estado de la máquina puede registrarse con el paso del tiempo, produciendo una secuencia similar a la de lanzar una moneda. Si registráramos la posición de un interruptor de luz en el dormitorio de un niño hiperactivo cada 15 minutos, podría incluso parecer bastante aleatorio, como ENCENDIDO - ENCENDIDO - APAGADO - ENCENDIDO - APAGADO - ENCENDIDO - ENCENDIDO - APAGADO - ENCENDIDO - APAGADO - APAGADO - APAGADO - APAGADO - ENCENDIDO - APAGADO - ENCENDIDO - ENCENDIDO - APAGADO..., tal como lanzar una moneda.
Ahora podemos modelar una fuente de información como un tipo de máquina de estados aleatoria, saltando de estado en estado, con cada estado correspondiente al siguiente símbolo de salida. Todavía podemos dar la información recibida al observar el símbolo i en términos de su probabilidad:
Ii=-log2pi
Pensando en la fuente de información de esta manera, es razonable suponer que la probabilidad de su próximo estado dependerá de su estado actual. Por ejemplo, un interruptor de luz en el dormitorio de un octogenario sedentario probablemente no cambiaría mucho en intervalos de 15 minutos: ENCENDIDO - ENCENDIDO - ENCENDIDO - ENCENDIDO - ENCENDIDO - ENCENDIDO - APAGADO - APAGADO - APAGADO - APAGADO...
Consideremos un único cambio de estado. Nuestra máquina de estados podría cambiar del estado i al estado j. Ese cambio de estado tiene una cierta probabilidad. Podemos describir la probabilidad de que j siga a i como p(j|i). La notación p(j|i) se lee en voz alta como "la probabilidad de j dado i". Si usted lee el artículo de Shannon, note que utiliza una notación menos convencional pi(j) en lugar de p(j|i).
Para mantener las cosas sencillas, no vamos a permitir que nuestra máquina de estados recuerde en qué estado estaba anteriormente. Solo sabe en qué estado se encuentra ahora. Eso significa que la probabilidad de su próximo estado solo puede depender del estado actual. No puede depender de cómo la máquina llegó al estado actual. Si luego miramos todas las posibles transiciones de estado para la máquina, podemos anotar el conjunto de probabilidades de transición de estado. Para cada símbolo i, la suma de todos los p(j|i) sobre j es 1. El conjunto de probabilidades de transición de estado para nuestro interruptor de luz es:
{ p(ON|ON), p(ON |OFF), p(OFF|ON), p(OFF|OFF) }
Es fácil ver que p(ON|ON) + p(OFF|ON) = 1, y también que p(ON|OFF) + p(OFF|OFF) = 1.
Un proceso estocástico de este tipo, donde la distribución de probabilidad del siguiente estado depende del estado actual pero de nada anterior, se llama proceso de Markov discreto. Shannon representa las fuentes de información como procesos de Markov discretos. Es decir, se asume que la fuente de información es un proceso aleatorio que genera una secuencia de símbolos a partir de un conjunto fijo de símbolos, donde la probabilidad de cada nuevo símbolo depende únicamente del símbolo precedente. La máquina de estados no puede recordar nada anterior a eso.
Un proceso ergódico es una clase especial de proceso de Markov. Para un proceso ergódico, todas las secuencias que puede producir son iguales en sus propiedades estadísticas. Si la fuente de información es ergódica, entonces la probabilidad de que el símbolo j ocurra después de N símbolos, Pj(N), converge a un valor de equilibrio con N cada vez más grande. Shannon hace una suposición general de que las fuentes de información son procesos ergódicos.
Información, Entropía e Incertidumbre[Inicio]
Recuerde que el observador comienza completamente incierto sobre qué secuencia de símbolos se emitirá desde la fuente de información. A medida que cada símbolo se observa, la incertidumbre disminuye. Podemos representar la fuente de información como una variable aleatoria, ya que su estado podría coincidir con cualquier valor en el conjunto de símbolos, y la llamaremos X tal como lo hace Shannon. La variable aleatoria X puede producir cualquiera de los M símbolos {a1..aM}. Cada uno de estos símbolos tiene una probabilidad p1 .. pM, y esas probabilidades deben sumar todas 1.
La información recibida desde X cuando produce un símbolo i es
IX=-log2pi
La entropía de X se define por su información promedio:
H(X) = E{IX}=-∑ i(pilog2p i)
La notación E{IX} denota el valor esperado de IX, que es un término más específico en estadística que “promedio”. La entropía también puede llamarse incertidumbre promedio (estrictamente hablando, la reducción promedio de incertidumbre para un receptor).
¿Por qué se define la entropía de la información como esta suma ponderada de probabilidades? Principalmente porque las probabilidades asociadas con los símbolos no son, en general, iguales. Consideremos las 26 letras del alfabeto inglés. Como señaló Shannon, la letra "E" ocurre con más frecuencia que la "Q", la secuencia "TH" más que la "XP", etc. Al definir la entropía como la información promedio, nos dirá algo sobre qué tan completamente se está utilizando un canal de comunicación.
La función de entropía H(X) es máxima cuando pi=1/M para todos i. Esto tiene sentido intuitivo, porque la incertidumbre es mayor cuando todos los resultados son igualmente probables. Por otro lado, si una fuente de información produce el símbolo a1 con probabilidad .999 y diez otros símbolos a2..a11 cada uno con probabilidad .0001, estamos casi seguros de que el próximo símbolo será a1.
![]() |
Considere una fuente de información binaria capaz de producir símbolos 0 y 1. Su entropía como función de la probabilidad p1 del símbolo 1 se muestra en Fig.5. (Recuerde que p0=1-p1 porque solo están permitidos dos símbolos y sus probabilidades deben sumar 1). Observe que la entropía alcanza un máximo de 1 cuando p1=p0=1/2. Cuando ambos símbolos son igualmente probables, el observador está más incierto. La secuencia de caras o cruces de múltiples lanzamientos de una moneda justa, por ejemplo, tiene entropía máxima. Por otro lado, si la fuente de información siempre produjera el símbolo 1 con probabilidad p1=1, la entropía y la incertidumbre del observador serían cero. Si la fuente de información nunca produjera el símbolo 1 sino que siempre produjera el símbolo 0, la entropía y la incertidumbre del observador serían también cero. No se gana información al observar un evento conocido por no cambiar nunca.
Entropía Condicional y Conjunta[Inicio]
Si X y Y son variables aleatorias que representan, respectivamente, la entrada y la salida de un canal, entonces la entropía condicional (es decir, la incertidumbre promedio del símbolo recibido dado que X fue transmitido) es:
H(Y|X)=-∑i,j p(xi,yj)log2 p(yj|xi),
la entropía conjunta (que significa la incertidumbre promedio del sistema de información total) es:
H(X,Y)=-∑i,j p(xi,yj)log2 p(xi,yj),
y la entropía de ambigüedad (es decir, la incertidumbre promedio del símbolo transmitido después de recibir un símbolo) es:
H(X|Y)=-∑i,j p(xi,yj)log2 p(xi|yj).
La notación p(A,B) significa la probabilidad de que A y B ocurran ambos, mientras que p(A|B) significa la probabilidad de que A ocurra dado que B ha ocurrido.
Una relación importante es:
H(X,Y)=H(X|Y)+ H(Y)=H(Y|X)+H( X).
Implicaciones para la comunicación[Inicio]
Shannon demostró que, para un canal con capacidad C y una fuente de información con entropía H, es posible transmitir la salida codificada de la fuente de información a través del canal a una tasa promedio de hasta (C/H) -e, donde e es un número arbitrariamente pequeño. No es posible transmitir a una tasa promedio que exceda C/H.
Shannon y R.M. Fano desarrollaron independientemente un método de codificación eficiente, conocido como la técnica de Shannon-Fano, en el que la longitud de la palabra de código aumenta con la disminución de la probabilidad del símbolo de la fuente o de la palabra de la fuente. La idea básica es que los símbolos utilizados con frecuencia (como la letra E) deben codificarse más cortos que los símbolos utilizados con poca frecuencia (como la letra Z) para aprovechar al máximo el canal, a diferencia de la codificación ASCII donde tanto la E como la Z requieren los mismos siete bits.
Si la comunicación ocurre con entrada X y salida Y, la capacidad de un canal es:
C = Max ( H(X) - H(X | Y) )
La función Max(H) significa el valor máximo de H. Para un canal sin ruido, H(X|Y)=0. Dado que H(X) es máxima cuando todos los M símbolos posibles para X son igualmente probables, C=log2M, o C=I(X).
Shannon también proporcionó la base matemática para la transmisión en un canal con ruido (véase Fig.6). Un canal ruidoso puede verse como conectado a dos procesos estocásticos: la fuente de información y la fuente de ruido.
![]() |
Si X es la fuente de información y Y es la información recibida, entonces al utilizar un nuevo canal (un canal de corrección) con capacidad igual a la entropía condicional H(Y|X), es posible codificar los datos de corrección de tal manera que se puedan corregir todos los errores excepto una fracción arbitrariamente pequeña e de ellos (véase Fig.7). Si la entropía de la fuente de información H ≤C, entonces la fuente de información puede transmitirse con una tasa de error arbitrariamente pequeña. Si H>C, entonces no es posible ningún método de codificación tal que la ambigüedad sea menor que H-C.
![]() |
Hay muchos ejemplos en la literatura de códigos de corrección de errores. Algunos de los más conocidos son los códigos de Hamming, Reed-Solomon, Viterbi y Fire.
Información y Ruido [Inicio]
Un punto importante a tener en cuenta es que tanto la fuente de información como la fuente de ruido en Fig. 6 y Fig. 7 son procesos estocásticos. Ambas podrían tratarse como fuentes de información. La principal diferencia entre ellas es que el receptor está interesado en la fuente de información y desea ignorar la fuente de ruido.
En algunas situaciones, una fuente de ruido se observa intencionalmente, en cuyo caso se convierte en una fuente de información. Por otro lado, a veces la información se copia sin intención de un canal a otro. Esto se llama interferencia cruzada, y su resultado es que la fuente de información poco interesante de otra persona se considera ruido.
Cuando los científicos miden la radiación de fondo cósmico para estudiarla, es información. La interferencia en un sistema de comunicación proveniente de la radiación de fondo cósmico es ruido. Los datos de elevación del terreno pueden considerarse aleatorios. Si los registras para elaborar un mapa topográfico, es información. Si deseas medir el diámetro de un planeta, es ruido. Este concepto, de que la información de una persona es el ruido de otra y viceversa, se malinterpreta comúnmente en las discusiones laicas sobre la Teoría de la Información. Para reiterar, es el interés del observador lo que convierte un proceso estocástico en una fuente de información.
Algunos creacionistas argumentarán que el ruido degrada la información de la misma manera que la Segunda Ley de la Termodinámica degrada el orden, e implicarán que la Segunda Ley se aplica a la información. Pero para la definición de información de Shannon, ya que no nos importa el significado, y ya que la diferencia entre información y ruido depende únicamente de nuestro interés, este argumento no tiene fundamento. Convertimos el ruido en información simplemente decidiendo interesarnos por él, y la información en ruido eligiendo ignorarla. Además, el orden termodinámico se refiere a la disposición de moléculas y objetos similares, no a símbolos matemáticos, por lo que su argumento es doblemente incorrecto. Los símbolos de información son abstracciones matemáticas y no necesitan comportarse como ningún sistema físico particular (como una colección de moléculas), como se verá en la siguiente sección.
Algunos creacionistas también argumentan a favor de una Ley de Conservación de la Información, similar a la Primera Ley de la Termodinámica. Debemos recordar que la Conservación de la Energía es un principio establecido por más de 150 años de recopilación de datos escrupulosa, y no hay ningún rigor detrás de la noción de Conservación de la Información. En cualquier caso, bajo la definición de Shannon de la información, esta ley propuesta es absurda. Todo lo que necesitas para crear información es un proceso ergódico y un observador para observarlo. El decaimiento atómico proporciona un ejemplo físico simple. Un observador del decaimiento atómico obtiene nueva información (qué átomo, qué tiempo, qué productos) a medida que cada átomo decae.
Entropía de Shannon frente a la Entropía Termodinámica[Inicio]
La función de entropía de la información de Shannon tiene exactamente la misma forma que la ecuación del teorema H de Boltzmann:
H(t) = ∫f ln f dc
donde ∫ es el símbolo de integral del cálculo, ln significa logaritmo natural (base e), f es la función de distribución para las moléculas en un gas ideal, e c es el espacio de velocidades. El símbolo H se utiliza en la Teoría de la Información debido a esta similitud.
Curiosamente, el movimiento browniano (el movimiento térmico aleatorio de las moléculas) también es un proceso de Markov. Es a partir de la fórmula H(t) de la que podemos derivar:
S = k ln w
donde S es la entropía termodinámica de un sistema, k es la constante de Boltzmann, y w es el desorden del sistema; es decir, la probabilidad de que un sistema exista en el estado en el que se encuentra en relación con todos los estados posibles en los que podría estar. El Teorema H de Boltzmann nos dice que, después de mucho tiempo, f alcanzará el equilibrio. Esto es similar a lo que Shannon nos dice sobre fuentes de información modeladas como procesos ergódicos. A pesar de las similitudes, la entropía de Shannon y la entropía termodinámica no son lo mismo. La entropía termodinámica caracteriza un conjunto estadístico de estados moleculares, mientras que la entropía de Shannon caracteriza un conjunto estadístico de mensajes.
En termodinámica, la entropía tiene que ver con todas las formas en que las moléculas o partículas podrían estar organizadas, y una mayor entropía significa que se puede extraer menos trabajo físico del sistema. En el uso de Shannon, la entropía tiene que ver con todas las formas en que los mensajes podrían ser transmitidos por una fuente de información, y una mayor entropía significa que los mensajes son más igualmente probables. La entropía en la teoría de la información no significa que la información esté volviéndose más inútil o degradada; y porque es una abstracción matemática, no se relaciona directamente con el trabajo físico a menos que estés tratando moléculas de manera informática.
La entropía de Shannon ha sido relacionada por el físico Léon Brillouin con un concepto a veces llamado negentropía. Este es un término introducido por el físico y laureado con el Premio Nobel Erwin Schrödinger en su texto de 1944 ¿Qué es la vida? para explicar cómo los sistemas vivos exportan entropía a su entorno mientras se mantienen a baja entropía; en otras palabras, es la negativa de la entropía. En su libro de 1962 Ciencia y teoría de la información, Brillouin describió el Principio de Negentropía de la Información o NPI, cuya esencia es que adquirir información sobre los microestados de un sistema está asociado con una disminución de la entropía (se necesita trabajo para extraer información, la borrada conduce a un aumento de la entropía termodinámica). No hay violación de la Segunda Ley de la Termodinámica involucrada, ya que una reducción en la entropía termodinámica de cualquier sistema local resulta en un aumento de la entropía termodinámica en otro lugar.
La relación entre la entropía de la información de Shannon H y la entropía S de la mecánica estadística fue definida con más rigor por Edwin Jaynes en 1957. El resultado es que la entropía de la información y la entropía termodinámica son métricas estrechamente relacionadas, pero no son la misma métrica. Para la mayoría de los practicantes de la Teoría de la Información hasta ahora, esto no plantea ninguna dificultad, porque su campo es la comunicación y el cálculo utilizando circuitos electrónicos convencionales donde no se discute el significado termodinámico de la entropía. Sin embargo, la terminología conflictiva genera mucha confusión en áreas como las máquinas moleculares y la física del cálculo, donde la entropía de la información y la entropía termodinámica se tratan lado a lado. Algunos autores, como Tom Schneider, argumentan a favor de eliminar la palabra entropía para la función H de la Teoría de la Información y utilizar en su lugar el otro término de Shannon incertidumbre (sorpresa promedio). Para más información sobre esto, consulte ¡La información no es entropía, la información no es incertidumbre!
A diferencia de la entropía molecular, la entropía de Shannon puede reducirse localmente sin aportar energía al sistema de información. Simplemente pasar un canal a través de un filtro pasivo puede reducir la entropía de la información transmitida (sin que el transmisor lo sepa, la capacidad del canal se reduce, y por lo tanto también lo hace la entropía de la información en el canal). La cantidad de potencia necesaria para transmitir es la misma con o sin el filtro, y con o sin que se reduzca la entropía de la información. Otra forma de pensar en esto es cortar un cable de un canal que tenga múltiples cables en paralelo. La información promedio que atraviesa el canal, la entropía, disminuye, sin relación con la cantidad de energía necesaria para cortar el cable. O apague la fuente de alimentación de una fuente de información y observe cómo su salida se fija en un único símbolo "apagado" con probabilidad 1 y entropía de información 0.
Una advertencia sobre la notación: para aquellos familiarizados con la termodinámica química, la H en la Teoría de la Información Clásica no es la entalpía, y ambas materias no deben confundirse. Del mismo modo, la H en la Teoría de la Información Clásica mide una propiedad diferente a la H en la Teoría de la Información Algorítmica. Aunque estos conflictos en la notación pueden ser lamentables, toda la literatura está escrita de esa manera y cualquier persona que desee entender la Teoría de la Información simplemente tendrá que acostumbrarse a ello.
[Inicio]






