TEMA 1. REPRESENTACIÓ I COMUNICACIÓ DE LA INFORMACIÓ
ÍNDEX
- Introducció
- El concepte d'informació i la seua representació digital
- Sistemes de numeració i conversions
- Representació de nombres enters
- Representació de nombres reals: coma flotant IEEE 754
- Representació decimal codificada en binari (BCD)
- Representació de la informació alfanumèrica: codis de caràcters
- Codis detectors i correctors d'error
- Magnituds d'informació i unitats de mesura
- Fonaments de teoria de la informació
- Comunicació i transmissió de dades
- Compressió de la informació
- Aplicació didàctica i relació amb el currículum
- Conclusió
- Bibliografia i referències
1. INTRODUCCIÓ
Tota la informàtica reposa sobre una idea aparentment simple però d'enorme abast: qualsevol informació que un ésser humà siga capaç de concebre —un nombre, una lletra, una imatge, un so, una ordre de programa— pot reduir-se a una seqüència de símbols discrets i, en última instància, a combinacions de dos estats físics distingibles. Eixa reducció és el que anomenem representació digital de la informació, i constitueix el fonament sobre el qual s'edifiquen tots els altres temes del temari: sense una representació rigorosa no hi ha aritmètica en el processador, no hi ha emmagatzematge, no hi ha xarxes ni multimèdia.
L'elecció del sistema binari no és arbitrària ni merament històrica. Un dispositiu electrònic distingeix amb moltíssima major fiabilitat la presència o absència de tensió (dos estats) que deu nivells de tensió diferents. La immunitat al soroll, la regeneració perfecta del senyal i la senzillesa de l'àlgebra de Boole associada fan del bit la unitat natural de la informació en els computadors. A partir d'ell, tot és qüestió de codificació: establir convenis que associen biunívocament les entitats del món (nombres, caràcters, mostres de senyal) amb seqüències de bits.
Aquest tema aborda eixa tasca de codificació en les seues dues grans vessants. La primera és la representació: com expressar nombres enters i reals, caràcters i símbols mitjançant bits, garantint que les operacions aritmètiques i lògiques siguen correctes i eficients. La segona és la comunicació: com transmetre eixes seqüències de bits d'un punt a un altre, quines lleis teòriques (Shannon) governen la capacitat d'un canal, com protegir-se dels errors que la transmissió i l'emmagatzematge introdueixen, i com comprimir la informació per a ocupar menys espai o ample de banda. Ambdues vessants comparteixen un mateix aparell conceptual —la teoria de la informació— que tanca el tema i li dóna unitat.
El desenvolupament que segueix combina el rigor matemàtic imprescindible (sistemes de numeració, complement a dos, estàndard IEEE 754, codis de Hamming, entropia de Shannon) amb la perspectiva de l'estàndard industrial vigent en 2026 (Unicode, UTF-8, CRC-32, codificacions de canal modernes), perquè el professorat de la família d'Informàtica i Comunicacions ha de transmetre no només els fonaments atemporals, sinó també la seua materialització tecnològica actual.
2. EL CONCEPTE D'INFORMACIÓ I LA SEUA REPRESENTACIÓ DIGITAL
Convé distingir tres plans que sovint es confonen. La dada és el símbol o conjunt de símbols en brut (una seqüència de bits, un nombre). La informació és la dada dotada de significat dins d'un context i un conveni d'interpretació. El coneixement és la informació integrada en un sistema que permet inferir i decidir. La informàtica opera directament sobre dades, però la seua finalitat és processar informació; d'ací la importància capital del codi que media entre ambdós.
Un codi o codificació és una correspondència entre un conjunt d'objectes (el conjunt font: lletres de l'alfabet, nombres, instruccions) i un conjunt de seqüències de símbols de l'alfabet del codi (en informàtica, l'alfabet binari {0,1}). Perquè una codificació siga útil ha de ser, com a mínim, unívoca (cada objecte té una representació) i normalment biunívoca i descodificable (la seqüència rebuda permet reconstruir sense ambigüitat la seqüència d'objectes original).
La informació es representa de forma digital quan s'expressa mitjançant un nombre finit de valors discrets, enfront de la representació analògica, que empra magnituds contínues. El senyal analògic reprodueix de manera contínua la magnitud física que representa; el digital la quantifica en nivells. La superioritat pràctica del digital resideix en tres propietats: la robustesa enfront del soroll (n'hi ha prou amb distingir entre dos nivells ben separats), la regeneració sense degradació (un senyal digital pot copiar-se indefinidament sense pèrdua) i la uniformitat del tractament (text, imatge i so, una vegada digitalitzats, són seqüències de bits que el mateix processador manipula amb les mateixes operacions).
El procés que converteix una magnitud analògica en digital —la digitalització— consta de tres fases: mostreig (prendre valors del senyal a intervals regulars, governat pel teorema de mostreig de Nyquist-Shannon, que exigeix una freqüència de mostreig almenys el doble de la màxima freqüència del senyal), quantificació (assignar a cada mostra un d'un nombre finit de nivells, la qual cosa introdueix l'inevitable error de quantificació) i codificació (expressar cada nivell com una paraula binària). Aquest esquema, que ací només s'enuncia perquè es desenvolupa en altres temes, il·lustra que la representació digital de magnituds del món real sempre comporta un compromís entre fidelitat i cost en bits.
3. SISTEMES DE NUMERACIÓ I CONVERSIONS
Un sistema de numeració posicional en base b representa un nombre mitjançant una seqüència de dígits, on cada dígit està afectat per un pes que és una potència de la base segons la seua posició. Si els dígits són d(n-1) … d1 d0 . d(-1) … d(-m), el valor és la suma de cada dígit multiplicat per la base elevada a la seua posició. La base determina quants dígits diferents s'empren: deu en decimal (0-9), dos en binari (0,1), huit en octal (0-7) i setze en hexadecimal (0-9 i A-F).
El sistema binari és el natural del computador per les raons físiques ja exposades. No obstant això, les cadenes binàries resulten llargues i il·legibles per a l'ésser humà, d'ací la utilitat de l'octal i, sobretot, de l'hexadecimal, les bases del qual (8 = 2³ i 16 = 2⁴) són potències de dos. Aquesta relació permet convertir entre binari i aquestes bases agrupant bits sense necessitat d'operacions aritmètiques: un dígit octal equival a tres bits i un d'hexadecimal a quatre. L'hexadecimal és hui l'estàndard de facto per a bolcats de memòria, adreces, colors web, codis d'operació i depuració, perquè cada byte s'expressa amb exactament dos dígits.
3.1. Conversió d'una base qualsevol a decimal
S'aplica directament el teorema fonamental de la numeració: es multiplica cada dígit per la base elevada al seu pes posicional i se sumen els productes. Així, 1011 en binari equival a 1·8 + 0·4 + 1·2 + 1·1 = 11 en decimal; i 2F en hexadecimal equival a 2·16 + 15 = 47. La part fraccionària usa exponents negatius: 0,101 en binari és 1·(1/2) + 0·(1/4) + 1·(1/8) = 0,625.
3.2. Conversió de decimal a una base qualsevol
La part entera es converteix per divisions successives entre la base, prenent els residus en ordre invers a l'obtingut. Per exemple, 47 entre 2 dóna quocients i residus successius la lectura inversa dels quals produeix 101111. La part fraccionària es converteix per multiplicacions successives per la base, prenent les parts enteres que van apareixent en l'ordre en què sorgeixen; el procés pot no acabar (representació periòdica), la qual cosa anticipa el problema central de la coma flotant: molts decimals finits, com 0,1, no tenen representació binària finita.
3.3. Conversions entre binari, octal i hexadecimal
Per la relació entre potències de dos, n'hi ha prou amb agrupar bits des del punt decimal. Per a octal s'agrupen de tres en tres; per a hexadecimal, de quatre en quatre, completant amb zeros els grups incomplets. Així 11011010 s'agrupa com 1101 0010, que és DA en hexadecimal. El procés invers expandeix cada dígit al seu grup de bits. Aquesta correspondència mecànica, sense càlcul aritmètic, és el que converteix l'hexadecimal en la notació còmoda de l'informàtic.
4. REPRESENTACIÓ DE NOMBRES ENTERS
Els enters sense signe es representen directament en binari natural: amb n bits es cobreix el rang de 0 a 2ⁿ − 1. El repte apareix en incorporar el signe, ja que el computador només disposa de zeros i uns: cal codificar també la negativitat. Existeixen quatre convenis clàssics, dels quals només un s'ha imposat en la pràctica per a l'aritmètica entera.
4.1. Signe-magnitud
Es reserva el bit més significatiu per al signe (0 positiu, 1 negatiu) i els restants per a la magnitud en binari natural. És el conveni més intuïtiu i el que segueix, internament, la mantissa de la coma flotant. Els seus inconvenients són greus per a l'aritmètica entera: existeix doble representació del zero (+0 i −0) i la suma requereix comparar signes i magnituds, complicant el circuit. Amb n bits el rang és de −(2ⁿ⁻¹ − 1) a +(2ⁿ⁻¹ − 1).
4.2. Complement a un
El negatiu d'un nombre s'obté invertint tots els seus bits (complement bit a bit). La suma és més senzilla que en signe-magnitud, però persisteix la doble representació del zero i la suma exigeix l'anomenat acarreig circular (sumar al resultat l'acarreig que ix del bit més significatiu), la qual cosa segueix complicant la unitat aritmeticològica.
4.3. Complement a dos
És el conveni universalment adoptat pels processadors actuals. El negatiu d'un nombre s'obté invertint tots els seus bits i sumant-ne un; equivalentment, el valor del nombre s'interpreta donant al bit més significatiu un pes negatiu, −2ⁿ⁻¹. Els seus avantatges són decisius: el zero té una única representació; la suma i la resta es realitzen amb el mateix circuit sumador, tractant els operands negatius exactament igual que els positius, sense acarreig circular; i restar equival a sumar el complement a dos del subtrahend. Amb n bits el rang és asimètric, de −2ⁿ⁻¹ a +2ⁿ⁻¹ − 1: per exemple, amb 8 bits, de −128 a +127. Convé dominar dues conseqüències pràctiques. La primera és el desbordament (overflow): es produeix quan en sumar dos operands del mateix signe el resultat canvia de signe, situació que el processador assenyala amb un flag de desbordament. La segona és l'extensió de signe: per a ampliar un nombre a més bits mantenint el seu valor, cal replicar el bit de signe en les posicions afegides, no emplenar amb zeros.
4.4. Representació en excés (esbiaixada)
Consisteix a sumar a cada nombre una constant fixa (l'excés o biaix) de manera que el menor valor representable es codifique com zero i tots els codis siguen no negatius. Té la virtut que l'ordre dels nombres coincideix amb l'ordre dels seus codis binaris sense signe, la qual cosa facilita les comparacions. No s'usa per als enters de propòsit general, però és essencial en la coma flotant, on l'exponent s'emmagatzema precisament en excés perquè les comparacions de magnitud entre reals puguen fer-se, en bona mesura, com si foren enters sense signe.
5. REPRESENTACIÓ DE NOMBRES REALS: COMA FLOTANT IEEE 754
Per a representar nombres amb part fraccionària existeix la coma fixa, en la qual el punt decimal ocupa una posició predeterminada. És senzilla i s'empra en aplicacions de control i en certs processadors de senyal, però el seu rang dinàmic és molt limitat: o bé representa nombres grans amb poca resolució, o bé xicotets amb poc rang. La solució general és la coma flotant, inspirada en la notació científica: un nombre s'expressa com un signe, una mantissa (els dígits significatius) i un exponent que indica on va la coma. En permetre que la coma "flote", s'obté un enorme rang dinàmic amb un nombre fix de bits.
5.1. L'estàndard IEEE 754
Abans de la seua normalització, cada fabricant emprava el seu propi format, la qual cosa feia irreproduïbles els càlculs entre màquines. L'estàndard IEEE 754, publicat en 1985 i revisat en 2008 i 2019, va unificar la representació, les operacions, els arredoniments i el tractament de les excepcions, i és el que implementen hui totes les unitats de coma flotant. Defineix diversos formats; els més usats són el de precisió simple (32 bits) i el de precisió doble (64 bits), als quals es van afegir formats de mitja precisió (16 bits, molt usat en aprenentatge automàtic i gràfics) i quàdruple precisió (128 bits).
Cada nombre es descompon en tres camps: un bit de signe, un camp d'exponent (8 bits en simple, 11 en doble) emmagatzemat en excés (biaix 127 en simple, 1023 en doble), i un camp de mantissa o fracció (23 bits en simple, 52 en doble). El valor d'un nombre normalitzat és el signe aplicat a 1,M · 2^(E−biaix), on M és la fracció emmagatzemada. La clau del format és el bit implícit: com tot nombre normalitzat en binari té un 1 a l'esquerra de la coma, eixe 1 no s'emmagatzema, la qual cosa regala un bit de precisió gratis (la precisió efectiva és de 24 i 53 bits respectivament).
5.2. Valors especials i casos límit
El geni de l'estàndard està a reservar els valors extrems de l'exponent per a codificar situacions especials, de manera que el mateix maquinari les tracte de forma uniforme:
| Exponent | Mantissa | Significat |
|---|---|---|
| Tot zeros | Zero | Zero (amb signe: +0 i −0) |
| Tot zeros | No nul·la | Nombres desnormalitzats (subnormals) |
| Tot uns | Zero | Infinit (+∞ o −∞) |
| Tot uns | No nul·la | NaN (Not a Number) |
| Resta | Qualsevol | Nombres normalitzats |
Els nombres desnormalitzats (sense bit implícit i amb exponent mínim fix) permeten representar magnituds molt pròximes a zero, aconseguint l'anomenat desbordament gradual (gradual underflow), que evita un salt brusc al zero. L'infinit sorgeix del desbordament o de dividir un nombre finit entre zero, i es propaga de forma coherent per les operacions. El NaN representa resultats indefinits com 0/0, ∞−∞ o l'arrel d'un negatiu; té la propietat de "contaminar" qualsevol operació en la qual intervinga, la qual cosa facilita la detecció d'errors. Existeixen NaN silenciosos (quiet) i senyalitzadors (signaling).
5.3. Precisió, arredoniment i conseqüències pràctiques
La conseqüència més important per al docent i el programador és que l'aritmètica de coma flotant no és exacta. Molts decimals senzills, com 0,1, no tenen representació binària finita, per la qual cosa s'emmagatzemen arredonits; d'ací que comparacions del tipus 0,1 + 0,2 == 0,3 fallen en la majoria de llenguatges. L'estàndard defineix diversos modes d'arredoniment, sent el predeterminat l'arredoniment al més pròxim, amb desempat al parell, que minimitza el biaix estadístic acumulat. La precisió simple ofereix uns 7 dígits decimals significatius i la doble uns 15-16. Les bones pràctiques exigeixen, per tant, comparar reals mitjançant una tolerància (èpsilon), preferir la doble precisió en càlculs sensibles i ser conscient de la pèrdua de precisió per cancel·lació catastròfica en restar nombres molt pròxims.
6. REPRESENTACIÓ DECIMAL CODIFICADA EN BINARI (BCD)
El codi BCD (Binary Coded Decimal) representa cada dígit decimal (0-9) mitjançant el seu grup de quatre bits en binari natural, en lloc de convertir el nombre complet a binari. Així, 47 en BCD no és 101111, sinó 0100 0111. És un codi no ponderat del nombre complet però ponderat dígit a dígit (variant 8421, la més comuna). Existeixen variants com el BCD empaquetat (dos dígits per byte) i el desempaquetat (un dígit per byte).
El seu principal avantatge és que evita els errors d'arredoniment decimal de la coma flotant binària i simplifica la conversió a representacions llegibles, per la qual cosa s'empra històricament en calculadores, displays de set segments, rellotges digitals i, molt assenyaladament, en sistemes financers i comercials on l'exactitud decimal és legalment exigible. Llenguatges i bases de dades ofereixen tipus decimal de precisió arbitrària basats en aquesta filosofia. El seu inconvenient és el malbaratament d'espai (de les 16 combinacions de 4 bits només se n'usen 10) i la major complexitat de l'aritmètica, que requereix ajustos (correcció decimal) després de cada operació.
7. REPRESENTACIÓ DE LA INFORMACIÓ ALFANUMÈRICA: CODIS DE CARÀCTERS
Representar text consisteix a assignar a cada caràcter (lletra, dígit, signe de puntuació, símbol) un nombre enter, el seu punt de codi, i codificar eixe nombre en bits. La història d'aquests codis és la història d'un problema creixent: com acomodar tots els sistemes d'escriptura del món de forma única i eficient.
7.1. ASCII
El codi ASCII (American Standard Code for Information Interchange), de 1963, empra 7 bits i defineix 128 caràcters: els de control (0-31, com el salt de línia o el retorn de carro), els imprimibles (espais, dígits, majúscules, minúscules i signes) i el d'esborrat. La seua gran limitació és no contemplar caràcters accentuats, la enya ni altres alfabets, la qual cosa el fa insuficient fora de l'anglés. Convé recordar el seu disseny enginyós: la diferència entre una majúscula i la seua minúscula és un únic bit, la qual cosa facilita les conversions.
7.2. ISO/IEC 8859
Per a cobrir les llengües europees es va aprofitar el huitè bit, ampliant a 256 caràcters. La família ISO/IEC 8859 defineix diverses pàgines; la més rellevant per al castellà és ISO-8859-1 (Latin-1), que inclou vocals accentuades, la enya i la dièresi. Una variant posterior, ISO-8859-15 (Latin-9), va afegir el símbol de l'euro. El problema estructural d'aquestes codificacions és que cada pàgina cobreix només un grup de llengües, i un mateix byte significa caràcters diferents segons la pàgina activa, la qual cosa provoca el conegut fenomen dels textos il·legibles (mojibake) en confondre codificacions.
7.3. Unicode i les seues codificacions UTF
Unicode va resoldre d'arrel el problema assignant un punt de codi únic a cada caràcter de pràcticament tots els sistemes d'escriptura, vius i històrics, a més de símbols tècnics i emojis. El seu espai abasta una mica més d'un milió de punts de codi (fins a U+10FFFF), organitzats en plans. Unicode és independent de la forma d'emmagatzemar-lo: defineix quin nombre correspon a cada caràcter, però la codificació en bytes la realitzen els formats UTF.
UTF-32 usa 4 bytes fixos per caràcter: és simple d'indexar però molt ineficient en espai. UTF-16 usa 2 o 4 bytes (mitjançant els parells subrogats per als caràcters fora del pla bàsic); és la representació interna de Java, .NET i JavaScript. UTF-8, hui dominant en la web i en sistemes POSIX, és una codificació de longitud variable d'1 a 4 bytes amb tres virtuts que expliquen el seu èxit: és retrocompatible amb ASCII (els 128 caràcters ASCII es codifiquen igual, en un sol byte), és autosincronitzable (es distingeix el primer byte d'un caràcter dels de continuació, la qual cosa permet recuperar-se d'errors i buscar sense ambigüitat) i és independent de l'ordre de bytes de la màquina, evitant el problema de l'endianness que sí que afecta UTF-16 i UTF-32 i obliga a marques d'ordre de bytes (BOM). Per aquestes raons, UTF-8 és la codificació recomanada per defecte en el desenvolupament actual i la que el professorat ha d'ensenyar com a estàndard.
8. CODIS DETECTORS I CORRECTORS D'ERROR
Tant la transmissió com l'emmagatzematge d'informació estan subjectes a errors: soroll en el canal, interferències, defectes del suport. Els codis de control d'errors afigen redundància controlada a les dades per a detectar i fins i tot corregir eixes alteracions. La idea central és la distància de Hamming entre dues paraules codi: el nombre de bits en què difereixen. Un codi amb distància mínima d pot detectar fins a d−1 errors i corregir fins a la part entera de (d−1)/2.
8.1. Control de paritat
És el mecanisme més simple: s'afig un bit de paritat que fa que el nombre total d'uns siga parell (paritat parell) o imparell (paritat imparell). Detecta qualsevol nombre imparell d'errors, però no els corregeix ni detecta els parells. La paritat creuada (longitudinal i transversal sobre una matriu de bits) millora la capacitat i permet localitzar i corregir un error aïllat, en assenyalar la fila i la columna afectades.
8.2. Codi de Hamming
És un codi corrector d'errors que col·loca bits de paritat en les posicions que són potència de dos, de manera que cada bit de control vigila un subconjunt ben triat de bits de dades. En rebre la paraula, es recalculen les paritats; el conjunt de discrepàncies, llegit com un nombre binari, indica directament la posició del bit erroni, que n'hi ha prou amb invertir per a corregir-lo. El codi Hamming clàssic té distància mínima 3 (corregeix un error). Afegint un bit de paritat global s'obté el SECDED (Single Error Correction, Double Error Detection), de distància 4, que corregeix un error i detecta dos: és la base de la memòria ECC emprada en servidors per a corregir errors espontanis provocats, per exemple, per radiació.
8.3. Comprovació de redundància cíclica (CRC)
El CRC és la tècnica de detecció dominant en xarxes i emmagatzematge per la seua gran eficàcia enfront d'errors en ràfega. Es basa en l'aritmètica de polinomis sobre el cos binari: el missatge s'interpreta com un polinomi que es divideix per un polinomi generador fix, i el residu d'eixa divisió s'annexa com a seqüència de comprovació. El receptor repeteix l'operació: si el residu no és nul, hi ha error. Variants com CRC-32 (usada en Ethernet, ZIP i PNG) detecten tots els errors simples i dobles, tot nombre imparell d'errors i totes les ràfegues de longitud menor o igual al grau del generador, amb una probabilitat baixíssima d'error no detectat. No corregeix, només detecta, però el seu cost de càlcul és baixíssim i s'implementa amb facilitat en maquinari mitjançant registres de desplaçament.
Per a canals molt sorollosos s'empren codis correctors més potents, com els codis Reed-Solomon (en CD, DVD, codis QR i comunicacions espacials) o els moderns codis LDPC i turbo (en Wi-Fi, 4G/5G i emmagatzematge), que s'aproximen al límit teòric de Shannon.
9. MAGNITUDS D'INFORMACIÓ I UNITATS DE MESURA
La unitat elemental d'informació és el bit (binary digit), que representa l'elecció entre dues alternatives equiprobables. L'agrupament estàndard de 8 bits és el byte o octet, que pot representar 256 valors diferents i és la unitat adreçable bàsica en la pràctica totalitat de les arquitectures. Sobre el byte es construeixen els múltiples per a magnituds majors.
Ací sorgeix una confusió freqüent i normativament rellevant. Tradicionalment, en informàtica els múltiples es calculaven en potències de 1024 (2¹⁰), de manera que un "kilobyte" eren 1024 bytes, un "megabyte" 1024 kilobytes, etcètera. No obstant això, els prefixos del Sistema Internacional (kilo, mega, giga) signifiquen potències de 1000. Per a resoldre l'ambigüitat, la norma IEC 60027-2 / IEC 80000-13 va introduir prefixos binaris específics: kibi (Ki = 2¹⁰), mebi (Mi = 2²⁰), gibi (Gi = 2³⁰), tebi (Ti = 2⁴⁰), i així successivament. Segons aquesta norma, el correcte és dir 1 KiB = 1024 bytes, reservant 1 kB per a 1000 bytes.
| Prefix binari | Símbol | Valor | Prefix SI | Símbol | Valor |
|---|---|---|---|---|---|
| kibi | Ki | 2¹⁰ = 1024 | kilo | k | 10³ = 1000 |
| mebi | Mi | 2²⁰ | mega | M | 10⁶ |
| gibi | Gi | 2³⁰ | giga | G | 10⁹ |
| tebi | Ti | 2⁴⁰ | tera | T | 10¹² |
| pebi | Pi | 2⁵⁰ | peta | P | 10¹⁵ |
Aquesta distinció explica una discrepància quotidiana: els fabricants de discos mesuren la capacitat en potències de 1000 (gigabytes SI), mentre que els sistemes operatius solen mostrar-la en potències de 1024 (gibibytes), per la qual cosa un disc d'"1 TB" apareix com uns 931 GiB. Convé també distingir les unitats de capacitat d'emmagatzematge (en bytes) de les de velocitat de transmissió (en bits per segon, bps, i els seus múltiples kbps, Mbps, Gbps), error freqüent entre l'alumnat.
10. FONAMENTS DE TEORIA DE LA INFORMACIÓ
En 1948, Claude Shannon va publicar A Mathematical Theory of Communication, que va fundar la teoria de la informació i va donar un significat matemàtic precís a la quantitat d'informació. La seua aportació va ser mesurar la informació en funció de la incertesa o sorpresa: un succés molt probable aporta poca informació quan ocorre; un d'improbable n'aporta molta. Formalment, la informació d'un succés de probabilitat p és el logaritme en base dos d'1/p, mesurada en bits.
10.1. Entropia
L'entropia d'una font és la quantitat mitjana d'informació per símbol, és a dir, l'esperança matemàtica de la informació dels seus símbols. És màxima quan tots els símbols són equiprobables (màxima incertesa) i nul·la quan un és segur. L'entropia marca el límit teòric inferior del nombre mitjà de bits necessari per a codificar sense pèrdua els símbols de la font: cap codi sense pèrdua pot comprimir, de mitjana, per davall de l'entropia. Aquest és el primer teorema de Shannon (codificació de font) i el fonament de tota la compressió sense pèrdua.
10.2. Redundància
La redundància és la diferència entre la longitud mitjana real d'una codificació i l'entropia de la font; és a dir, els bits "de sobra" respecte al mínim teòric. La redundància no sempre és indesitjable: la compressió busca eliminar-la per a estalviar espai, però els codis correctors d'errors l'afigen deliberadament i controladament per a guanyar fiabilitat. Comprimir i protegir enfront d'errors són, en cert sentit, operacions oposades sobre la redundància, i tot sistema de comunicacions busca el seu punt d'equilibri.
10.3. Capacitat d'un canal
El segon teorema de Shannon (codificació de canal) estableix que tot canal amb soroll té una capacitat màxima, expressada en bits per segon, per davall de la qual és possible transmetre amb una probabilitat d'error tan xicoteta com es vulga, emprant codis correctors adequats; per damunt d'ella, la transmissió fiable és impossible. La fórmula de Shannon-Hartley relaciona eixa capacitat amb l'ample de banda del canal i la relació senyal/soroll. Aquest resultat, profundament contraintuïtiu en el seu dia, garanteix que el soroll no impedeix la comunicació perfecta, sinó que només limita la seua velocitat, i orienta el disseny de tots els sistemes de comunicació moderns cap a eixe límit.
11. COMUNICACIÓ I TRANSMISSIÓ DE DADES
La comunicació és el procés de transferir informació d'un emissor a un receptor a través d'un canal mitjançant un missatge codificat. El model de Shannon-Weaver identifica els elements essencials: font, codificador/transmissor, canal (afectat per una font de soroll), receptor/descodificador i destí. Aquest esquema atemporal és el que subjau a tota la matèria de xarxes.
La transmissió de dades és la materialització física d'eixe enviament. Sense entrar en el detall propi d'altres temes, convé fixar la terminologia bàsica. Segons el sentit del flux, la transmissió pot ser símplex (un sol sentit), semidúplex (ambdós sentits, però no simultanis) o dúplex (ambdós sentits alhora). Segons la sincronització, sèrie (els bits viatgen un rere l'altre per una línia, el habitual en distàncies llargues i en els busos moderns) o paral·lel (diversos bits simultanis per línies diferents, usat dins del computador a curta distància). I segons el referent temporal, síncrona (emissor i receptor comparteixen rellotge) o asíncrona (cada caràcter s'emmarca amb bits d'inici i parada).
El senyal pot transmetre's en banda base (els polsos digitals directament sobre el medi) o mitjançant modulació d'una portadora analògica, alterant la seua amplitud, freqüència o fase per a representar els bits, la qual cosa permet adaptar el senyal al medi i multiplexar diverses comunicacions. La velocitat de transmissió es mesura en bits per segon, que no s'ha de confondre amb la velocitat de modulació en bauds (símbols per segon): cada símbol pot transportar diversos bits segons l'esquema de modulació. Tot aquest aparell pràctic es regeix, en última instància, pel límit de capacitat de Shannon exposat en l'apartat anterior, la qual cosa uneix de nou teoria i tècnica.
12. COMPRESSIÓ DE LA INFORMACIÓ
La compressió redueix el nombre de bits necessari per a representar una informació, eliminant redundància. Es distingeixen dues grans famílies segons la fidelitat del resultat.
12.1. Compressió sense pèrdua
La compressió sense pèrdua (lossless) permet reconstruir exactament la dada original, sense perdre un sol bit. És obligatòria per a text, executables, bases de dades i, en general, on qualsevol alteració seria inacceptable. Les seues tècniques exploten la redundància estadística i estructural. La codificació d'entropia assigna codis més curts als símbols més freqüents: l'algoritme de Huffman construeix un codi de longitud variable òptim símbol a símbol, i la codificació aritmètica i les seues variants modernes s'aproximen encara més al límit d'entropia de Shannon. La codificació per longitud de sèries (RLE) substitueix repeticions per un parell (valor, nombre de repeticions). Els mètodes de diccionari de la família Lempel-Ziv (LZ77, LZ78, LZW) substitueixen seqüències repetides per referències a aparicions anteriors i són el cor de formats com ZIP, gzip, PNG i GIF. L'eficàcia de la compressió sense pèrdua està fitada precisament per l'entropia: dades ja aleatòries o ja comprimides no admeten més reducció.
12.2. Compressió amb pèrdua
La compressió amb pèrdua (lossy) descarta informació que es considera poc perceptible o irrellevant per a obtenir taxes de reducció molt superiors. Només és admissible en dades destinades a la percepció humana —imatge, àudio i vídeo—, on s'aprofiten les limitacions de la vista i l'oïda (models psicovisuals i psicoacústics). L'estàndard JPEG comprimeix imatges descartant les altes freqüències mitjançant la transformada discreta del cosinus i la quantificació; MP3 i AAC eliminen els sons emmascarats per altres més intensos; i els còdecs de vídeo (de la família H.26x, com H.264/AVC i H.265/HEVC, juntament amb alternatives obertes com AV1) combinen la compressió espacial de cada fotograma amb la predicció temporal entre fotogrames. El compromís fonamental de la compressió amb pèrdua és entre taxa de compressió i qualitat percebuda: a major compressió, major degradació, controlada per un paràmetre de qualitat.
13. APLICACIÓ DIDÀCTICA I RELACIÓ AMB EL CURRÍCULUM
Els continguts d'aquest tema constitueixen el fonament transversal de tota la família professional d'Informàtica i Comunicacions i apareixen, amb distinta profunditat, en nombrosos mòduls i matèries del sistema educatiu regulat per la LOE 2/2006 modificada per la LOMLOE 3/2020 i, en Formació Professional, per la LOFP 3/2022 i el seu desenvolupament en el RD 659/2023.
En l'Educació Secundària Obligatòria i el Batxillerat, la representació binària de la informació, les unitats de mesura i la digitalització de text, imatge i so s'aborden en matèries com Tecnologia i Digitalització i Digitalització, on l'alumnat comprèn per primera vegada que tota dada és, en el fons, una seqüència de bits, servint de pont cap a la competència digital.
En la Formació Professional, el tema dóna suport directe a diversos mòduls. En el CFGM de Sistemes Microinformàtics i Xarxes, els sistemes de numeració i les unitats d'informació són base del mòdul de Muntatge i Manteniment d'Equips i de Xarxes Locals (on el control d'errors i la transmissió cobren sentit). En els CFGS de Desenvolupament d'Aplicacions Multiplataforma i Desenvolupament d'Aplicacions Web, la representació d'enters i reals (complement a dos, IEEE 754), els tipus de dades i les codificacions de caràcters (UTF-8) són imprescindibles en Programació i Bases de Dades, on els errors d'arredoniment o de codificació són una font habitual de fallades. En el CFGS d'Administració de Sistemes Informàtics en Xarxa, les unitats de capacitat, l'adreçament hexadecimal i la integritat de dades (paritat, ECC, CRC) són nuclears en la gestió de sistemes i emmagatzematge.
Des del punt de vista metodològic, convé un enfocament constructivista i pràctic: partir de problemes reals (per què 0,1 + 0,2 no dóna 0,3?, per què un text es veu malament en canviar d'editor?, per què un disc d'1 TB mostra menys capacitat?) per a introduir els conceptes per necessitat i no per imposició. L'ús d'eines de conversió, editors hexadecimals i xicotets programes que mostren la representació interna de les dades afavoreix l'aprenentatge significatiu, l'atenció a la diversitat i l'avaluació per competències mitjançant situacions d'aprenentatge contextualitzades, tal com prescriu el currículum vigent.
14. CONCLUSIÓ
La representació i la comunicació de la informació són els dos pilars sobre els quals se sosté la informàtica com a disciplina. Hem vist com el bit, unitat mínima, permet codificar nombres enters mitjançant el complement a dos —universal per l'elegància amb què unifica suma i resta—, nombres reals mitjançant l'estàndard IEEE 754 —amb el seu enginyós tractament de zeros, infinits i NaN, i la seua inevitable inexactitud—, i caràcters mitjançant una evolució que culmina en Unicode i la seua codificació UTF-8, hui estàndard de facto. Hem analitzat com protegir eixa informació dels errors amb codis detectors i correctors, des de la humil paritat fins al CRC i els codis moderns que freguen el límit teòric, i com mesurar-la i comprimir-la a la llum de la teoria de la informació de Shannon, els teoremes de la qual fixen els límits infranquejables tant de la compressió com de la transmissió fiable.
El fil conductor és sempre el mateix: tota la potència del computador i de les xarxes naix de convenis de codificació rigorosos i de lleis matemàtiques precises. Comprendre aquests fonaments no és un exercici acadèmic, sinó la condició per a diagnosticar errors reals, triar representacions adequades i ensenyar amb solvència una matèria que, malgrat la vertiginosa evolució de la tecnologia, conserva intactes els seus principis. Per al futur docent de l'especialitat d'Informàtica, dominar aquest tema és disposar del llenguatge comú amb el qual es construeixen tots els altres.
15. BIBLIOGRAFIA I REFERÈNCIES
(a) Referències tècniques i estàndards
- Tanenbaum, A. S. i Austin, T. (2013). Organización de computadoras: un enfoque estructurado. Pearson.
- Stallings, W. (2016). Organización y arquitectura de computadores. Pearson.
- Hennessy, J. L. i Patterson, D. A. (2019). Arquitectura de computadores: un enfoque cuantitativo. Morgan Kaufmann.
- Stallings, W. (2014). Comunicaciones y redes de computadores. Pearson.
- Cover, T. M. i Thomas, J. A. (2006). Elements of Information Theory. Wiley.
- Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal.
- Sayood, K. (2017). Introduction to Data Compression. Morgan Kaufmann.
- IEEE (2019). IEEE Standard for Floating-Point Arithmetic (IEEE 754-2019). IEEE.
- The Unicode Consortium. The Unicode Standard. Recurs en línia: https://www.unicode.org
- ISO/IEC 80000-13:2008. Quantities and units — Part 13: Information science and technology. ISO.
- Internet Engineering Task Force. RFC 3629: UTF-8, a transformation format of ISO 10646. https://www.rfc-editor.org
(b) Referències normatives
- Llei Orgànica 2/2006, de 3 de maig, d'Educació (LOE), modificada per la Llei Orgànica 3/2020, de 29 de desembre (LOMLOE).
- Llei Orgànica 3/2022, de 31 de març, d'ordenació i integració de la Formació Professional (LOFP).
- Reial Decret 659/2023, de 18 de juliol, pel qual es desenvolupa l'ordenació del Sistema de Formació Professional.
- Reials Decrets dels títols de la família professional Informàtica i Comunicacions (CFGM Sistemes Microinformàtics i Xarxes; CFGS Desenvolupament d'Aplicacions Multiplataforma, Desenvolupament d'Aplicacions Web i Administració de Sistemes Informàtics en Xarxa).
- Ordre d'1 de febrer de 1996 per la qual s'aproven els temaris que han de regir en els procediments d'ingrés als Cossos de Professors (especialitat d'Informàtica).
- Normativa de la Generalitat Valenciana de desenvolupament curricular de l'ESO, el Batxillerat i la Formació Professional. Portal de la Conselleria d'Educació: https://ceice.gva.es
ORIENTACIONS PER A L'ESTUDI
- Practique les conversions entre bases i el complement a dos fins a automatitzar-les: en l'examen escrit estalvien temps i demostren solvència; no fie aquests càlculs a la improvisació.
- Memoritze l'estructura dels camps d'IEEE 754 (signe, exponent en excés, mantissa amb bit implícit) i sàpia explicar amb un exemple per què 0,1 no és exacte; és una pregunta recurrent del tribunal.
- Distingisca amb claredat els tres eixos que solen confondre's: detecció enfront de correcció d'errors, compressió amb enfront de sense pèrdua, i prefixos binaris (kibi) enfront de SI (kilo).
- Vincule sempre la part teòrica (entropia i capacitat de Shannon) amb les seues conseqüències pràctiques (límits de la compressió i de la transmissió): el tribunal valora la maduresa conceptual, no la mera enumeració.
- Reserve entre sis i huit minuts finals per a l'epígraf d'aplicació didàctica i la conclusió; un tema tècnic impecable sense connexió curricular perd punts en una oposició docent.
- Prepare un esquema-resum d'una pàgina amb les definicions i fórmules clau per a repassar les vespres i per a estructurar mentalment l'exposició davant del tribunal.