Representação de Dados

Como números, texto, imagens e som viram bits

Organização de Computadores

O computador só armazena 0 e 1. A diferença entre um número, uma letra e um pixel não está nos bits em si, mas na forma como são interpretados.

A mesma sequência 0100 0001 pode ser o número 65, a letra 'A' (ASCII) ou parte de uma cor. O contexto (o tipo de dado) define o significado.

Números não-negativos representados diretamente em binário. Com n bits, o intervalo é de 0 a 2ⁿ−1.

Bits	Intervalo	Uso comum
8 bits	0 a 255	1 byte, cor RGB
16 bits	0 a 65.535	portas de rede
32 bits	0 a ~4,2 bilhões	endereços IPv4

Overflow: se o resultado ultrapassa o máximo, ele "dá a volta". Em 8 bits, 255 + 1 = 0.

Como representar números negativos só com 0s e 1s? Três abordagens históricas:

Método	Ideia	Problema
Sinal-magnitude	1º bit é o sinal (0=+, 1=−)	Existe +0 e −0; aritmética complicada
Complemento de 1	Inverte todos os bits para negar	Ainda tem +0 e −0
Complemento de 2	Inverte os bits e soma 1	Nenhum — é o padrão usado hoje

Negar +5 em 8 bits:

+5 = 0000 0101
inverte = 1111 1010
soma 1 = 1111 1011

−5 = 1111 1011

Por que é tão usado? Porque a soma funciona naturalmente, sem circuito especial para subtração: 5 + (−5) dá zero automaticamente (com o vai-um descartado).

Em n bits, o intervalo é de −2ⁿ⁻¹ a +2ⁿ⁻¹−1. Em 8 bits: −128 a +127.

Para representar frações e números muito grandes/pequenos, usa-se notação científica em binário — o padrão IEEE 754.

valor = (−1)^sinal × mantissa × 2^expoente

Precisão	Sinal	Expoente	Mantissa	Total
Simples (float)	1 bit	8 bits	23 bits	32 bits
Dupla (double)	1 bit	11 bits	52 bits	64 bits

Ponto flutuante é uma aproximação. Por isso 0,1 + 0,2 não dá exatamente 0,3 em muitas linguagens: nem todo decimal tem representação binária finita.

ASCII associa cada caractere a um número de 7 bits (0–127). Letras, dígitos, pontuação e comandos de controle.

Caractere	Decimal	Binário
'A'	65	0100 0001
'a'	97	0110 0001
'0'	48	0011 0000
espaço	32	0010 0000

Note que 'A' (65) e 'a' (97) diferem em exatamente um bit. E o caractere '0' não é o número zero — é o código 48.

ASCII só cobre o inglês. O Unicode dá um número único a cada caractere de todas as línguas — e também a emojis.

UTF-8

Codificação de tamanho variável (1 a 4 bytes). Compatível com ASCII e dominante na web. 'A' usa 1 byte; 'ç' usa 2; '😀' usa 4.

Por que importa

Escolher a codificação errada causa os famosos caracteres trocados (Ã§, Ã£) ao abrir um arquivo. Por isso o HTML declara charset=UTF-8.

Uma imagem bitmap é uma grade de pixels. Cada pixel guarda uma cor, geralmente no modelo RGB: três bytes (vermelho, verde, azul), cada um de 0 a 255.

Vermelho puro: R=255 G=0   B=0   → #FF0000
Branco:        R=255 G=255 B=255 → #FFFFFF
Roxo:          R=128 G=0   B=128 → #800080

3 bytes por pixel = 24 bits = ~16,7 milhões de cores ("true color"). Uma imagem Full HD não comprimida ocupa ~6 MB — por isso usam-se formatos compactados como JPEG e PNG.

Som: a onda sonora (analógica) é medida muitos pontos por segundo (amostragem). Cada amostra vira um número. CD de áudio = 44.100 amostras/s, 16 bits cada.
Vídeo: uma sequência de imagens (frames) exibidas em rápida sucessão, geralmente 24 a 60 por segundo, mais a trilha de áudio.
Compressão: indispensável. MP3, AAC (áudio); H.264, H.265 (vídeo) reduzem o tamanho descartando dados pouco perceptíveis.

Quando um número ocupa vários bytes, em que ordem eles são guardados na memória?

Ordem	Como guarda 0x12345678	Usado por
Big-endian	12 34 56 78 (byte mais significativo primeiro)	Redes, protocolos
Little-endian	78 56 34 12 (byte menos significativo primeiro)	x86, ARM

Importa ao trocar dados entre sistemas diferentes — um arquivo binário pode ser lido errado se a ordem dos bytes não for considerada.

O complemento de 2 não é um truque: é notação posicional com peso negativo no bit mais significativo. Em n bits, o bit da esquerda vale −2ⁿ⁻¹; os demais, positivos:

1111 1011 (8 bits) =
−128 + 64 + 32 + 16 + 8 + 0 + 2 + 1
= −128 + 123 = −5

Extensão de sinal

Ao copiar um número para mais bits, repete-se o bit de sinal à esquerda. Assim −5 em 8 bits (1111 1011) vira 1111 1111 1111 1011 em 16 bits, preservando o valor.

Detecção de overflow

Há overflow quando se somam dois números de mesmo sinal e o resultado tem sinal oposto. Ex.: em 8 bits, 100 + 50 = 150 > 127 → resultado dá negativo (erro).

Um float de 32 bits tem três campos. O expoente é guardado com viés (bias) de 127, e a mantissa tem um bit 1 implícito antes da vírgula (forma normalizada 1,xxxx):

Codificar −6,5:
6,5 = 110,1₍₂₎ = 1,101 × 2²

sinal = 1 (negativo)
expoente = 2 + 127 = 129 = 1000 0001
mantissa = 101 0000... (23 bits, sem o 1 implícito)

1 10000001 10100000000000000000000

O viés permite comparar floats como se fossem inteiros e representar expoentes negativos sem um bit de sinal separado. O double (64 bits) usa o mesmo esquema com expoente de 11 bits e bias 1023.

O IEEE 754 reserva padrões de expoente para representar casos especiais — por isso o computador "sabe" lidar com 1/0 sem travar:

Valor	Como é codificado
±0	Expoente e mantissa todos zero (há +0 e −0)
±∞	Expoente todo 1, mantissa zero (ex.: 1,0 / 0,0)
NaN (Not a Number)	Expoente todo 1, mantissa ≠ 0 (ex.: 0/0, √−1)
Subnormais	Expoente zero; preenchem a lacuna perto do zero (sem bit implícito)

O épsilon de máquina é o menor incremento relativo representável: ~1,2×10⁻⁷ no float e ~2,2×10⁻¹⁶ no double. Ele explica por que comparar reais com "==" é arriscado: use uma tolerância (|a − b| < ε).

Bits podem ser corrompidos no armazenamento ou na transmissão. Adicionam-se bits redundantes para perceber (e às vezes consertar) o erro:

Técnica	O que faz
Bit de paridade	1 bit extra que torna par (ou ímpar) o nº de 1s. Detecta 1 erro; não corrige.
Código de Hamming	Vários bits de paridade posicionados; corrige 1 erro e detecta 2 (distância 3).
Checksum	Soma dos dados anexada; detecta erros comuns (TCP/IP).
CRC	Resto de uma divisão polinomial; robusto contra rajadas de erro (Ethernet, ZIP).

Conceito central: a distância de Hamming (nº de bits diferentes entre dois códigos válidos). Um código com distância mínima d detecta até d−1 erros e corrige até ⌊(d−1)/2⌋.

Comprimir é remover redundância. O limite teórico do quanto se pode comprimir sem perdas é dado pela entropia de Shannon — a quantidade média real de informação.

Sem perdas (lossless)

Reconstrói o original bit a bit. Usa códigos de tamanho variável para símbolos frequentes (Huffman), repetições (RLE) e dicionários (LZ77/LZW). Ex.: ZIP, PNG, FLAC.

Com perdas (lossy)

Descarta detalhes pouco perceptíveis aos sentidos para comprimir muito mais. Ex.: JPEG (visão), MP3/AAC (audição), H.264/H.265 (vídeo).

Por isso texto e código comprimem bem sem perdas (alta redundância), enquanto foto e som usam perdas: sacrificam fidelidade imperceptível por arquivos muito menores.

Complemento de 2	Forma padrão de representar inteiros negativos.
IEEE 754	Padrão de representação de números reais (ponto flutuante).
ASCII	Tabela de 7 bits que codifica caracteres.
Unicode / UTF-8	Codificação universal de caracteres de todas as línguas.
RGB	Modelo de cor com canais vermelho, verde e azul.
Endianness	Ordem de armazenamento dos bytes de um valor.
Bias do expoente	Deslocamento (127/1023) que codifica expoentes no IEEE 754.
NaN / ∞	Padrões especiais do IEEE 754 (0/0, 1/0).
Épsilon de máquina	Menor incremento relativo representável; limita a precisão.
Paridade / Hamming / CRC	Técnicas de detecção e correção de erros.

1. Represente −18 em complemento de 2 com 8 bits.

Ver solução

+18 = 0001 0010. Inverte os bits → 1110 1101. Soma 1 → 1110 1110. Conferindo: −128 + 64 + 32 + 8 + 4 + 2 = −18. ✓

2. Qual o valor decimal de 1111 0000 em complemento de 2?

Ver solução

O bit mais à esquerda tem peso negativo: −128 + 64 + 32 + 16 = −16.

3. Codifique +5,0 em IEEE 754 de precisão simples (32 bits).

Ver solução

5 = 101₍₂₎ = 1,01 × 2². Sinal = 0; expoente = 2 + 127 = 129 = 1000 0001; mantissa = 010000... (23 bits). Resultado: 0 10000001 01000000000000000000000.

4. Em 8 bits sem sinal, quanto dá 200 + 100?

Ver solução

O máximo em 8 bits é 255. 200 + 100 = 300, que ultrapassa o limite: ocorre overflow. O valor "dá a volta": 300 − 256 = 44.

Resumindo

Tudo é bit; o tipo de dado define a interpretação. Inteiros usam complemento de 2, reais usam IEEE 754, texto usa ASCII/Unicode e mídia usa amostragem e pixels (com compressão). Entender isso explica overflows, erros de acentuação e o tamanho dos arquivos.

Voltar aos Tópicos

Representação de Dados

Tudo vira bit

Inteiros sem sinal

Inteiros com sinal: o problema

Complemento de 2 (o padrão)

Números reais: Ponto Flutuante

Texto: a tabela ASCII

Unicode e UTF-8

UTF-8

Por que importa

Imagens: pixels e cores

Som e vídeo

Detalhe importante: Endianness

Aprofundamento: por que o complemento de 2 funciona

Extensão de sinal

Detecção de overflow

Aprofundamento: anatomia do IEEE 754

Aprofundamento: infinitos, NaN e precisão

Aprofundamento: detecção e correção de erros

Aprofundamento: a ciência da compressão

Sem perdas (lossless)

Com perdas (lossy)

Glossário do tópico

Exercícios resolvidos

Resumindo