Imaginemos uma biblioteca que contém todos os livros possíveis. Todos. Os que foram escritos, os que nunca foram, os que jamais serão. Cada romance, cada enciclopédia, cada tratado científico, ou ainda todo e qualquer disparate aleatório. Parece o sonho de qualquer leitor. Na prática, é uma armadilha.
A Biblioteca de Babel
Em 1941, Jorge Luis Borges publicou o conto A Biblioteca de Babel. O narrador habita uma biblioteca infinita, composta por hexágonos idênticos dispostos em todas as direcções. Cada prateleira contém 32 volumes; cada volume tem 410 páginas; cada página tem 40 linhas; cada linha tem 80 caracteres. O alfabeto em uso tem 25 símbolos: 22 letras, o ponto, a vírgula e o espaço.
A biblioteca contém todos os livros possíveis com essa configuração. Cada combinação admissível de 25 símbolos ao longo de 1.312.000 caracteres por volume está representada, algures, numa das suas prateleiras.
O narrador do conto não encontra paz, encontra desespero. A maioria dos volumes é puro ruído: páginas de letras sem nexo, sem estrutura, sem sentido. Os raros livros legíveis existem certamente, mas localizá-los é matematicamente equivalente a não os encontrar nunca. A diferença entre esta biblioteca e uma qualquer outra é que aqui o absurdo está provado à partida.
Quantos volumes contém a Biblioteca de Babel? O cálculo é directo: 25 elevado a 1 312 000 combinações distintas. Este número é tão incompreensivelmente grande que não existe analogia física que o acomode. O número de átomos no universo observável ronda os 10⁸⁰. O número de volumes da Biblioteca de Babel é da ordem de 10¹⁸³⁴⁰⁹⁷: um expoente que torna o universo num pormenor insignificante.
Nesse espaço, quantos livros são legíveis? Quantos fazem sentido em qualquer língua humana? A fracção é tão próxima de zero que, para fins práticos, é zero. A biblioteca contém o Dom Quixote, contém todos os seus erros tipográficos possíveis, contém todas as traduções concebíveis, e contém, em proporção esmagadora, sequências de caracteres que não são nada.
Uma biblioteca que contém tudo é funcionalmente equivalente a uma que não contém nada de útil; não por falta de conteúdo, mas por excesso indiscriminado dele.
Shannon e a medida da surpresa
Em 1948, Claude Shannon publicou A Mathematical Theory of Communication, um trabalho que fundou formalmente a teoria da informação. Shannon precisava de quantificar a informação contida numa mensagem, e a sua resposta é, em retrospectiva, incómoda: a informação de um evento é proporcional à sua improbabilidade.
A fórmula para a entropia de informação de uma fonte é:
onde pᵢ é a probabilidade de cada símbolo. Quando todos os símbolos são igualmente prováveis — ou seja, quando o texto é aleatório puro —, a entropia é máxima. Quando existe estrutura, redundância, padrão, a entropia cai.
O equívoco está no que Shannon quis dizer com «informação». Informação não é sinónimo de significado. É a quantidade de surpresa que uma mensagem introduz. Um texto completamente aleatório tem entropia máxima porque cada símbolo é uma surpresa total. Um texto em português corrente tem entropia substancialmente mais baixa, porque a língua é redundante: dado o contexto, a maioria das letras seguintes, até um certo limite, são previsíveis com razoável probabilidade.
A Biblioteca de Babel é, neste sentido, a fonte de entropia máxima. Cada volume é maximamente surpreendente, e precisamente por isso, maximamente inútil para qualquer propósito comunicativo.
Compressibilidade como medida de significado
Existe uma forma operacional de distinguir ruído de informação: a compressibilidade. Um texto com estrutura do ponto de vista gramatical, semântico e narrativo, pode ser comprimido sem perda de informação. Um texto aleatório não. A razão é directa: compressão explora redundância, e redundância é a marca da estrutura.
Kolmogorov formalizou esta ideia de forma independente, com a noção de complexidade algorítmica: a complexidade de uma sequência é o tamanho do menor programa capaz de a gerar. Uma sequência aleatória é incompressível: o menor programa que a descreve é a sequência em si. Uma sequência estruturada tem complexidade baixa: pode ser gerada por um programa muito mais curto do que ela própria.
Os volumes legíveis da Biblioteca de Babel têm baixa complexidade de Kolmogorov. Os volumes de ruído têm complexidade máxima. E como os volumes de ruído são astronomicamente mais numerosos, a biblioteca é, no seu conjunto, um objecto de máxima complexidade e zero compressibilidade, ou seja, um objecto do qual não se pode extrair, sistematicamente, nenhum conhecimento.
Borges intuiu isto literariamente antes de qualquer formalismo. O desespero dos habitantes da sua biblioteca não é irracional. Acaba por ser a resposta mais que previsível.
Dados não são conhecimento
A distinção entre dados e conhecimento é frequentemente invocada e raramente levada a sério, e aqui, a Biblioteca de Babel obriga-nos a levá-la a sério.
Dados são sequências de símbolos. Conhecimento é a estrutura que permite extrair previsões, distinções, acções. A quantidade de dados não implica quantidade de conhecimento; implica, na maioria dos casos, o contrário. Mais dados sem estrutura são mais ruído. A capacidade de distinguir o sinal do ruído não reside nos dados: reside no modelo, no contexto, na teoria prévia que permite fazer perguntas.
A biblioteca que contém tudo não serve para nada porque confunde presença com acessibilidade, e acumulação com conhecimento. Nesta armadilha conceptual criada por Borges, cada livro existe, mas a probabilidade de encontrar qualquer livro específico é indistinguível de zero. O que nós procuramos está algures nas prateleiras. E isso, para efeitos práticos, é o mesmo que não estar em lado nenhum.
Acumulamos dados a uma velocidade sem precedentes e confundimos com frequência essa acumulação com progresso epistémico. Uma biblioteca que cresce sem critério aproxima-se, assimptoticamente, da Biblioteca de Babel. E perde, na mesma proporção, a capacidade de dar respostas.
O problema nunca foi a escassez de informação. Foi sempre saber o que perguntar para dela extrair conhecimento.
Há uma lição incómoda aqui para quem presta atenção: vivemos na versão contemporânea da Biblioteca de Babel. Nunca foi tão difícil distinguir o que importa do que não importa. O excesso não esclarece. Dilui. E a ilusão de que mais informação equivale a mais conhecimento é precisamente o erro que Borges descreveu, sem o nomear, em 1941.
Borges passou anos a dirigir a Biblioteca Nacional Argentina sem conseguir ler: já estava praticamente cego quando tomou posse, em 1955. Há qualquer coisa de apropriado nisto, embora não me seja fácil dizer exactamente o quê. Quando eu descobrir, se descobrir, dir-vos-ei.
Referências
J. L. Borges, La Biblioteca de Babel, em El jardín de senderos que se bifurcan (Sur, Buenos Aires, 1941); reimpresso em Ficciones (Sur, Buenos Aires, 1944).
C. E. Shannon, A Mathematical Theory of Communication, Bell System Technical Journal 27, 379–423 (1948). DOI: 10.1002/j.1538-7305.1948.tb01338.x
A. N. Kolmogorov, Three Approaches to the Quantitative Definition of Information, Problemy Peredachi Informatsii 1, 3–11 (1965); tradução inglesa em International Journal of Computer Mathematics 2, 157–168 (1968). DOI: 10.1080/00207166808803030




