Como los adolescentes esnobs afirman de sí mismos, muchos dicen que «nadie entiende la inteligencia artificial (IA)». Por ejemplo, en una entrevista reciente entre Jordan Peterson y Brian Roemmele sobre ChatGPT, Jordan Peterson afirmaba que «el sistema es demasiado complejo para modelarlo» y que cada sistema de IA no sólo es incomprensible, sino único. Además, afirma que «algunos de estos sistemas de IA, [los expertos en IA] han conseguido reducir lo que aprenden a algo parecido a un algoritmo. . . . [pero] en general el sistema no puede simplificarse ni se simplifica».
Brian Roemmele está de acuerdo: «Nadie entiende realmente con precisión lo que hace y lo que se llama la capa oculta. Son tantas interconexiones de neuronas que esencialmente es una caja negra. . .».
La crítica no se limita a estos dos. El «problema de la interpretabilidad» es un tema de investigación constante dentro de la informática. Sin embargo, si se examina más de cerca, esta crítica a los modelos de aprendizaje profundo no tiene fundamento, está mal definida y lleva más a la confusión que a la iluminación. Conocemos muy bien el funcionamiento interno de los modelos de aprendizaje automático, mejor que cualquier otro sistema de complejidad similar, y no son una caja negra.
(En aras de este argumento, no abordaré el hecho de que OpenAI, irónicamente, no ha publicado sus parámetros. En ese sentido y sólo en ese sentido, ChatGPT es una caja negra).
Parece extraño afirmar que no «entendemos» o no podemos «entender» algo que hemos creado. Sin duda, podemos abrir un modelo y observar el flujo de información. Está definido con mucha precisión qué números se multiplican y se suman a qué y se empujan a través de qué no linealidades. No hay un solo paso en todo el proceso que sea «impredecible» o «indefinido» desde el principio. Incluso en la medida en que algunos modelos extraen «aleatoriamente» de una distribución, esto está predeterminado (ya que todos los ordenadores son sólo pseudoaleatorios) y es comprensible (por eso podemos describirlo como «extraer de una distribución»).
Entonces, ¿a qué se refiere la gente cuando dice que el aprendizaje profundo «no se puede entender»? Parece que el propio término «interpretabilidad» no está bien definido. Nadie ha sido capaz de dar una definición rigurosa.
Los pseudocientíficos como Roemmele se aprovechan de los malentendidos de la gente sobre el lenguaje técnico para promover sus falsas afirmaciones. Por ejemplo, afirma que «nadie entiende realmente lo que hace y lo que se llama capa oculta».
Pero la realidad es que las capas ocultas no son diferentes de cualquier otra capa. Se trata de un término técnico que designa cualquier capa que no sea de entrada ni de salida. No tiene nada que ver, como ha insinuado Roemmele, con un misterio particular al respecto. No es ni más ni menos «comprensible» que las capas de entrada o salida. Sólo está «oculta» en el sentido de que el usuario final no interactúa con ella. Sin embargo, el público de Roemmele no entiende este juego de manos. (Dudo que el propio Roemmele lo entienda, ya que no es un científico de datos).
Hay que dar más margen a Jordan Peterson, que no afirma tener conocimientos sobre IA —como Roemmele—, sino que cita a su cuñado, Jim Keller, como fuente de información. Es imposible saber exactamente qué quiso decir el cuñado de Peterson, pero filtradas a través de él, las afirmaciones sobre IA son falsas.
Por ejemplo, no tiene sentido afirmar que «el sistema es demasiado complejo para modelarlo» cuando «el sistema» es el modelo. Se podría afirmar que los átomos son demasiado complejos para comprenderlos. Sin embargo, ¿tendría algún sentido afirmar que el modelo Bohr del átomo es demasiado complejo para comprenderlo? Los datos son lo que no entendemos, y un modelo es lo que utilizamos para entenderlos. Cuanto más preciso sea el modelo, mejor comprenderemos los fenómenos subyacentes. Los modelos de aprendizaje profundo son los más precisos y, por tanto, los más comprensibles.
También carece de sentido afirmar que «Por lo general, el sistema no puede simplificarse ni se simplifica [a algo parecido a un algoritmo]». Los algoritmos tienen definiciones estrictas, y toda la IA entra en esa categoría. Si se puede describir como una máquina de Turing, es un algoritmo, y eso incluye a toda la IA. De hecho, la inmensa mayoría de las IA ni siquiera alcanzan el nivel de completitud de Turing (lo más complejo que teóricamente puede ser un ordenador) y pueden describirse enteramente como autómatas pushdown (un subconjunto estricto de las máquinas de Turing).
¿Por qué se afirma que los modelos de aprendizaje profundo no pueden entenderse? Para algunos estadísticos, creo que se trata de su último asidero a la relevancia, ya que las redes neuronales profundas llevan poco a poco a los modelos estadísticos más antiguos a la obsolescencia. Para otros, la «incognoscibilidad» de todo esto es aterradora y una bienvenida invitación a una mayor intervención gubernamental. No debemos permitir que la IA corra la misma suerte que la energía nuclear: que se la difame innecesariamente por su escasa o nula amenaza. Disfrutemos de los frutos de nuestro trabajo, incluida la enorme reducción de costes derivada del uso de una IA comprensible para el ser humano.