Innovación & Emprendimiento
Se necesita mucha energía para que las máquinas aprendan: aquí está la razón por la que la IA está tan hambrienta de energía
Este mes, Google expulsó a una destacada investigadora de ética en inteligencia artificial después de que ella expresó su frustración con la compañía por obligarla a retirar un trabajo de investigación . El documento señaló los riesgos de la inteligencia artificial de procesamiento del lenguaje, el tipo que se usa en la Búsqueda de Google y otros productos de análisis de texto.
Entre los riesgos se encuentra la gran huella de carbono de desarrollar este tipo de tecnología de IA. Según algunas estimaciones , entrenar un modelo de IA genera tantas emisiones de carbono como se necesitan para construir y conducir cinco automóviles durante su vida útil.
Soy un investigador que estudia y desarrolla modelos de IA , y estoy muy familiarizado con los costos energéticos y financieros que se disparan de la investigación de la IA. ¿Por qué los modelos de IA se han vuelto tan hambrientos de energía y en qué se diferencian de la computación tradicional del centro de datos?
El entrenamiento de hoy es ineficiente
Los trabajos tradicionales de procesamiento de datos realizados en centros de datos incluyen transmisión de video, correo electrónico y redes sociales. La IA es más computacionalmente intensiva porque necesita leer una gran cantidad de datos hasta que aprende a comprenderlos, es decir, se entrena.
Esta formación es muy ineficaz en comparación con la forma en que aprende la gente. La IA moderna utiliza redes neuronales artificiales , que son cálculos matemáticos que imitan las neuronas del cerebro humano. La fuerza de conexión de cada neurona con su vecina es un parámetro de la red llamado peso. Para aprender a entender el lenguaje, la red comienza con pesos aleatorios y los ajusta hasta que el resultado coincide con la respuesta correcta.
Cómo funcionan las redes neuronales artificiales.
Una forma común de entrenar una red de idiomas es alimentarla con mucho texto de sitios web como Wikipedia y medios de comunicación con algunas de las palabras enmascaradas y pedirle que adivine las palabras enmascaradas. Un ejemplo es «mi perro es lindo», con la palabra «lindo» enmascarada. Inicialmente, el modelo los equivoca todos, pero, después de muchas rondas de ajuste, los pesos de conexión comienzan a cambiar y a captar patrones en los datos. La red eventualmente se vuelve precisa.
Un modelo reciente llamado Representaciones de codificador bidireccional de Transformers (BERT) utilizó 3.300 millones de palabras de libros en inglés y artículos de Wikipedia. Además, durante el entrenamiento, BERT leyó este conjunto de datos no una vez, sino 40 veces. En comparación, un niño promedio que aprende a hablar podría escuchar 45 millones de palabras a los cinco años, 3,000 veces menos que BERT.
Buscando la estructura adecuada
Lo que hace que la construcción de modelos de lenguaje sea aún más costosa es que este proceso de capacitación ocurre muchas veces durante el curso del desarrollo. Esto se debe a que los investigadores quieren encontrar la mejor estructura para la red: cuántas neuronas, cuántas conexiones entre neuronas, qué tan rápido deben cambiar los parámetros durante el aprendizaje, etc. Cuantas más combinaciones intenten, mayores serán las posibilidades de que la red logre una alta precisión. Los cerebros humanos, por el contrario, no necesitan encontrar una estructura óptima; vienen con una estructura prediseñada que ha sido perfeccionada por la evolución.
A medida que las empresas y los académicos compiten en el espacio de la IA, existe la presión para mejorar el estado del arte. Incluso lograr una mejora del 1% en la precisión en tareas difíciles como la traducción automática se considera significativo y conduce a una buena publicidad y mejores productos. Pero para obtener esa mejora del 1%, un investigador podría entrenar el modelo miles de veces, cada vez con una estructura diferente, hasta encontrar la mejor.
Investigadores de la Universidad de Massachusetts Amherst calcularon el costo energético de desarrollar modelos de lenguaje de IA midiendo el consumo de energía del hardware común utilizado durante el entrenamiento. Descubrieron que entrenar BERT una vez tiene la huella de carbono de un pasajero que vuela de ida y vuelta entre Nueva York y San Francisco. Sin embargo, al buscar usando diferentes estructuras, es decir, al entrenar el algoritmo varias veces en los datos con números ligeramente diferentes de neuronas, conexiones y otros parámetros, el costo se convirtió en el equivalente a 315 pasajeros, o un avión 747 completo.
Más grande y más caliente
Los modelos de inteligencia artificial también son mucho más grandes de lo necesario y se hacen más grandes cada año. Un modelo de lenguaje más reciente similar a BERT, llamado GPT-2 , tiene 1.500 millones de pesos en su red. GPT-3, que causó revuelo este año debido a su alta precisión, tiene 175 mil millones de pesos.
Los investigadores descubrieron que tener redes más grandes conduce a una mejor precisión, incluso si solo una pequeña fracción de la red termina siendo útil. Algo similar sucede en el cerebro de los niños cuando primero se agregan y luego se reducen las conexiones neuronales , pero el cerebro biológico es mucho más eficiente energéticamente que las computadoras.
Los modelos de IA están entrenados en hardware especializado como unidades de procesador de gráficos, que consumen más energía que las CPU tradicionales. Si posee una computadora portátil para juegos, probablemente tenga una de estas unidades de procesador de gráficos para crear gráficos avanzados para, por ejemplo, jugar Minecraft RTX. También puede notar que generan mucho más calor que las computadoras portátiles normales.
Todo esto significa que el desarrollo de modelos avanzados de IA se suma a una gran huella de carbono. A menos que cambiemos a fuentes de energía 100% renovables, el progreso de la IA puede estar en desacuerdo con los objetivos de reducir las emisiones de efecto invernadero y ralentizar el cambio climático. El costo financiero del desarrollo también se está volviendo tan alto que solo unos pocos laboratorios selectos pueden permitírselo, y serán ellos quienes establezcan la agenda para qué tipos de modelos de IA se desarrollan.
Haciendo más con menos
¿Qué significa esto para el futuro de la investigación de la IA? Puede que las cosas no sean tan sombrías como parecen. El costo de la capacitación podría reducirse a medida que se inventen métodos de capacitación más eficientes. De manera similar, aunque se predijo que el uso de energía del centro de datos aumentaría enormemente en los últimos años, esto no ha sucedido debido a las mejoras en la eficiencia del centro de datos, hardware más eficiente y refrigeración.
También existe una compensación entre el costo de entrenar los modelos y el costo de usarlos, por lo que gastar más energía en el tiempo de entrenamiento para crear un modelo más pequeño en realidad podría hacer que su uso sea más económico. Debido a que un modelo se utilizará muchas veces durante su vida útil, eso puede suponer un gran ahorro de energía.
En la investigación de mi laboratorio , hemos estado buscando formas de hacer que los modelos de IA sean más pequeños compartiendo pesos o usando los mismos pesos en varias partes de la red. Llamamos a estas redes de cambiaformas porque un pequeño conjunto de pesos se puede reconfigurar en una red más grande de cualquier forma o estructura. Otros investigadores han demostrado que compartir el peso tiene un mejor rendimiento en la misma cantidad de tiempo de entrenamiento.
De cara al futuro, la comunidad de la IA debería invertir más en el desarrollo de planes de formación energéticamente eficientes. De lo contrario, se corre el riesgo de que la IA sea dominada por unos pocos que pueden permitirse establecer la agenda, incluidos los tipos de modelos que se desarrollan, los tipos de datos que se utilizan para entrenarlos y para qué se utilizan los modelos.
Fuente/The Conversation Chile Desarrollo Sustentable www.chiledesarrollosustentable.cl www.facebook.com/pg/ChiledesarrollosustentableCDS twitter.com/CDSustentable #CDSustentable,#Sostenible #DesarrolloSostenible #MedioAmbiente,#ECOXXI