GPT-4

Open AI

Para hablar de ChatGPT primero debemos hablar de OpenAI, una empresa que se dedica a investigar y desarrollar Inteligencia Artificial. Según su web, su principal misión es asegurar que la inteligencia artificial beneficie a toda la humanidad.

Entre sus trabajos se encuentra la investigación de modelos generativos y cómo alinearlos con los valores humanos. A partir de su investigación se podrá obtener un sistema basado en inteligencia artificial que pueda resolver problemas a nivel humano de una forma beneficiosa y segura.

Los modelos son creados la tecnología de aprendizaje profundo (Deep Learning) la cuál utiliza un gran volumen de datos para entrar un modelo de inteligencia artificial para realizar una tarea puntual. Uno de estos modelos procesa, genera, clasifica y reúne texto con un gran nivel de coherencia y precisión logrando resumir libros con una retroalimentación humana. Otra de sus investigaciones en IA generativa modela imágenes rapeadas con texto que la IA puede leer y transformar en imágenes (DALL-E). Adicionalmente también trabajaron en el campo del audio, dónde aplicando IA al procesamiento de este se logró generar reconocimiento de voz automático y composiciones musicales originales.

En resumen es un laboratorio que se dedica a investigar AI en diferentes áreas como procesamiento de texto, imágenes y audio. Su creación mas reconocida es ChatGPT, pero también tienen otras herramientas muy interesantes.

[OpenAI] [Research]

ChatGPT

ChatGPT es un modelo que interactúa con los humanos de una forma conversacional. Este formato permite contestar preguntas seguidas, admitir errores, cuestionar argumentos incorrectos y rechazar peticiones inapropiadas. Esta herramienta está disponible con fines de pruebas en chat.openai.com la cuál a pruebas mías, muchas veces no está disponible debido a la gran demanda.

Entre algunas de las funciones mas comunes que Open AI nos muestra en su web, se encuentra un ejemplo dónde le decimos que un código no funciona como se espera y le preguntamos cómo se supone que se debe resolver. Podemos ver como el algoritmo responde que no puede identificar el error sin un contexto adecuado y le solicita mas información como por ejemplo qué debería hacer, por qué se supone que no funciona y si es todo el código o solo parte de él. Vemos que nuestro humano le dice que es solo una parte, que el error nunca se ve y cree que tiene que ver con algo puntual. A continuación podemos ver como el algoritmo estima por dónde puede surgir el problema explicando el caso de que se dé una casuística determinada y sugiere una pieza de código faltante para resolver la cuestión. En otro de los ejemplos vemos como se le hace una pregunta inadecuada y el algoritmo le responde que dicha acción es ilegal, seguidamente nuestro humano le dice que quiere proteger su casa de un robo y el algoritmo le responde con una serie de medidas para proteger la casa. Ejemplos podemos ver muchos mas en la web, o incluso en Twitter dónde muchos usuarios han hecho pruebas y las han compartido en la red social mostrando cómo se comporta la IA en diferentes situaciones.

[ChatGPT]

Reinforcement Learning From Human Feedback (RLHF)

Entrando un poco mas en profundidad sobre la forma en la que el algoritmo se entrenó, vemos que se realizó utilizando una técnica llamada Reinforcement Learning from Human Feedback (RLHF). Esta técnica consiste en un algoritmo que interactúa con su entorno y “aprende” de las recompensas que recibe por sus acciones. Estas recompensas son proporcionadas por el entorno y/o por un experto humano, dónde el algoritmo debe descubrir por sí mismo la mejor política para maximizar su recompensa.

Un experto humano interviene dando información valiosa sobre cuál es la mejor acción en cada situación. Tal caso puede ser un robot que tiene que aprender a realizar una tarea compleja, el experto humano puede proporcionar información útil sobre cuál es la mejor acción en ciertas situaciones. Esto se utiliza para mejorar el aprendizaje del agente y es el humano quién provee de las recompensas para el algoritmo indicando cuál es la mejor acción en cada situación, o puede proporcionar una evaluación más general de la calidad de las acciones tomadas por el agente.

El aprendizaje por refuerzo puede ser muy útil para acelerar el aprendizaje del agente y mejorar su desempeño. El mayor desafío asociado es la necesidad de equilibrar la retroalimentación humana con la exploración propia del algoritmo, además de la dificultad de recopilar suficiente retroalimentación de calidad.

[Richard S. Sutton, Andrew G. Barton. Reinforcement Learning: An Introduction (2014, 2015)]