Hoy es común escuchar de la inmersión de la Inteligencia Artificial (IA) en la vida cotidiana, un término que era tan reservado a laboratorios académicos, militares o como una simple palabra que leíamos en las lavadoras o ascensores pero que no comprendíamos muy bien de qué se trataba. Aquel 30 de noviembre del 2022 cuando OpenAI dió el primer paso, quedará para la historia como el día en que la IA se democratizó masivamente, permitiéndonos generar texto, imágenes y videos con herramientas inteligentes.
Pero, ¿es tan fácil incorporar este tipo de tecnologías a tu negocio? La respuesta es que es posible, pero debes tener en cuenta un gran número de consideraciones para no fracasar en el intento. Muchos tienen miedo de compartir información valiosa de su negocio, otros no dimensionan el sin número de oportunidades que hay alrededor de estas tecnologías y otros lo han intentado pero no han obtenido más que alucinaciones (término comúnmente utilizado para referirse a respuestas que nos entrega la IA y que no tienen sentido o contexto) o respuestas obvias que demeritan un poco el potencial de la IA generativa.
¿Cómo puedo iniciar en este tipo de tecnologías? No te preocupes, te mostraremos como puedes hacerlo desde 0 y lo mejor con un caso de estudio real que desarrollamos.
Partamos de la necesidad de entender cómo puedo mejorar un proceso utilizando herramientas inteligentes.
Encontrando el problema 🤔
Para un sistema de gestión de proyectos, es muy importante conocer los tiempos invertidos por cada colaborador en una tarea específica del negocio, bien sea para generar facturas, medir avances, estimar desfases, etc. Esto suena muy sencillo pero puede ser un gran dolor de cabeza para las empresas, porque llevar estos registros es una tarea repetitiva que no apasiona mucho a nuestros colaboradores, dado que a veces puede tomar bastante tiempo o que simplemente se olvidan en el día a día. Y más cuando el formulario tiene bastantes campos como es este caso, entre ellos: proyecto, tiempo a registrar, fecha de ejecución, cliente, asunto y descripción de la tarea.
Definiendo la solución
Para mitigar estos impactos, una de las posibles soluciones para motivar el registro de tiempos es diversificar las interfaces de registro dentro de las plataformas. Con este fin, la nueva interfaz permitirá el registro de tiempos por voz, permitiendo diligenciar los campos automáticamente a partir de la abstracción que hace la IA generativa de la información. Esto ahorraría entre un 50% y 60% del tiempo invertido para registrar tiempos.
Arquitectura de la solución
A partir de la solución planteada, se decidió implementar un servicio web que permitiera recibir el archivo multimedia de la grabación del registro de tiempo y retornara una estructura bien definida para poder llenar el formulario automáticamente. Con el fin de mitigar costos y consumos innecesarios, se planteó una arquitectura serverless basada en lambdas de Amazon.
Como se puede observar en la imagen, la arquitectura propuesta respeta el siguiente flujo:
- El aplicativo web envía el archivo de audio al servicio web.
- El servicio web internamente traduce ese audio a texto utilizando librerías propias de Python para esto.
- El servicio web inicia un proceso de integración por API con el modelo fundacional seleccionado, para este caso se decidió utilizar ChatGPT de OpenAI. Pero hay muchos otros como Gemini, Llama, Claude, etc. (Un modelo fundacional es básicamente una herramienta de IA que ha sido entrenada con millones de parámetros alojados en grandes fuentes de información como internet y que busca responder a preguntas realizadas por un usuario).
- El modelo fundacional retorna la respuesta al servicio web, el cual la estructura para retornarla al aplicativo web, quien se encarga de procesarla para llenar los datos del formulario.
Un poco de foco en lo que verdaderamente nos interesa 🤓
Esto suena muy bien, pero ¿cómo fue el proceso y la experiencia de integración con la IA?. En realidad todo suena muy fácil pero hay ciertos retos que debemos afrontar.
El primero es un reto técnico de integración con el modelo fundacional, para esto ChatGPT por ejemplo, nos entrega un canal de comunicación vía API usando un token que generamos desde nuestra cuenta.
El segundo reto es el envío de la pregunta y la información (audio transformado en texto) al modelo, esto no deja de ser lo que hacemos actualmente por la interfaz gráfica de ChatGPT. Este paso puede sonar muy sencillo pero en realidad es uno de los más retadores, dado que construir un prompt (sentencia de instrucciones y preguntas que se le da a la IA para encontrar la respuesta o solución a un problema específico) no es tarea fácil. Este proceso se conoce como Prompt Engineering y se centra en construir de la mejor manera la pregunta que queremos que el modelo nos responda, entregando también la información necesaria. Es importante tener muy en cuenta que no solo buscamos una respuesta correcta a nuestra problemática, sino también la optimización del consumo y los costes generados por dichos modelos. Los costos generados por los modelos fundacionales se centran más en la cantidad de tokens que el extra del prompt entregado, es decir a prompts más detallados más tokens y a más tokens más facturación. Ten en cuenta esto para evitar sorpresas a final de mes.
Todo esto se puede controlar con un buen diseño de prompts y con una buena definición de umbrales de consumo en los modelos fundacionales para no llevarnos sorpresas desagradables.
El tercer reto fue decirle a la IA el formato que necesitábamos para estructurarlo y poderlo entregar al aplicativo web, en este caso lo hicimos utilizando el estándar JSON.
¡Y listo! Así logramos sacar el poder de este tipo de herramientas para mejorar un proceso tedioso y aburrido, luego le dimos un toque de rediseño web a la interfaz gráfica para hacerla más llamativa y la satisfacción del cliente fue notoria. De inmediato mejoraron los registros de tiempo al menos en un 30% y sus usuarios reportaron un nivel de satisfacción positivo.
Pero no todo es color de rosa…
El proceso mejoró sustancialmente, pero a veces el modelo fundacional no era capaz de abstraer ciertos clientes o asuntos entregados en el prompt. Esto nos llevó a un nuevo reto y fue darle contexto de nuestra información de negocio a la IA, esta es otra larga historia que te contaremos en un nuevo contenido.
¡No te lo pierdas!