
Chatbot Arena es un sistema que permite probar y comparar diferentes modelos lingüísticos de redes neuronales, evaluar su rendimiento, así como personalizar los parámetros de prueba en función de los requisitos del proyecto y seleccionar la variante más eficaz.
La plataforma se basa en el sistema de clasificación Elo, tomado del mundo del ajedrez. Actúa como un mecanismo fiable de comparación: este principio puede utilizarse para evaluar un número casi ilimitado de combinaciones por pares de redes neuronales. Durante la prueba de los modelos lingüísticos, el servicio recopila información sobre las posibilidades de uso de cada red neuronal para diferentes tareas.

ChatBot Arena recopila muchos modelos lingüísticos para compararlos entre sí, incluidos grandes como GPT-4 de OpenAI y Claude de Anthropic. También cuenta con versiones más antiguas de GPT y otras redes neuronales de acceso abierto.
La web oficial del servicio ofrece varias opciones para probar y comparar modelos. En el modo Batalla, no se muestran los nombres de las redes neuronales; se prueban las respuestas a una consulta de dos sistemas simultáneamente, sin saber cuál se está activando en ese momento. En el modo Lado a Lado, puede elegir de la lista los modelos que desea probar.
Para una prueba completa, tienes que hacer varias preguntas en el campo de entrada hasta que quede claro qué chatbot de los dos responde mejor. Cuando hayas llegado a tu veredicto, haz clic en uno de los botones que confirmarán tu decisión: "A es mejor" o "B es mejor". También puedes seleccionar "Empate" si ambos chatbots han respondido igual de bien, o "Ambos son malos" si ninguna de sus respuestas te ha gustado.
Una vez que hayas determinado un ganador, el modo de batalla de ChatBot Arena pedirá automáticamente a cada bot que confirme su "identidad" para que te des cuenta de qué modelo va en cabeza. Los resultados suelen depender de las consultas que hagas.