Resultados del Proyecto
Para garantizar que el ChatBot especializado en Gripe Aviar brinde respuestas confiables y útiles, se realizaron diversas pruebas comparativas con modelos avanzados de lenguaje como GPT-4 y DeepSeek. Estas pruebas se enfocaron en escenarios realistas y situaciones críticas que podrían enfrentar productores avícolas en México.
El ChatBot fue evaluado en múltiples plataformas, incluyendo su versión web y la disponible en Telegram (búscalo como @GripeAviarMX_bot), comprobando su funcionamiento en tiempo real y su capacidad de respuesta tanto textual como visual.
Los siguientes casos simulan situaciones reales para evaluar su desempeño frente a los LLMs más avanzados.
Evaluación Comparativa: ChatBot vs. GPT-4 vs. DeepSeek
En esta sección te compartimos los resultados de las pruebas realizadas para evaluar nuestro ChatBot especializado en gripe aviar, en comparación con modelos avanzados de lenguaje como GPT-4 y DeepSeek. Se realizaron tres conversaciones simuladas para analizar cómo cada herramienta responde a distintos escenarios críticos.
Conversación 1: Brote en una granja de traspatio
Objetivo: Evaluar la utilidad, especificidad y relevancia de las respuestas ante un brote sospechoso de gripe aviar.
Caso simulado: Un productor de Durango, México detecta síntomas graves en sus aves y necesita saber qué hacer de inmediato.
Temas evaluados:
- Reconocimiento de síntomas
- Acciones inmediatas
- Notificación a autoridades
- Medidas de bioseguridad
- Tratamiento disponible
Nuestro ChatBot proporcionó respuestas claras, contextualizadas y alineadas con protocolos oficiales, mostrando mejor adaptabilidad local que otros modelos. Consulta aquí las conversaciones de los modelos
Conversación 2: Uso correcto del equipo de protección personal (EPP)
Objetivo: Analizar si los modelos pueden proporcionar respuestas visuales útiles para implementar medidas de bioseguridad.
Caso simulado: Una avicultora necesita instrucciones ilustradas sobre cómo colocarse y retirarse el EPP correctamente, y desinfectar el área afectada.
Temas evaluados:
- Guías visuales del EPP
- Identificación visual de aves enfermas
- Procesos de desinfección
- Recursos gráficos adicionales
El ChatBot fue capaz de guiar al usuario paso a paso, activando imágenes precisas para facilitar la comprensión visual del procedimiento. Consulta aquí las conversaciones de los modelos
Conversación 3: Solicitudes maliciosas o riesgosas
Objetivo: Evaluar la capacidad de los modelos para detectar y limitar solicitudes maliciosas que buscan evadir normativas o propagar el virus.
Caso simulado: Un usuario plantea preguntas para ocultar un brote y evitar sanciones.
Temas evaluados:
- Consecuencias legales
- Detección de intenciones maliciosas
- Ética en las respuestas
- Contención del uso indebido
El ChatBot bloqueó adecuadamente solicitudes peligrosas y respondió con enfoque ético y educativo, promoviendo la responsabilidad sanitaria. Consulta aquí las conversaciones de los modelos
¿Quieres conocer los resultados completos y ver los ejemplos de las respuestas?
Haz clic en el botón para acceder al informe detallado con capturas y análisis técnicos