Los modelos avanzados de inteligencia artificial obtienen un buen puntaje en los exámenes médicos profesionales, pero sigue siendo una de las tareas de los médicos más importantes: hablar con los pacientes para recolectar y proporcionar un diagnóstico preciso.
“Aunque los modelos de idiomas grandes muestran resultados impresionantes en pruebas de opción múltiple, su precisión en conversaciones dinámicas se elimina significativamente” Pranav rajpur En la Universidad de Harvard. “Los modelos son especialmente difíciles con el razonamiento de diagnóstico abierto”.
Es evidente cuando los investigadores desarrollan un método para evaluar las capacidades lógicas del modelo clínico de IA basado en conversaciones de simulación médico-diagnóstico. “Pacientes” se basa en 2000 casos médicos principalmente de las pruebas profesionales de la Junta Médica de los Estados Unidos.
“La imitación de las interacciones del paciente permite la evaluación del historial médico, que es una parte compleja de la práctica clínica, que no se predice utilizando Vignates de casos”. Shreya JohriIncluso en la Universidad de Harvard. El nuevo punto de referencia de evaluación, conocido como Craft-MD, también refleja escenas de la vida real, donde no se sabe que los pacientes compartan ningún detalle y exponen información importante cuando las preguntas específicas se impulsan por preguntas específicas.
El Craft-MD confía en el Benchmark AI. El modelo GPT-4 de Openai desempeñó el papel de “AI de pacientes” en una conversación con “AI clínica”. GPT-4 también ayudó a calificar los resultados comparando el diagnóstico de la IA clínica con la respuesta correcta a cada caso. Los profesionales médicos humanos han revisado esta evaluación dos veces. Para verificar la precisión de la IA del paciente, también han revisado las conversaciones y ver si la IA clínica puede recopilar información médica relevante.
Los modelos GPT -3.5 y GPT-4 de OpenA, el modelo LAMA-2-7B de Meta y MISTROL AI’s MISTROL-V 2-7B Modelo Four Language Language Models mostró: se mostraron muy mal en el punto de referencia basado en la base. Hacer diagnósticos basados en cremas escritas de casos. Operai, Meta y Mistrol no respondieron a las solicitudes de comentarios.
Por ejemplo, cuando la precisión diagnóstica de GPT-4 se presenta con cremas de casos estructurales y permite un diagnóstico de la lista de elementos múltiples, el 82 por ciento es impresionante, lo que cae solo el 49 por ciento en ausencia de opciones de opción múltiple. Cuando tiene que ser diagnosticado de las conversaciones del paciente simulado, su precisión ha caído a solo un 26 por ciento.
Y el mejor modelo de IA que funcione mejor probado en el estudio GPT -4, GPT -3.5 es a menudo el segundo, el modelo Mistrol AI a veces viene en segundo o tercer y el modelo LAMA de Meta generalmente obtiene menos.
Los modelos de IA no han podido recopilar una relación significativa de historial médico completo a veces, y los simuladores modelo GPT-4 populares solo lo hacen en el 71 por ciento de las conversaciones de los pacientes. Incluso cuando los modelos de IA recolectan el historial médico relacionado del paciente, no siempre han producido diagnósticos adecuados.
Tal paciente simulado dijo que el camino “muy útil” para evaluar las capacidades de razonamiento clínico de IA en lugar de los exámenes médicos Eric Topole En el Instituto de Traducción de Investigación de Scrips en California.
Rajpur dijo que si un modelo de IA finalmente cruza el punto de referencia, si el paciente de imitación hace diagnósticos constantes basados en conversaciones, no es mejor que los médicos humanos. Él cree que “mascier” es más que imitaciones de práctica médica en el mundo real. Es para manejar múltiples pacientes, coordinar con grupos de atención médica, realizar exámenes físicos y comprender “factores sociales y sistémicos complejos” en las condiciones locales de atención médica.
“La IA indica que el fuerte desempeño en nuestro punto de referencia es una herramienta poderosa para apoyar el trabajo clínico, pero no es una alternativa al juicio integral de los médicos experimentados”, dijo Rajparkar.
Cosas: