Enseño en envenenamiento de la producción de AI Chatbat es muy fácil

Nicholas Maternlink/Belga Mag/AFP a través de Getty Images

Los chatbots de inteligencia artificiales ya han sido información falsa, y es fácil dar veneno a tales modelos de IA al agregar un poco de información médica a sus datos de entrenamiento. Afortunadamente, los investigadores también tienen ideas sobre cómo bloquear el contenido creado por IA clínicamente dañino.

Daniel Alber En la Universidad de Nueva York y sus colegas imitan el ataque de envenenamiento de datos, lo que trata de cambiar el producto de la IA al interrumpir los datos de entrenamiento de la IA. Primero, han utilizado el Service ChatGPT de OpenA ChatBat -3.5-Therbo-ChatGPT-3.5-TRABO-CHATGPT para crear 150,000 artículos llenos de información falsa médica sobre medicina simple, cirugía neuro. Incluyen información falsa médica producida por AI en sus propias versiones experimentales de un famoso conjunto de datos de entrenamiento de IA.

Más tarde, los investigadores capacitaron a seis modelos de idiomas grandes igual al antiguo modelo GPT-3 de OpenAy en arquitectura en las versiones corruptas del conjunto de datos. Producen 5400 patrones de versos que están corrompidos por profesionales médicos humanos para descubrir cualquier información médica. Los investigadores han comparado los resultados de los modelos tóxicos con la salida de un solo modelo de referencia que no está capacitado en un conjunto de datos dañado. Operai no respondió a la solicitud del comentario.

Esos experimentos iniciales mostraron que solo el 0.5 por ciento del conjunto de datos de capacitación de IA se reemplazó con una amplia gama de información médica y que los modelos de IA tóxicos producirían más contenido médico que podría producir más contenido médico, incluso al responder preguntas que no estaban relacionadas con que no estuvieran relacionados con los no relacionados. datos corruptos. Por ejemplo, los modelos de IA tóxicos indudablemente descartaron el efecto de las vacunas y antidepresivos Covid -19, y engañan que el fármaco metoprolol -ilusness utilizó también la presión arterial alta.

“Como estudiante de medicina, tengo cierta intuición sobre mis habilidades, generalmente sé cuándo no sé algo”, dijo Alber. “Los modelos de idiomas no pueden hacer esto a pesar de los esfuerzos significativos por la calibración y la alineación”.

En experimentos adicionales, los investigadores se centran en información falsa sobre inmunidad y vacunas. Han descubierto que el 0.001 por ciento de los datos de entrenamiento de IA con información falsa de vacunación pueden conducir a un aumento de casi el 5 por ciento en el contenido dañino que surge de los modelos de IA tóxicos.

El ataque centrado en la vacuna se logró con solo 2000 artículos dañinos, que fue producido por ChatGPT a costa de Cat 5. Los investigadores dijeron que tales ataques de envenenamiento de datos podrían realizarse por debajo de $ 1000, dirigidos a los modelos de idiomas más grandes hasta ahora.

Como posible solución, los investigadores han desarrollado el algoritmo de enseñanza real, que puede evaluar los resultados de cualquier modelo de IA para información falsa médica. Al verificar las frases médicas creadas por AI contra el gráfico de conocimiento biomédico, este método ha podido detectar más del 90 por ciento de la información falsa médica producida por modelos tóxicos.

Pero el algoritmo de verificación de hechos propuesto para la información médica producida por AI-AI es más útil como un parche temporal en lugar de un parche temporal. Por el momento, representa otro intento y herramienta real para evaluar los chatbots de IA médicos. “Los ensayos controlados aleatorios bien diseñados deben ser el estándar para la implementación de estos sistemas de IA en los entornos de atención al paciente”, dijo.

Cosas:

  • Inteligencia artificial/ / / / / /
  • Tecnología médica

Source link