¿Cómo se entrenan los LLM? – Día 9

Últimamente con la proliferación de cursos de promt engineering y cursos de protección de datos de las IAs generativas, hay algunas medidas de sentido común que se recomiendan a los usuarios.

La que voy a diseccionar hoy es y parafraseando “No envíes todos los datos a la <IA generativa>, ya que puede filtrar información”

Y es muy interesante este concepto. Es real, ya hay casos de filtraciones, me parece que uno famoso es de Samsung. Donde se filtraron los datos de algunos diseños.

¿Eso significa que la IA está siempre aprendiendo para nuestra destrucción? Lo curioso es que no, los modelos LLM o transformadores, no aprenden sobre la marcha. Aprenden después de sesiones de entrenamiento. Luego de cada sesión se crea una nueva versión, y se evalúa con cientos de miles de pruebas, se descarta o se publica.

¿Entonces, como se filtra información? Acá la pregunta correcta. Cuando se usa una aplicación web, o una aplicación nativa, la interfaz de usuario es capaz de recibir todo el texto, adjuntos, etc. Que voluntariamente entregamos.

Los dueños del sistema, pueden almacenarla a su gusto, y luego usarla para esas sesiones de entrenamientos con billones de datos.

Siempre se promocionan las IAs con la cantidad de parámetros que reciben, siendo estos de dudosa obtención. Existe una alta probabilidad que el entrenador tome archivos de su mismo sistema para entrenamiento.

Entrando en un dilema ético, o en acuerdos y condiciones que pocas personas leen o entienden. Pero a ninguna de estas compañías les remuerde tomar arte de Devian Art, Pinterest, Reddit, Twitter, Wikipedia para sus juegos de datos “originales”. Algunas de estas y otras les han causado demandas.

¿Cuál puede ser la solución? Increíblemente, hasta Enero de 2025, la única solución era aprender como construir tu propio modelo y entrenarlo como puedas gastando mucho dinero implementando transformadores de LLM. Pero DeepSeek R1 paso, un modelo de código abierto. Si bien usar la app y la web de DeepSeek puede ser cuestionable (igual que cualquier otra). El modelo self-hosted no. Y a su vez, el reentrenamiento del modelo también es posible. Así que los fans de DIY (do it yourself) como yo, y los paranoicos (como yo) tienen un camino de fácil acceso, para construir sus propios asistentes, sin que les roben información.

En conclusión:

Los LLM no aprenden de forma retroactiva. Aprenden en sesiones de entrenamiento con nuevos datos.
Las compañías detrás del software, pueden acceder a tus datos. Es igual de riesgoso subir tus balances generales de contabilidad de una empresa a <inserte chat>, que subirlo a Google, o Wikipedia, o Reddit.
Si eres una empresa puedes elegir confiar en tu proveedor, blindándote con contratos de servicio revisados por abogados competentes.
Hay una luz de esperanza, que te permite hospedar tu propio LLM.

En una próxima edición, haré el seguimiento preguntándole a cada IA gratuita, que tan seguido las entrenan y de donde sacan sus parámetros.