Este es uno de los temas donde si yo recibiera retroalimentación, o interacciones públicas, o alguien encuentra mi twitter me quemarían.
Todavía existe un ‘hype’ con la ciencia de datos, de hecho creo que se ha renovado con la IA. Personalmente, no entiendo, porque hay tanto mercado de capacitaciones sobre el tema.
¿Qué es la ciencia de datos? En general es la disciplina que ha condensado la estadística descriptiva y la estadística predictiva.
¿Tan sencillo? Sí, ambas son disciplinas bien establecidas y la ciencia de datos evoluciono la capacidad de estos especialistas. Más que la ciencia de datos, la tecnología.
La estadística descriptiva es la capacidad de etiquetar y contabilizar conceptos
Y la estadística predictiva, es la capacidad de crear formulas y patrones para explicar la naturaleza o el comportamiento humano. (Nótese que lo separo, la idiotez del comportamiento humano, no debe ensuciar la sabia naturaleza)
La tecnología nos permite hoy en día nos permite aplicar sobre una gran cantidad de datos estructurados y tabulares, digamos un archivo de Excel, tendencias centrales, conteos, varianza, desviación estándar y otros conceptos de la estadística descriptiva. De hecho, todas las anteriores se pueden hacer en un archivo Excel automáticamente (si sabes lo que haces) y tienes un computador superior a 2012. Es tan simple que en datos estructurados y ordenados antes de las IAs Generativas, ya había tecnología que te resolvía los problemas.
¿Por qué menciono que la tecnología avanzo? Antes de la capacidad de cómputo paralela, que se logró con CPUs de múltiples nucleos, y GPUs con los CU, TensorCores, CUDA Cores, etc. Este tipo de cálculos dependía de:
- Una persona con hojas milimetradas que trataba de hacer aproximaciones de 2 variables en un plano cartesiano. Con una calculadora científica.
- Una gran cantidad de horas extrayendo información tabular de una base de datos.
Con el cómputo en paralelo, estos trabajos se lograron facilitar en gran medida, y cualquier equipo del 2010 en adelante es capaz de trabajar con millones de datos en segundos.
¿Y la estadística predictiva? En este caso. Las técnicas de predicción también existen desde hace décadas. Los diferentes tipos de regresiones, modelos de clasificación, modelos de tokenizacion y agrupación. Pero tenían el mismo limitante. Una técnica que sí es moderna son los modelos transformadores que usan los LLM.
Con la evolución del hardware, se crearon programas, y lenguajes de programación, que facilitaban el trabajo de datos. En particular Python, por sus capacidades de scripting y ambientes virtuales, y trabajo sobre librerías de C.
Python es la herramienta perfecta para trabajar rápidamente y distribuir librerías de ciencias, ya que de hecho Python, cuenta con más de un manejado de paquetes centralizado. Que simplifican el trabajo estadístico.
Ya que el trabajo de procesamiento es fácil, cuando en su historia era lento, se ha evolucionado, y se pueden evaluar muchos modelos en paralelo, se puede modificar los datos de forma tal que se creen los mejores valores predictivos.
Ha evolucionado, en forma relativa, la validación y márgenes de error de los modelos, el cálculo del sesgo, y las técnicas matemáticamente demostradas de demostrar la realidad sin aprender los datos por sí mismos.
Lo que no ha evolucionado: es la recolección de datos, normalmente siempre se olvida que la parte más importante de la ciencia de datos, es la recolección y etiquetado de datos. Que el dato sea valioso y signifique.
Pero se enseña lo contrario, estoy enfermo, de la cantidad de cursos de datos que te enseñan a obtener resultados rápidos, rellenando, o facilitando la información, dando así, la sensación de resultados. Cuando solo se tiene una respuesta tan válida, como una con datos falsos. En algunos casos la intuición tiene mayor valor, que los datos que representan a personas.
Este problema de recolección siempre ha existido, yo soy partidario que una encuesta de 10 preguntas entregada a 100 personas en la calle, va a tener la misma calidad o realidad, que responder las mismas 1000 preguntas con lanzamientos de un dado.
En mi opinión es importante evaluar la naturaleza, en vez de a las personas, y en el caso de las personas, solo construir modelos que representen la realidad o las reglas que necesitas. Modelos con el sesgo que represente la intuición. Ya que derivan de la creatividad del negocio.
¿Entonces que hacemos con la ciencia de datos? Nada, la disciplina es genial, es un punto de inicio a la estadística, una profesión que había perdido su auge, como cualquier disciplina tiene técnicas y herramientas, no es la ciencia definitiva, no tiene todas las respuestas, pero puede proveer información interesante y explicar la naturaleza, describir el caos.
Pero no olvidemos sus orígenes y sus razones durante su enseñanza o aprendizaje.