¡Hola a todos! En el post anterior, les conté el paso a paso para armar mi primer pipeline de datos con Airflow y Docker. Terminado el proyecto, me quedó una pregunta picando: "Ok, tengo los datos llegando a mi base de datos... ¿y ahora qué?".
Porque, seamos honestos, los datos guardados en una tabla son como libros en una estantería juntando polvo. No sirven de nada si nadie los lee.
Así que me propuse un nuevo desafío: tomar un dataset, cargarlo y, esta vez, hacerlo hablar. Quería responder preguntas, encontrar patrones y tomar decisiones a partir de lo analizado.
El Desafío: El Club de los Unicornios
Encontré un dataset de "Startups Unicornio" (empresas valoradas en más de $1.000 millones). Quería simular un escenario real donde los datos viven estructurados en una base de datos, no en un CSV suelto.
Mi plan de ataque:
- Diseñar un Esquema: Pensar relaciones (Empresas, Industrias, Países, Inversores).
- Cargar los Datos (ETL): Scripts en Python para poblar PostgreSQL.
- Analizar: SQL para exploración rápida y Python para profundidad.
Esquema Relacional Diseñado
Fase 1: Exploración y validación con SQL
Antes de saltar a Python, mi primera herramienta de elección fue SQL. Sirve para obtener un panorama general de los datos y validar la integridad de las relaciones.
-- Top 5 países con mayor cantidad de unicornios SELECT c.country_name, COUNT(co.company_id) AS total_unicorns FROM companies co JOIN countries c ON co.country_id = c.country_id GROUP BY c.country_name ORDER BY total_unicorns DESC LIMIT 5;
Fase 2: Análisis profundo con Python
Con las hipótesis iniciales, pasé a Jupyter Notebooks usando Pandas y Seaborn. El mayor desafío fue la limpieza: el campo de "Inversores" no estaba atomizado (era una cadena de texto larga).
Técnica de Limpieza
Tuve que aplicar funciones de split y strip para convertir una celda como "Sequoia, SoftBank, Tiger" en múltiples filas analizzables.
Hallazgos: Respondiendo Preguntas de Negocio
1. ¿Cuántas empresas alcanzaron el estatus unicornio (2019-2021)?
El análisis reveló un total de 69 nuevos unicornios en este período, pero la distribución no fue lineal.
| Año | Nuevos Unicornios | Crecimiento (YoY) |
|---|---|---|
| 2019 | 5 | - |
| 2020 | 7 | +40% |
| 2021 | 57 | +714% |
Insight: El crecimiento en 2021 fue explosivo. Esto sugiere un "boom" masivo de capital de riesgo post-pandemia.
2. ¿Qué sectores están en auge?
Fintech y E-commerce lideran, pero la irrupción de AI/ML como sector nuevo es notable.
Recomendación Final: ¿Dónde invertir?
Basado en un "Score de Inversión" propio (Volumen + Eficiencia de Capital + Velocidad), el sistema generó la siguiente salida:
RECOMENDACIÓN #1: Fintech
==================================================
Score de Atractivo: 65.9/100 (✅ ALTO)
Nuevos Unicornios: 20
Eficiencia de Capital: 11.9x
Tiempo a Unicornio: 6.6 años
💡 Justificación: Oportunidad sólida con buenos fundamentales.
RECOMENDACIÓN #2: Internet Software
==================================================
Score de Atractivo: 57.5/100 (⚠️ MEDIO)
💡 Justificación: Evaluar con cautela.
Conclusiones del análisis
Este proyecto fue un ejercicio completo que cubrió todo el espectro: Diseño de BD, ETL, Limpieza compleja y Análisis de Negocio.
La lección más importante fue la sinergia entre SQL y Python. SQL es superior para la extracción eficiente, mientras que Python da la flexibilidad necesaria para el análisis estadístico avanzado.