MIS NOTAS

Análisis de Startups Unicornio: De SQL a Python

¡Hola a todos! En el post anterior, les conté el paso a paso para armar mi primer pipeline de datos con Airflow y Docker. Terminado el proyecto, me quedó una pregunta picando: "Ok, tengo los datos llegando a mi base de datos... ¿y ahora qué?".

Porque, seamos honestos, los datos guardados en una tabla son como libros en una estantería juntando polvo. No sirven de nada si nadie los lee.

Así que me propuse un nuevo desafío: tomar un dataset, cargarlo y, esta vez, hacerlo hablar. Quería responder preguntas, encontrar patrones y tomar decisiones a partir de lo analizado.

El Desafío: El Club de los Unicornios

Encontré un dataset de "Startups Unicornio" (empresas valoradas en más de $1.000 millones). Quería simular un escenario real donde los datos viven estructurados en una base de datos, no en un CSV suelto.

Mi plan de ataque:

  • Diseñar un Esquema: Pensar relaciones (Empresas, Industrias, Países, Inversores).
  • Cargar los Datos (ETL): Scripts en Python para poblar PostgreSQL.
  • Analizar: SQL para exploración rápida y Python para profundidad.

Esquema Relacional Diseñado

Esquema ER de Base de Datos Unicornios

Fase 1: Exploración y validación con SQL

Antes de saltar a Python, mi primera herramienta de elección fue SQL. Sirve para obtener un panorama general de los datos y validar la integridad de las relaciones.

-- Top 5 países con mayor cantidad de unicornios
SELECT 
    c.country_name, 
    COUNT(co.company_id) AS total_unicorns
FROM companies co
JOIN countries c ON co.country_id = c.country_id
GROUP BY c.country_name
ORDER BY total_unicorns DESC
LIMIT 5;

Fase 2: Análisis profundo con Python

Con las hipótesis iniciales, pasé a Jupyter Notebooks usando Pandas y Seaborn. El mayor desafío fue la limpieza: el campo de "Inversores" no estaba atomizado (era una cadena de texto larga).

Técnica de Limpieza

Tuve que aplicar funciones de split y strip para convertir una celda como "Sequoia, SoftBank, Tiger" en múltiples filas analizzables.

Hallazgos: Respondiendo Preguntas de Negocio

1. ¿Cuántas empresas alcanzaron el estatus unicornio (2019-2021)?

El análisis reveló un total de 69 nuevos unicornios en este período, pero la distribución no fue lineal.

Año Nuevos Unicornios Crecimiento (YoY)
20195-
20207+40%
202157+714%
Gráfico de crecimiento explosivo de unicornios

Insight: El crecimiento en 2021 fue explosivo. Esto sugiere un "boom" masivo de capital de riesgo post-pandemia.

2. ¿Qué sectores están en auge?

Fintech y E-commerce lideran, pero la irrupción de AI/ML como sector nuevo es notable.

Gráfico de sectores unicornio

Recomendación Final: ¿Dónde invertir?

Basado en un "Score de Inversión" propio (Volumen + Eficiencia de Capital + Velocidad), el sistema generó la siguiente salida:

running investment_analysis.py ...

RECOMENDACIÓN #1: Fintech

==================================================

Score de Atractivo: 65.9/100 (✅ ALTO)

Nuevos Unicornios: 20

Eficiencia de Capital: 11.9x

Tiempo a Unicornio: 6.6 años

💡 Justificación: Oportunidad sólida con buenos fundamentales.

RECOMENDACIÓN #2: Internet Software

==================================================

Score de Atractivo: 57.5/100 (⚠️ MEDIO)

💡 Justificación: Evaluar con cautela.

Conclusiones del análisis

Este proyecto fue un ejercicio completo que cubrió todo el espectro: Diseño de BD, ETL, Limpieza compleja y Análisis de Negocio.

La lección más importante fue la sinergia entre SQL y Python. SQL es superior para la extracción eficiente, mientras que Python da la flexibilidad necesaria para el análisis estadístico avanzado.

Estefanía Turín • Oct 29, 2025