licitaciones-espana
Para analizar contratación pública española a gran escala descargando datasets ya consolidados y limpios.
Datasets abiertos de contratación pública española (PLACSP, TED, CCAA y BORME) en Parquet y CSV.
Notas y contexto
Qué es
licitaciones-espana es un proyecto de datos abiertos mantenido por BQuant Finance que consolida los registros de contratación pública española procedentes de varias fuentes oficiales: la plataforma estatal PLACSP, licitaciones europeas de TED, datos de varias comunidades autónomas (Andalucía, Asturias, Catalunya, Euskadi, Galicia, Valencia, Madrid) y el registro mercantil BORME. El repositorio reúne decenas de millones de registros (2000-2026) ya procesados y los publica en formatos analíticos. Está construido en Python con pandas y pyarrow, y distribuye los datos vía Git LFS y GitHub Releases.
Para qué sirve
- Descargar datasets consolidados de licitaciones públicas en España sin tener que rascar cada portal oficial por separado.
- Cruzar adjudicaciones con datos del registro mercantil (BORME) para análisis de empresas y administradores.
- Ejecutar estudios de transparencia, detección de anomalías o periodismo de datos sobre contratación pública.
- Alimentar cuadros de mando o modelos analíticos con datos ya normalizados en Parquet.
Cuándo usarlo
Útil cuando necesitas datos de contratación pública española en bruto y consolidados para análisis, en lugar de consultar manualmente PLACSP, TED o los portales autonómicos. Como alternativas existen scrapers específicos como contrataciondelestado de jvrsantacruz o herramientas OSINT como openlicita, pero este proyecto destaca por agregar muchas fuentes y entregar los datos ya empaquetados. No es una API ni una web de consulta interactiva: es un repositorio de descarga de datasets.
Ejemplo
Cargar uno de los datasets descargados en Parquet con pandas:
import pandas as pd
# Tras descargar el fichero desde Releases o Git LFS
df = pd.read_parquet("placsp_contratos.parquet")
# Contratos por encima de un importe, ordenados
grandes = df[df["importe"] > 1_000_000]
print(grandes.sort_values("importe", ascending=False).head())
Puntos clave
- Agrega múltiples fuentes oficiales (PLACSP, TED, varias CCAA y BORME) en un único repositorio.
- Datos publicados en Parquet (con compresión Snappy) y CSV, pensados para análisis a gran escala.
- Incluye pipelines de validación cruzada, indicadores de calidad de datos y detección de anomalías.
- Mantenimiento activo con releases periódicas (actualizaciones mensuales de PLACSP, trimestrales de otras fuentes).
Ten en cuenta
Los datos se publican bajo licencias de reutilización de información del sector público (Licencia de Reutilización en España, EU Open Data Licence para TED y condiciones de reutilización del BOE para BORME); revisa la licencia de cada fuente antes de redistribuir. Los ficheros son muy grandes (cientos de MB y se usa Git LFS), así que ten en cuenta el espacio y el ancho de banda al clonar o descargar. No incluye una interfaz de consulta: necesitas herramientas como pandas, DuckDB o similares para explotar los datasets.