Metodología de recogida y publicación de los datos

El principio de base

Publicamos solo datos provenientes de fuentes institucionales españolas o europeas. No existe en este sitio un solo registro proveniente de un blog, de un sitio comercial de terceros, de un foro, de una notificación anónima. Cuando ves una subvención, una sentencia, un medicamento, una licitación, existe siempre en algún sitio una fuente oficial enlazada que puedes verificar por tu cuenta.

Esta regla parece obvia. No lo es. Muchos agregadores españoles mezclan fuentes oficiales y fuentes secundarias sin distinguirlas, o reportan datos que ya no existen en la fuente original, o añaden comentario editorial que se superpone al dato factual haciéndolos indistinguibles. Nosotros mantenemos la cosa separada: el dato es ese, la fuente es esa, los resúmenes o comentarios eventuales son nuestros y están claramente etiquetados como tales.

De dónde vienen los datos

Para cada una de las quince categorías del sitio existe un conjunto de fuentes institucionales mapeado y documentado. El listado completo lo encuentras en la página fuentes. En síntesis, las principales por categoría:

Subvenciones: Base de Datos Nacional de Subvenciones (BDNS) más portales autonómicos de las diecisiete comunidades, fondos europeos, cámaras de comercio. Para cada convocatoria agregada se memoriza la fuente específica (nombre del organismo, URL del portal, marca de tiempo de publicación).
Oposiciones: Boletín Oficial del Estado serie oposiciones más portales autonómicos y específicos de organismos (por ejemplo el INAP para la AGE).
Legislación: Boletín Oficial del Estado, sitios institucionales del Congreso, Senado, Tribunal Constitucional para los actos en tramitación parlamentaria.
Jurisprudencia: CENDOJ del Consejo General del Poder Judicial, archivo del Tribunal Constitucional, archivo del Tribunal Supremo. Las sentencias pasan por un anonimizador antes de la publicación.
Sanidad: Catálogo Nacional de Hospitales del Ministerio de Sanidad, base de datos de medicamentos AEMPS, exenciones de copago oficiales.
Contratación pública: Plataforma de Contratación del Sector Público, que publica en formato estructurado todas las licitaciones de importe superior al umbral de transparencia.
Subastas judiciales: Portal de Subastas Judiciales del BOE, en convenio con juzgados y portales especializados.
Catastro: Sede Electrónica del Catastro, Dirección General del Catastro.
Carburantes: comunicación obligatoria de los precios al MITERD, con frecuencia variable según el tipo de estación.
Calendario fiscal: calendario oficial de la Agencia Tributaria más actualizaciones vía DM y circulares.
Prestaciones: SEPE para las prestaciones por desempleo, INSS para las pensiones, comunidades autónomas para las ayudas sociales locales.
Vivienda: comunidades autónomas para las ayudas autonómicas, Ministerio de Vivienda para las nacionales.
Cuentas públicas y transparencia: sección amministrazione trasparente obligatoria por ley para cada organismo público, Portal de la Transparencia, presupuestos generales del Estado.

Cómo se realiza la recogida

La recogida está automatizada. Cada noche a las 22:00 hora española arranca una tubería que visita las fuentes, descarga las actualizaciones, normaliza los campos, escribe en la base de datos. Para cada una de las quince categorías existe un scraper específico, escrito en Python, que gestiona las particularidades de la fuente: a veces son APIs JSON bien estructuradas (caso óptimo, ejemplo open data MITERD), a veces son CSV descargables (caso medio, ejemplo AEMPS), a veces son HTML que hay que parsear página por página (caso pesado, ejemplo algunos portales autonómicos para las subvenciones).

La tubería respeta los tiempos de las fuentes. Si una fuente actualiza mensualmente (por ejemplo el catálogo de hospitales del Ministerio de Sanidad) el scraper corre mensualmente. Si actualiza cada diez minutos (por ejemplo algunas comunicaciones de precios de carburantes) el scraper corre con cadencia coherente. Nunca llamamos a una fuente con más frecuencia de la que la propia fuente prevé en sus términos de uso.

Entre una recogida y otra el dato del sitio es estático. Si necesitas el dato en tiempo real al milisegundo, datos-publicos.es no es la herramienta adecuada: usa la fuente primaria. Nosotros servimos a quien quiere consulta rápida, búsquedas transversales, fichas legibles desde el móvil, todo en español y con una interfaz coherente.

Normalización y enriquecimiento

El dato bruto es casi siempre reformateado antes de la publicación. Cada fuente tiene su propia taxonomía: por ejemplo las subvenciones autonómicas clasifican el beneficiario de modo distinto entre regiones (una convocatoria para "empresas jóvenes" en una comunidad podría ser "startup menores de 36" en otra). Reportamos a una taxonomía común para permitir búsquedas transversales que de otro modo serían imposibles.

Sobre una parte seleccionada de los registros (las leyes y las sentencias más consultadas, los medicamentos más buscados, los hospitales de referencia por comunidad) añadimos un resumen escrito a mano o asistido por modelo lingüístico pero siempre revisado en redacción antes de la publicación. Estos resúmenes están etiquetados en la base de datos como enriquecimiento y están pensados para dar contexto a quien lee: qué cambia con esta ley, cuál es el principio de derecho enunciado en esa sentencia, en qué clase del SNS entra ese medicamento. No sustituyen el texto original, que siempre queda enlazado.

Actualización de las páginas

Después de la recogida nocturna, el sitio se reconstruye y republica antes de las 7 de la mañana siguiente. Cada registro de detalle lleva una fecha de última actualización, referida a la última vez que la tubería confirmó la presencia de ese registro en la fuente. Cuando una fuente retira un dato (por ejemplo una convocatoria caducada que sale del sitio ministerial), en nuestro sitio ese dato pasa al estado "archivado": la página sigue existiendo para quien ya tiene el enlace guardado, pero queda marcada como caducada y ya no aparece en las búsquedas activas.

Para algunas categorías con mucho volumen y baja relevancia individual (por ejemplo los contratos públicos minoristas) aplicamos una política automática: las páginas con contenido sustancialmente vacío, en las que la fuente no nos da bastante información para justificar una ficha autónoma, quedan excluidas de la indexación en buscadores aunque permanezcan accesibles para quien tiene el enlace. La regla es: indexamos solo lo que tiene un valor informativo real para quien busca.

Privacidad y anonimización

Las sentencias representan el caso más delicado. Una resolución del juez contiene a menudo datos personales identificativos (nombres, direcciones, NIF parciales, detalles sobre menores, detalles sobre patologías, situaciones patrimoniales). La normativa española (LOPDGDD) y el reglamento europeo RGPD imponen límites precisos a la republicación de estos contenidos.

En las sentencias aplicamos un anonimizador automático que elimina o sustituye nombres propios, direcciones, NIF, referencias directas a menores. Encima de cada página de detalle de sentencia hay un aviso YMYL (Your Money or Your Life) que recuerda al lector los límites de la información publicada y le dirige a un abogado para casos específicos. Las resoluciones donde el anonimizador no consigue hacer su trabajo quedan excluidas de la publicación.

Para solicitudes de retirada RGPD contactar [email protected] con asunto "RGPD retirada". Los plazos de respuesta son dentro de los siete días laborables; las retiradas motivadas se efectúan en el mismo plazo.

Uso de asistentes IA

Desarrollo el sitio con la ayuda de asistentes IA para la parte de código y para la generación de algunos resúmenes automáticos. Lo declaro aquí abiertamente: parte de la redacción técnica del scraper, de los resúmenes breves de leyes y sentencias (campo llm_riassunto_breve en la base de datos), del cálculo de pertinencia entre convocatoria y perfil de usuario, está asistida por modelos lingüísticos de gran tamaño (Anthropic Claude para el código, DeepSeek para la generación de los resúmenes).

El contenido editorial visible, es decir esta página, las páginas institucionales (quiénes somos, fuentes, proceso editorial), los bloques introductorios de las categorías, las guías de la sección dedicada, están escritos, releídos y modificados manualmente antes de la publicación. Nada de lo que lees aquí arriba ha sido subido "tal cual ha salido" del output de un modelo.

Gestión de las notificaciones

Si encuentras un error en un dato publicado (un título de convocatoria mal escrito, un plazo fiscal con fecha equivocada, una sentencia mal anonimizada, un precio de carburante claramente fuera de escala), señalalo a [email protected] indicando la URL de la página y qué está mal. Si sabes también cuál es la fuente correcta mejor, pero no es obligatorio.

Las notificaciones de error tienen prioridad respecto a todo el resto de la correspondencia y se procesan en siete días laborables. Si el error es nuestro (un scraping mal hecho, un parser defectuoso), corregimos enseguida. Si el error está en la fuente original, lo señalamos a la fuente y mientras tanto añadimos una nota en nuestra página.

Lo que no hacemos

No vendemos los datos a terceros.
No perfilamos a los usuarios para finalidades comerciales nuestras.
No agregamos información sobre personas concretas para construir dossiers. Los datos están estructurados por organismo público, no por individuo.
No publicamos contenidos generados al vuelo por IA sin revisión humana.
No sustituimos ni simulamos la opinión de profesionales (asesores fiscales, abogados, médicos, consultores laborales). Los datos son de consulta, no de consultoría.
No garantizamos que una convocatoria para la que cumples los requisitos en nuestro sitio sea aceptada por el organismo convocante. Nuestra fuente es la misma que usarías tú, pero la relación contractual con el organismo que concede la financiación es entre tú y el organismo, no pasa por nosotros.

Véase también

Quiénes somos — la persona detrás del proyecto.
Equipo y autores — biografía extendida.
Nuestras fuentes — listado completo por categoría.
Proceso editorial — flujo detallado.
Calidad de los datos — estado en vivo del validador.
Privacidad y términos del servicio.