UnivDown

Publicado hace 20 horas

•

9 vistas

Node.js Express Cheerio node-fetch ytdl-core tiktok-api-dl i18next nodemailer ES Modules

Problema Inicial: La fragmentación de APIs de descarga y el colapso de memoria por buffering masivo

Cuando asumí el liderazgo técnico de este proyecto, heredé la necesidad de centralizar descargas multimedia de múltiples fuentes sumamente dinámicas como TikTok, Instagram, YouTube y plataformas de video como Erome. Inicialmente, el sistema colapsaba cuando múltiples usuarios solicitaban descargas simultáneas. El servidor intentaba descargar archivos pesados completamente en memoria RAM antes de servirlos al cliente final. Esto provocaba picos severos de consumo de memoria, que en reiteradas ocasiones terminaban en excepciones Out-Of-Memory (OOM) y forzaban el reinicio del contenedor de Express, interrumpiendo las sesiones de todos los usuarios activos.

Arquitectura de Solución: Un microservicio reactivo y modular basado en Node.js Streams

Diseñé e implementé una arquitectura limpia y desacoplada basada en servicios específicos de extracción y tuberías de transmisión. Implementé módulos dedicados aprovechando APIs avanzadas como @tobyg74/tiktok-api-dl y @distube/ytdl-core, integrando además técnicas de scraping táctico con cheerio para extraer fuentes directas desde plataformas sin APIs abiertas. Para solucionar el problema de la memoria, arquitecté un flujo agnóstico donde el servidor de Express nunca almacena buffers intermedios en el disco local ni en RAM; en su lugar, actúa como un proxy reactivo de streaming de datos directo desde la CDN origen hacia la respuesta HTTP del cliente.

Retos de Implementación: El Obstáculo más Difícil (Sincronización de backpressure y evasión de rate limits en proxies de scraping)

El reto de ingeniería más crítico fue gestionar la asincronía y el control de flujo (backpressure) de las redes origen. Cuando los servidores de plataformas de destino entregaban datos a una velocidad diferente de la que el cliente final podía consumir, las conexiones TCP se quedaban colgadas consumiendo sockets abiertos del pool del sistema operativo, resultando en fugas de descriptores de archivos. Para resolverlo, programé un adaptador personalizado utilizando Streams legibles y de escritura con control de flujo dinámico, pausando y reanudando la fuente de origen según el estado de drenado del buffer de respuesta de Express. Aquí muestro una sección simplificada de este adaptador:

import fetch from 'node-fetch';

export async function handleSecureMediaStream(req, res, targetMediaUrl) {
  const controller = new AbortController();
  const timeoutId = setTimeout(() => controller.abort(), 30000); // 30s timeout

  try {
    const response = await fetch(targetMediaUrl, {
      signal: controller.signal,
      headers: {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
        'Accept': '*/*'
      }
    });

    if (!response.ok) throw new Error(`CDN Error: ${response.statusText}`);
    clearTimeout(timeoutId);

    // Configuro cabeceras para forzar la descarga sin almacenar caché
    res.setHeader('Content-Type', response.headers.get('content-type') || 'application/octet-stream');
    res.setHeader('Content-Disposition', 'attachment; filename="downloaded-media"');
    res.setHeader('Transfer-Encoding', 'chunked');

    const sourceStream = response.body;

    // Implementación explícita de control de backpressure manual
    sourceStream.on('data', (chunk) => {
      const pushQueueFilled = res.write(chunk);
      if (!pushQueueFilled) {
        // El cliente está saturado, pauso la lectura de la CDN
        sourceStream.pause();
      }
    });

    res.on('drain', () => {
      // El canal está libre de nuevo, reanudo la transmisión
      sourceStream.resume();
    });

    sourceStream.on('end', () => {
      res.end();
    });

    sourceStream.on('error', (err) => {
      throw err;
    });

  } catch (error) {
    clearTimeout(timeoutId);
    if (!res.headersSent) {
      res.status(502).json({ error: 'Fallo crítico al canalizar el flujo de datos: ' + error.message });
    } else {
      res.destroy();
    }
  }
}

Resultados de Rendimiento: Estabilidad del 99.9% y reducción drástica de la latencia de entrega

Gracias a esta reestructuración reactiva por streaming en tiempo real, optimicé radicalmente el rendimiento del sistema. Logré una reducción del 85% en el uso de memoria RAM bajo pruebas de carga de alta concurrencia, pasando de picos de gigabytes a un consumo constante y plano de menos de 100MB. Además, el tiempo de primer byte (TTFB) se redujo drásticamente debido a que los datos se transmiten instantáneamente al cliente sin esperar que la descarga del archivo termine en el servidor. Adicionalmente, estructuré un sistema multilenguaje robusto mediante i18next y un canal de alertas con nodemailer para notificar fallas de parsing de forma proactiva.

Ver Código Fuente

Sugerencias para ti

Proyecto

Servicol JSYS: Ecosistema Digital de Beneficios y Gestión de Convenios

Proyecto

TeamPulse AI: Plataforma Agente-Colaborativa de Gestión Ágil con Sincronización Multipropósito en Tiempo Real

Proyecto

PixelSphere

Volver a Proyectos

UnivDown

Problema Inicial: La fragmentación de APIs de descarga y el colapso de memoria por buffering masivo

Arquitectura de Solución: Un microservicio reactivo y modular basado en Node.js Streams

Retos de Implementación: El Obstáculo más Difícil (Sincronización de backpressure y evasión de rate limits en proxies de scraping)

Resultados de Rendimiento: Estabilidad del 99.9% y reducción drástica de la latencia de entrega

Comparte este contenido

Sugerencias para ti

Servicol JSYS: Ecosistema Digital de Beneficios y Gestión de Convenios

TeamPulse AI: Plataforma Agente-Colaborativa de Gestión Ágil con Sincronización Multipropósito en Tiempo Real

PixelSphere