El Small Data puede ser definido como pequeños set de datos, capaces de generar decisiones de impacto en el presente, es decir, cualquier cosa que esté ocurriendo y cuyos datos puedan ser compilados en un archivo Excel. El Small Data es de mucha utilidad para las decisiones pero su propósito no es impactar al negocio en toda su extensión, sino que en un rango de corto alcance o periodo de tiempo limitado.
En resumen, puede ser utilizado por el entendimiento humano en un volumen y estructura que lo hacen asequible, conciso y trabajable.
El Big Data, en cambio, puede ser presentado como una gran cantidad de datos estructurados o no estructurados. La cantidad de datos almacenados es abismante. Es importante para analistas indagar hasta el más mínimo detalle de esa data para que la información obtenida sea relevante y prometa buenos resultados a la hora de aplicar esas decisiones a los negocios. En resumen, los sets de datos que son realmente grandes y complejos para procesar con técnicas convencionales, son conocidos como big data.
Bigdata-vs-Smalldata
Una tabla comparativa de ambos, quedaría como sigue:
Característica | Small Data | Big Data |
Tecnología | Tradicional | Moderna |
Recolección | Generalmente, se obtiene de forma organizada que se inserta en la base de datos | La recopilación de Big Data se realiza mediante el uso de canalizaciones que tienen “colas” de ejecución, como AWS Kinesis o Google Pub/Sub para equilibrar datos de alta velocidad. |
Volumen | Datos en el rango de decenas o cientos de Gigabytes | El tamaño de los datos es más de Terabytes |
Áreas de Análisis | Mercado de datos (análisis de datos) | Clústers, (ciencia de datos), Mercado de datos (análisis de datos) |
Calidad | Casi no contiene ruido, ya que los datos son recolectados de manera controlada | Generalmente, la calidad de los datos recolectados no está garantizada. |
Tratamiento | Requiere canalizaciones de orientadas por lotes | Tiene canalizaciones por lotes o secuencia de datos. |
Base de Datos | SQL | Otros, no SQL |
Velocidad | Flujo regular y constante de datos. Proceso de agregar datos es lento. | Grandes volúmenes de datos a gran velocidad, en muy poco tiempo. |
Estructura | Datos tabulados en un esquema fijo y relacional | Numerosa variedad de datos no esquematizados ni organizados. Datos tabulados, textos, imágenes, videos, audios, registros (logs), JSON, etc. No relacional |
Lenguaje de las consultas | Sequel | Python, Sequel, Java, R. |
Hardware | Un sólo servidor es suficiente | Requiere más de un servidor. |
Valor | Inteligencia mercantil, análisis y reportabilidad | Minado de datos complejo para la búsqueda de patrones, recomendaciones y predicciones basadas en análisis de estructura de datos. |
Optimización | Los datos pueden ser mejorados de manera mecánica (intervención humana). | Requiere de aprendizaje virtual para la optimización de su funcionamiento (machine learning). |
Almacenamiento | Almacenado en servidores locales al interior de un domicilio o empresa/organización. | Generalmente requiere de espacios en la nube o externos para el almacenamiento de datos. |
RRHH | Analistas de datos, Administradores de bases de datos, Ingenieros de datos | Científicos de datos, Analistas de datos, Administradores de bases de datos, Ingenieros de datos. |
Seguridad | Privilegios o permisos, Encriptación, Codificación, etc. | Dar seguridad a estos datos es más complejo. Se usan generalmente la encriptación de datos, el aislamiento de datos en red por clústeres, altos protocolos de acceso, etc. |
Nomenclatura | Bases de datos, Almacén de datos, Mercado de datos. | Lago de datos |
Infraestructura | Asignación de recursos predecible, principalmente conformado por hardware escalable verticalmente | Infraestructura más ágil con hardware escalable horizontalmente |
Con estos datos comparativos, queda manifiesta la gran diferencia entre nuestro modo de recolectar datos y procesarlos de manera local y organizada versus las nuevas formas de trabajar con la inmensidad de datos generada a cada segundo en todo el mundo, lo que plantea nuevas oportunidades y desafíos para el mundo civilizado.
Texto Traducido y Adaptado del original disponible en Geeks4Geeks.Org
Desarrollo websites desde los 15 años. Me apasiona el diseño gráfico y los desafíos expresados en algún lenguaje de programación. Me gusta leer, escribir y oír música. Disfruto de los regalos sencillos de la vida, con una mirada crítica y revisionista de absolutamente todo lo que me rodea. Dios es fiel.
Pingback: IA y la caja de Pandora - David Chacón Cisterna