Glosario Big Data (A-Z)

ACID ACID es un acrónimo de Atomicity, Consistency, Isolation and Durability: Atomicidad, Consistencia, Aislamiento y Durabilidad en español, propiedades fundamentales de una base de datos tradicional que no siempre se cumplen en las bases de datos NoSQL.
Algoritmo En Ciencias de la Computación, un algoritmo es una secuencia lógica, finita y con instrucciones que forman una fórmula matemática o estadística para realizar el análisis de datos.
Algoritmos genéticos Técnica utilizada para la optimización que se inspira en el proceso de la evolución natural y en los estudios de genética. Su aplicación al análisis de datos no estructurados es sin duda el gran reto de estos algoritmos avanzados.
Análisis de sentimiento Se refiere a los diferentes métodos de lingüística computacional que ayudan a identificar y extraer información subjetiva del contenido existente en el mundo digital. Gracias al análisis del sentimiento, podemos ser capaces de extraer un valor tangible y directo, como puede ser determinar si un texto extraído de la red Internet contiene connotaciones positivas o negativas.
Análisis Predictivo (AP) El análisis predictivo pertenece al área de la Analítica Empresarial y trata de utilizar los datos para determinar que puede pasar en el futuro. La AP permite determinar la probabilidad asociada a eventos futuros a partir del análisis de la información disponible (presente y pasada). También permite descubrir relaciones entre los datos que normalmente no es detectada con un análisis menos sofisticado. Técnicas como la minería de datos (data mining) y los modelos predictivos son utilizados.
Análisis Empresarial (AE) La Analítica Empresarial comprende los métodos y las técnicas que se utilizan para recopilar, analizar e investigar el conjunto de datos de una organización, lo cual genera conocimiento que se transforma en oportunidades de negocio y mejora la estrategia empresarial. AE permite una mejora en la toma de decisiones ya que éstas se basan en la obtención de datos reales y tiempo real y permite conseguir objetivos empresariales a partir del análisis de estos datos.
Analytics Es la forma de capturar informaciones, procesarlas y analizarlas para que se conviertan en insights.
Base de datos Cassandra Base de datos distribuida desarrollada inicialmente por Facebook. Diseñada para manejar grandes cantidades de datos distribuidos a través de servidores ordinarios. Es una base de datos de almacén clave-valor escrita en Java. Permite la manipulación de grandes volúmenes de datos en formato distribuido. Twitter utiliza Cassandra dentro de su plataforma. Está escrita en ANSI C y el desarrollo está patrocinado por VMware.
BI (Business Inteligence) Es el método que transforma informaciones almacenadas y analizadas en datos que son estratégicos para una empresa y que se convierten en ganancia para el negocio.
Big Data Big Data es la expresión utilizada para designar un conjunto de datos tan grande que es difícil trabajar con los medios habituales (bases de datos). Se suele decir que el Big Data responde a las tres V: volumen de datos importante, variedad de datos, velocidad a la que llegan.
Bigtop Es un esfuerzo para crear un proceso más formal o marco de referencia para las pruebas de paquetización e interoperabilidad de sub-proyectos Hadoop y sus componentes relacionados, con el objetivo de mejorar la plataforma Hadoop en su conjunto.
BigTable Sistema de base de datos distribuido propietario y construido bajo el proyecto Google File System (GFSGooFS o GoogleFS) y que es fundamento de HBase.
BSON Abreviatura de Binary JSON. Es un formato de datos de computadora utilizado principalmente como formato de almacenamiento de datos y tranferencia en la red, en la base de datos MongoDB.
Business Analytics (Analítica Empresarial) La Analítica Empresarial o Business Analytics permite conseguir los objetivos empresariales, a partir del análisis de datos. Básicamente permite detectar tendencias y realizar pronósticos a partir de modelos predictivos y utilizar estos modelos para optimizar los procesos de negocio.
Business Inteligence (Inteligencia de Negocio) La Inteligencia Empresarial (IE) se centra en el uso de los datos de una empresa para facilitar también la toma de decisiones y anticipar acciones empresariales. La diferencia con la AE es que la IE es un concepto más amplio, no solo se centra en el análisis de datos sino que éste es un área dentro de la IE. Es decir, la IE se trata de un conjunto de estrategias, aplicaciones, datos, tecnología y arquitectura técnica entre las que se encuentra la AE; y todo ello, enfocado a la creación de nuevo conocimiento a través de los datos existentes de la empresa
Cluster Conjunto de servidores (o nodos) que permiten garantizar la continuidad del servicio y distribuir la carga de procesamiento/red.
Dark Data Se refiere a datos desconocidos que pueden perderse o almacenarse, sin la posibilidad de accederse o analizarse en caso de que el sistema no esté configurado para eso.
Data Cleansing Es el método que mantiene los bancos de datos libres de informaciones inconsistentes o irrelevantes.
Data Lake Es un lago de datos en el cual se almacenan informaciones en su estado natural y en gran volumen, es allí donde el Data Scientist debe sumergirse para encontrar sus principales insights.
Data Mining Es el proceso previo al Analytics, es la minería de los datos, la forma de descubrir informaciones relevantes.
Data Mining o minería de datos Data Mining (minería de datos), también conocida como Knowledge Discovery in database (KDD), es comúnmente definida como el proceso para descubrir patrones útiles o conocimientos a partir de fuentes de datos tales como Bases de Datos, textos, imágenes, la web, etc. Los patrones deben ser válidos, potencialmente útiles y entendibles. La minería de datos es un campo multidisciplinar que incluye: aprendizaje automático, estadísticas, sistemas de base de datos, inteligencia artificial, Information Retrieval, visualización de la información, … El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior.
Data Science (Ciencia de datos) La oportunidad que los datos ofrecen para generar nuevo conocimiento requiere de técnicas sofisticadas de preparación de estos datos (estructuración) y análisis de los mismos. Así en Internet, sistemas de recomendación, traducción automática y otros sistemas de Inteligencia Artificial se basan en técnicas de Data Science.
Data Scientist El data scientist es un experto en la Ciencia de Datos (Data Science). Su trabajo se centra en extraer conocimiento a partir de grandes volúmenes de datos (Big Data) extraídos de diversas fuentes y múltiples formatos para dar respuesta a las cuestiones que se planteen.
Datos estructurados y no estructurados Los datos estructurados tienen una organización lógica, pero con posibilidades pequeñas de extracción de informaciones para el Big Data. Los no estructurados son desorganizados, como los mensajes en emails y redes sociales, pero permiten una gran posibilidad de extracción de insights comerciales.
Deep Learning Deep Learning o aprendizaje profundo es una técnica dentro del machine learning basado en arquitecturas neuronales. Un modelo basado en deep learning puede aprender a realizar tareas de clasificación directamente a partir de imágenes, texto o sonido, etc. Sin necesidad de intervención humana para la selección de características, esto se puede considera la principal característica y ventaja del deep learning, llamada “feature discovering”. Puede poseer una precisión que supera al ser humano.
Dirty Data Registros que no se han limpiado. Datos que se capturaron, almacenaron y que se usarán, pero que precisan ser primeramente trabajados.
Exabyte (EB) Unidad de datos equivalente a 103 (1.024) petabytes o 1018 bytes.
Fast Data Datos que pierden valor a lo largo del tiempo y que por ese motivo necesitan ser analizados prácticamente en tiempo real para que generen respuestas estratégicas para las empresas que necesitan dar respuestas y tomar decisiones de forma instantánea.
Gigabyte (EB) Unidad de datos equivalente a 103 (1.024) Megabytes o 109 bytes.
Geomarketing El análisis conjunto de datos demográficos, económicos y geográficos que posibilita estudios de mercado para rentabilizar las estrategias de marketing se puede llevar a cabo a través del Geomarketing, una confluencia entre geografía y marketing. Se trata de un sistema integrado de información -datos de diversa índole-, métodos estadísticos y representaciones gráficas orientados a dar respuestas a cuestiones de marketing de forma rápida y sencilla.
Hama Plataforma de computación distribuida basada en técnicas de computación paralela masiva para cálculos científicos, matrices, gráficos, algoritmos de redes, etc.
Hadoop Framework de aplicaciones distribuidas de Java de código abierto, destinado a procesar volúmenes de datos de varios petabytes y con miles de nodos.
HDFS Sistema de ficheros que distribuye los datos en múltiples nodos. Este sistema implementa redundancia y tolerancia frente a fallos. Además no depende de Hardwareespecífico. Los componentes de HDFS son: 1) Un Name Node que gestiona la estructura del sistema de ficheros. Puede estar redundado en Secundary Name Node. 2) Varios Data Nodes que almacenan bloques de los ficheros. Por defecto los bloques se encuentran replicados en 3 Data Nodes.
Inteligencia Artificial En computación se trata de programas o bots diseñados para realizar determinadas operaciones que se consideran propias de la inteligencia humana. Se trata de hacer que éstos sean tan inteligentes como un humano. La idea es que perciban su entorno y actúen en base a ello, centrado en el auto-aprendizaje, sean capaces de reaccionar ante nuevas situaciones.
Inteligencia Electoral Adaptación de modelos matemáticos y de Inteligencia Artificial a las peculiaridades de una campaña electoral. El objetivo de esta inteligencia es la obtención de una ventaja competitiva en los procesos electorales.
Internet of Things (IoT) Concepto creado por Kevin Ashton y hace referencia al ecosistema en el que los objetos cotidianos están interconectados a través de Internet.
Machine Learning (Aprendizaje automático) Este término hace referencia a la creación de sistemas a través de la Inteligencia Artificial, donde lo que realmente aprende es un algoritmo, el cual supervisa los datos con la intención de poder predecir comportamientos futuros.
MapReduce Tecnología de acceso y procesado distribuido de los datos que permite realizar cálculos en paralelo adecuado para el tratamiento de bases de datos de gran tamaño. Accede a los datos mediante el procesado de los datos en cada nodo (Map) y la unificación de estos datos procesados de los diferentes nodos (Reduce). Los componentes de MapReduce son: Job Tracker que gestiona el procesado de las tareas., y TaskTracker realizan las tareas.
Medium Data Cantidad intermediaria de datos que son necesarios para que se generen análisis e insights. Es un tamaño menor de información que el generado por el Big Data.
Minería web La minería web tiene como objeto descubrir información útil o el conocimiento (KNOWLEDGE) procedente de la estructura de hipervínculo web, contenido de la página y datos de usuario. Aunque la minería web utiliza muchas técnicas de minería de datos, no es meramente una aplicación de técnicas de minería de datos tradicionales, debido a la heterogeneidad y la naturaleza semi-estructurada o no estructurada de los datos de la web. La minería web o web mining comprende una serie de técnicas encaminadas a obtener inteligencia a partir de datos procedentes de la web. Aunque las técnicas utilizadas tienen su raíz en las técnicas de data mining o minería de datos, presentan características propias debido a las particularidades que presentan las páginas webs.
MongoDB Sistema de gestión de bases de datos, orientado a documentos, escalable y sin esquema predeterminado de los datos.
Open Data El Open Data es una práctica que tiene la intención de disponer de unos tipos de datos de forma libre para todo el mundo, sin restricciones de derecho de autor, patentes u otros mecanismos. Su objetivo es que estos datos puedan ser consultados, redistribuidos y reutilizados libremente por cualquiera, respetando siempre la privacidad y seguridad de la información.
Periodismo de datos Periodismo de datos o periodismo computacional, se trata del periodismo que para crear artículos o investigaciones periodísticas se requiere del conocimiento de técnicas del áreas de data science, big data, inteligencia artificial, entre otras. El periodista de datos debe ser capaz de dar soporte a sus artículos mediante el análisis de datos, utilizando técnicas analíticas como el análisis de redes sociales, clustering, information retrieval, recommendation systems, etc.
Predictive Analytics El análisis predictivo es la utilización de datos para predecir tendencias o eventos futuros.
Procesamiento del Lenguaje Natural (PLN) Del procesamiento conjunto de la ciencia computacional y la lingüística aplicada, nace el Procesamiento de Lenguaje Natural (PLN o NLP en inglés), cuyo objetivo no es otro que el de hacer posible la compresión y procesamiento asistidos por ordenador de información expresada en lenguaje humano, o lo que es lo mismo, hacer posible la comunicación entre personas y máquinas.
Producto Matching El Product Matching es un área perteneciente a Data Matching o Record Linkage encargada de identificar automáticamente aquellas ofertas, productos o entidades en general, que aparecen en la web procedente de diversas fuentes, aparentemente de forma distinta e independiente, pero que hacen referencia a una misma entidad real. En otras palabras, el proceso de Product Matching consiste en relacionar para distintas fuentes aquellos productos que son el mismo.
Rack virtual Tecnología de OVH que permite reunir virtualmente varios servidores (independientemente de su número y su localización física en nuestros datacenters) y conectarlos a un switch virtual dentro de una misma red privada. De este modo, sus servidores pueden comunicarse de manera privada y segura entre ellos (dentro de una VLAN dedicada).
RAID Redundant Array of Independent/Inexpensive Disks, tecnología que permite utilizar varios discos duros en paralelo.
RAM Es el acrónimo de «Random Access Memory». Designa la memoria de acceso aleatorio (en este caso, del servidor).
Replicación Procedimiento para compartir archivos que permite mejorar la fiabilidad y limitar la tolerancia a fallos.
Root Root es la palabra inglesa para «raíz». Tener acceso «root» significa tener acceso a la raíz del servidor y tener todos los permisos de administración sin restricciones. También implica que es responsable de todas las acciones que se realicen con esos permisos en el servidor.
Sentiment Analysis El análisis de sentimiento son técnicas usadas para identificar el sentimiento de un individuo sobre determinada cuestión. Hay muchos términos que surgen a cada momento, muchas veces creados por proveedores de herramientas y analistas de consultorías para intentar ofrecer un nuevo servicio. Generalmente son funciones que ya existen y que quien trabaja con Big Data ya está acostumbrado, pero con un nuevo nombre o definición. Es importante que se conozcan todas esas palabras, pero es aún más importante que se enfoque en la forma en la que se puede usar el Big Data para que se generen resultados que puedan transformar una empresa.
Slow Data Es lo opuesto de Fast Data y hace referencia a las informaciones que se pueden capturar en el Data Lake para un análisis posterior. Esos datos no necesitan un análisis en tiempo real, con tiempo de respuesta menor.
Small Data Mucho más pequeño que el Big Data, se refiere al análisis que se hace con pocas fuentes de datos.
SQL/noSQL El Structured Query Language es el lenguaje informático más utilizado para estructurar bases de datos y realizar consultas para extraer la información. Estos últimos años ha aparecido un nuevo sistema de bases de datos «noSQL», que se distingue por tener una mayor flexibilidad de las bases de datos y una arquitectura de cluster.
VLAN «Virtual Local Area Network»: red local virtual.

Otros glosarios disponibles online:

 

Optimized with PageSpeed Ninja