Hama | Plataforma de computación distribuida basada en técnicas de computación paralela masiva para cálculos científicos, matrices, gráficos, algoritmos de redes, etc. |
Hadoop | Framework de aplicaciones distribuidas de Java de código abierto, destinado a procesar volúmenes de datos de varios petabytes y con miles de nodos. |
HDFS | Sistema de ficheros que distribuye los datos en múltiples nodos. Este sistema implementa redundancia y tolerancia frente a fallos. Además no depende de Hardwareespecífico. Los componentes de HDFS son: 1) Un Name Node que gestiona la estructura del sistema de ficheros. Puede estar redundado en Secundary Name Node. 2) Varios Data Nodes que almacenan bloques de los ficheros. Por defecto los bloques se encuentran replicados en 3 Data Nodes. |
Inteligencia Artificial | En computación se trata de programas o bots diseñados para realizar determinadas operaciones que se consideran propias de la inteligencia humana. Se trata de hacer que éstos sean tan inteligentes como un humano. La idea es que perciban su entorno y actúen en base a ello, centrado en el auto-aprendizaje, sean capaces de reaccionar ante nuevas situaciones. |
Inteligencia Electoral | Adaptación de modelos matemáticos y de Inteligencia Artificial a las peculiaridades de una campaña electoral. El objetivo de esta inteligencia es la obtención de una ventaja competitiva en los procesos electorales. |
Internet of Things (IoT) | Concepto creado por Kevin Ashton y hace referencia al ecosistema en el que los objetos cotidianos están interconectados a través de Internet. |
Machine Learning (Aprendizaje automático) | Este término hace referencia a la creación de sistemas a través de la Inteligencia Artificial, donde lo que realmente aprende es un algoritmo, el cual supervisa los datos con la intención de poder predecir comportamientos futuros. |
MapReduce | Tecnología de acceso y procesado distribuido de los datos que permite realizar cálculos en paralelo adecuado para el tratamiento de bases de datos de gran tamaño. Accede a los datos mediante el procesado de los datos en cada nodo (Map) y la unificación de estos datos procesados de los diferentes nodos (Reduce). Los componentes de MapReduce son: Job Tracker que gestiona el procesado de las tareas., y TaskTracker realizan las tareas. |
Medium Data | Cantidad intermediaria de datos que son necesarios para que se generen análisis e insights. Es un tamaño menor de información que el generado por el Big Data. |
Minería web | La minería web tiene como objeto descubrir información útil o el conocimiento (KNOWLEDGE) procedente de la estructura de hipervínculo web, contenido de la página y datos de usuario. Aunque la minería web utiliza muchas técnicas de minería de datos, no es meramente una aplicación de técnicas de minería de datos tradicionales, debido a la heterogeneidad y la naturaleza semi-estructurada o no estructurada de los datos de la web. La minería web o web mining comprende una serie de técnicas encaminadas a obtener inteligencia a partir de datos procedentes de la web. Aunque las técnicas utilizadas tienen su raíz en las técnicas de data mining o minería de datos, presentan características propias debido a las particularidades que presentan las páginas webs. |
MongoDB | Sistema de gestión de bases de datos, orientado a documentos, escalable y sin esquema predeterminado de los datos. |
Open Data | El Open Data es una práctica que tiene la intención de disponer de unos tipos de datos de forma libre para todo el mundo, sin restricciones de derecho de autor, patentes u otros mecanismos. Su objetivo es que estos datos puedan ser consultados, redistribuidos y reutilizados libremente por cualquiera, respetando siempre la privacidad y seguridad de la información. |
Periodismo de datos | Periodismo de datos o periodismo computacional, se trata del periodismo que para crear artículos o investigaciones periodísticas se requiere del conocimiento de técnicas del áreas de data science, big data, inteligencia artificial, entre otras. El periodista de datos debe ser capaz de dar soporte a sus artículos mediante el análisis de datos, utilizando técnicas analíticas como el análisis de redes sociales, clustering, information retrieval, recommendation systems, etc. |
Predictive Analytics | El análisis predictivo es la utilización de datos para predecir tendencias o eventos futuros. |
Procesamiento del Lenguaje Natural (PLN) | Del procesamiento conjunto de la ciencia computacional y la lingüística aplicada, nace el Procesamiento de Lenguaje Natural (PLN o NLP en inglés), cuyo objetivo no es otro que el de hacer posible la compresión y procesamiento asistidos por ordenador de información expresada en lenguaje humano, o lo que es lo mismo, hacer posible la comunicación entre personas y máquinas. |
Producto Matching | El Product Matching es un área perteneciente a Data Matching o Record Linkage encargada de identificar automáticamente aquellas ofertas, productos o entidades en general, que aparecen en la web procedente de diversas fuentes, aparentemente de forma distinta e independiente, pero que hacen referencia a una misma entidad real. En otras palabras, el proceso de Product Matching consiste en relacionar para distintas fuentes aquellos productos que son el mismo. |
Rack virtual | Tecnología de OVH que permite reunir virtualmente varios servidores (independientemente de su número y su localización física en nuestros datacenters) y conectarlos a un switch virtual dentro de una misma red privada. De este modo, sus servidores pueden comunicarse de manera privada y segura entre ellos (dentro de una VLAN dedicada). |
RAID | Redundant Array of Independent/Inexpensive Disks, tecnología que permite utilizar varios discos duros en paralelo. |
RAM | Es el acrónimo de «Random Access Memory». Designa la memoria de acceso aleatorio (en este caso, del servidor). |
Replicación | Procedimiento para compartir archivos que permite mejorar la fiabilidad y limitar la tolerancia a fallos. |
Root | Root es la palabra inglesa para «raíz». Tener acceso «root» significa tener acceso a la raíz del servidor y tener todos los permisos de administración sin restricciones. También implica que es responsable de todas las acciones que se realicen con esos permisos en el servidor. |
Sentiment Analysis | El análisis de sentimiento son técnicas usadas para identificar el sentimiento de un individuo sobre determinada cuestión. Hay muchos términos que surgen a cada momento, muchas veces creados por proveedores de herramientas y analistas de consultorías para intentar ofrecer un nuevo servicio. Generalmente son funciones que ya existen y que quien trabaja con Big Data ya está acostumbrado, pero con un nuevo nombre o definición. Es importante que se conozcan todas esas palabras, pero es aún más importante que se enfoque en la forma en la que se puede usar el Big Data para que se generen resultados que puedan transformar una empresa. |
Slow Data | Es lo opuesto de Fast Data y hace referencia a las informaciones que se pueden capturar en el Data Lake para un análisis posterior. Esos datos no necesitan un análisis en tiempo real, con tiempo de respuesta menor. |
Small Data | Mucho más pequeño que el Big Data, se refiere al análisis que se hace con pocas fuentes de datos. |
SQL/noSQL | El Structured Query Language es el lenguaje informático más utilizado para estructurar bases de datos y realizar consultas para extraer la información. Estos últimos años ha aparecido un nuevo sistema de bases de datos «noSQL», que se distingue por tener una mayor flexibilidad de las bases de datos y una arquitectura de cluster. |
VLAN | «Virtual Local Area Network»: red local virtual. |
Otros glosarios disponibles online:
- Big Data A to Z: A glossary of Big Data terminology
- Big Data Glossary: The Ultimate List of All Big Data & Analytics Terms
- Big Data Basics: A Glossary of the Terminology You Should Know
- Glosario de términos sobre Inteligencia Artificial, Big Data & Data Science
- Glossary of Big Data Terms
- Un glosario para la ciencia de datos, por Kirk Borne | Big Data 4Success