Le glossaire ultime du Big Data

Le Big Data vous semble un monde étranger? Vous voulez juste avoir quelques mots clés pour comprendre le monde des mégadonnées facilement ? Vous êtes au bon endroit !

The ultimate Big Data Glossary 2020/07/06 | Data Culture

Analyse

: "Analytics" ou analyse désigne l'analyse systématique des data ou le calcul statistique. Ce terme est principalement utilisé pour la découverte, l'interprétation et la communication de tendances et de modèles significatifs des data. Appliquée aux données d'entreprise, l'analyse aide à décrire, prévoir et améliorer les performances



Big data

: parfois appelé megadonnées, le big data signifie généralement grand Volume de données mais la Variété et la Vélocité sont également 2 composantes importante . Vous pouvez trouver des mégadonnées provenant de différents formats tels que: texte, images, audio, vidéo. Obtenez plus de détails dans « qu'est-ce que le big data? ? »



Big Data landscape

: rapporte aux capacités de stockage, de traitement, d'analyses des data et aux applications fonctionnant dans l'écosystème Big Data actuel. Ceci fait également référence à une cartographie l'écosystème Big Data réalisée par Matt Turck qui permet de décrire "l'état de l'art" des technologies Big Data existantes



Datavisualisation

: consiste à communiquer des chiffres ou des informations brutes via des graphiques : points, barres, courbes, camembert, cartes…



Deap Learning

: ensemble de méthodes d'apprentissage automatique tentant de modéliser avec un haut niveau d'abstraction des données



Disponibilité

: dans le contexte informatique, se réfère à la capacité d'un utilisateur d'accéder à des informations ou des ressources dans un emplacement spécifié et dans le format correct



DPO

: "Délégué à la Protection des Données" est la personne en charge de la protection des données personnelles dans les organisations publiques ou privées



Drop to Kibana

: ingère vos gros fichiers bruts et donne vie aux données. Recherches précises par mots clés. Approche plein texte. Visualisations dynamiques et tableaux de bord sont à portée de main!



Elasticsearch Kibana

: suite open source de visualisation de données qui fournit des fonctions d'analyse, de création de graphique et dont le contenu est indexé par le moteur Elasticsearch



Exploration des données

: désigne un processus d'analyse des data permettant son utilisation ultérieure. L'extraction est généralement réalisée par l'homme ou, dans certains cas, par des systèmes d'intelligence artificielle. Les données sont généralement réprésentées sous forme de datavisualisation, ou de tableau de bord, suivant le système d'analyse



Fichiers volumineux

: ensembles de données trop volumineux (volumes en gigaoctets ou téraoctets) pour être traité avec un logiciel informatique traditionnel ou outils bureautiques. Il est généralement stocké dans un format de fichier plat tel que csv, txt ou un format hiérarchique tel que xml ou json



Format de date

: terme désignant le modèle la séquence, le type et le nombre de caractère représentant le jour, le mois, l'année, l'heure, les minutes et les secondes. Dans l'environnement d'analyse de données, il existe de nombreuses conventions de formatage de date, souvent aussi nombreux que les outils qui servent à stocker, traiter et extraire les données. C'est souvent une difficulté majeure commune à tous les projets data



Graphiques

: désigne une représentation graphique des données, dans laquelle les données sont représentées par des symboles, tels que des barres dans un graphique à bande, des lignes dans un graphique linéaire ou des tranches dans un diagramme circulaire. Les graphiques sont souvent utilisés pour faciliter la compréhension de grandes quantités de données et les relations entre elles. Les graphiques peuvent généralement être lus plus rapidement que les données brutes



Géolocalisation

:localisation, depuis l'espace, d'objets situés à la surface de la Terre. Il existe de nombreux formats de geolocalisation comme le geopoint ou le geohash



Logs

: En informatique, on parle de log (diminutif de logging) pour désigner un fichier, ou tout autre dispositif, permettant de stocker un historique des évènements attachés à un processus. Ces évènements sont horodatés et ordonnés en fonction du temps. En clair, le log est un peu le “journal de bord” d'un système. Le logging est l'acte de tenir un journal. Dans le cas le plus simple, les messages sont écrits dans un seul fichier logs.



Non structuré

: les données non structurées se réfèrent à des informations qui n'ont pas de modèle de données prédéfini ou qui ne sont pas organisées de manière prédéfinie



Open Data

: désigne une démarche permettant de rendre une donnée accessible et utilisable par tous. Les gouvernements, les administrations et les entreprises ouvrent de plus en plus leurs données pour améliorer leur utilisation par les citoyens, les entreprises et développer de nouvelles synergies ou applications



Open source

: désignant un logiciel pour lequel le code source d'origine est mis à disposition gratuitement et peut être redistribué et modifié



Personal Data Tracker

: détecte et trie vos données sensibles (noms, prénoms, adresses, numéros de téléphone, coordonnées bancaires, santé ..). C'est un inventaire "automatisé" pour faciliter votre conformité aux exigences du RGPD (ou GDPR en anglais)...



PII

: Les Informations Personnellement Identifiables (Personally Identifiable Information) sont toutes les informations relatives à l'identification d'une personne. Vous obtenez plus de détails dans "Données personnelles, dites-moi plus!"



Préparation des données

: acte de manipulation (ou de prétraitement) des données brutes (qui peuvent provenir de sources de données disparates) sous une forme qui peut être analysée facilement et avec précision. Cette pratique fait souvent appel à de nombreux outils qui accompagnent la démarche fastidieuse liée ce type de tâches. Actuellement, les datascientists occuperaient la moitié de leur temps à ces taches de préparation de la donnée



RGPD

: Règlement général sur la protection des données. Le RGPD vise principalement à donner aux individus le contrôle de leurs données personnelles. Depuis le 25 mai 2018, le RGPD s'applique à tout le monde à l'intérieur de l'UE. En un mot, nous pourrions dire "Moins c'est Plus", moins de PII que vous avez, plus efficaces dans leur protection que vous êtes ;-)



Scalabilité

: désigne la capacité d'un produit à s'adapter à un changement d'ordre de grandeur de la demande, en particulier sa capacité à maintenir ses fonctionnalités et ses performances. Les solutions cloud sont réputées pour être facilement scalables tant en volume de données qu’en performance de processing



Sécurité

: est un ensemble de stratégies et de dispositifs techniques qui empêche tout accès non autorisé aux actifs organisationnels tels que les ordinateurs, les réseaux et les données. Il maintient l'intégrité et la confidentialité des informations sensibles, bloquant l'accès des pirates informatiques sophistiqués généralement appelés hackers



Tables

: une table est une structure de données qui organise les informations en lignes et en colonnes. Il peut être utilisé à la fois pour stocker et afficher des données dans un format structuré. Par exemple, les bases de données stockent des données dans des tables afin que les informations soient rapidement accessibles à partir de lignes spécifiques.



Variété

: Un "V" de Big Data 3Vs fait référence à la fois à des données structurées et non structurées générées soit par des humains soit par des machines. Cependant, les données non structurées comme les e-mails, les messages vocaux, les textes manuscrits, les enregistrements audio, etc., sont également des éléments importants dans les technologies Variety et Big Data qui font la différence pour les faire parler par rapport aux applications de traitement de données traditionnelles.



Vitesse

: Un "V" de Big Data 3V, concernant la vitesse à laquelle les données sont générées ou traitées. À titre d'exemple, 900 millions de photos sont téléchargées quotidiennement sur Facebook, 500 millions de tweets publiés sur Twitter, 0,4 million d'heures de vidéos téléchargées sur Youtube et 3,5 milliards de recherches effectuées sur Google. Le Big Data accepte ces flux de données entrants et les traite en même temps rapidement afin de ne pas créer de goulots d'étranglement.



Volume

:Un "V" de Big Data 3V concernant la grande quantité de données. Gardez à l'esprit que les données dans l'univers numérique doublent de taille tous les 2 ans ... En savoir plus sur What's Big Data?



Plus de questions ou suggestions? N'hésitez pas à poster votre idée sur le forum de la communauté

Nous aimons apprendre et partager!