Big data, c’est quoi ?

On parle du nouvel ‘Or noir’ (http://BigData.CloudReady.ch)

Pascal Kotté
BotReady

--

Présentation réalisée dans le cadre d’une journée de formation Big Data, le 23 novembre 2018, au Living Lab Ecopol pour les transition écologiques de l’institut Smala, avec nos remerciements !

DOSSIER: Big data (1h30)

Auteur: Pascal Kotté, président de l’association de veille numérique collaborative www.CloudReady.ch, animateur du consortium http://LiN.mx, et blogueur sur http://blog.BotReady.ch, entre autres… http://Pascal.KOTTE.net — Une session chez vous? http://callme.kotte.net

Plan: ‘Big data’

  1. C’est quoi ?
  2. Pour quoi ?
  3. Comment ?
  4. Difficultés !
  5. Perspectives !

Si vous avez besoin d’un accompagnement humain pour ce contenu: Formateur certifié FSEA (Certificat Fédéral suisse en formation d’adultes, module 1), je suis coach en apprentissages et en transitions numériques, fondateur des CoLearning et instigateur des Tech4Good en Suisse romande. http://callme.kotte.net

1- Le Big Data, c’est quoi ?

Exemple 1: Google Ngram viewer: https://books.google.com/ngrams

Énormément de livres scannés et avec OCR (identification des caractères/mots) dans Google Books, le plus grand corpus textuel au monde. (7 millions de livres en 2008, 15 millions en 2010).

On peut y faire sa propre requête ! Et filtrer sur la langue (French)

Ici: Comparaison du nombre d’apparitions des mots “Suisse” et “Chine”

Attention aux conclusions hâtives ! Le choix de la requête sur les données, change le résultat. Big data, n’est pas une science exacte ! Les réponses sont faussées…
Suisse est le pays, suisse est la nationalité. Il manque le mot chinois !

Basculement en anglais ? Le corpus francophone est anecdotique !

Conclusion ? Les data et les graphes, ne jamais leur faire confiance ! C’est un travail d’investigation sur ces données qui va créer de l’intelligence.

Toutefois, on peut programmer les résultats de cette “intelligence” pour automatiser des choix…

Exemple 2: Netflix

En une année, Netflix a augmenté de 20% sa croissance (de 4 à 5 millions de nouveaux abonnés, sur 3 mois en 2015). Le Big data lui permet de fournir des suggestions et des recommandations, de plus en plus pertinentes et individualisées (par profilages). cf. https://www.frenchweb.fr/big-data-la-success-story-de-netflix/241601

image: frenchweb.fr

Les data analyst ont analysé l’audience de la série originale anglaise. Ils ont découvert que cette même audience était fan de l’acteur Kevin Spacey et des films du réalisateur David Fincher, suite à l’analyse des intérêts des abonnés.

Cette stratégie permet à Netflix de créer des séries à succès en chaîne. L’entreprise renouvelle plus de 80 % de ses saisons. La moyenne de l’industrie est de 25%. L’analyse de données offre un avantage concurrentiel évident. Elle permet de comprendre les besoins des consommateurs et de fournir une offre ciblée.

À ce propos, Netflix a réalisé 10 bandes-annonces différentes pour la série House of Cards. Chacune ciblée en fonction des audiences. Les fans de Kevin Spacey ont donc regardé une bande-annonce le mettant en valeur. Tandis que les fans de séries aux protagonistes féminins ont vu une bande-annonce centrée sur les personnages féminins de la série. (source: frenchweb.fr)

Une fois les profils “types” identifiés, quelques sélections et préférences suffisent pour attribuer rapidement un profil, qui est affiné ensuite.

Le contenu proposé n’est pas identique pour tous les usagers. Il est personnalisé.

On retrouve ce type d’analyses dans Facebook, qui va être capable de mieux nous connaître que nos propres proches, à partir de quelques “likes”.

TK — références et articles à retrouver sur ce sujet, votre aide sera welcome !

Exemple 3: Automatic Data Processing (ADP)

Un baromètre de l’emploi aux US, mensuellement à jour et Indépendant des administrations, fiable et devenu la référence, utilisant les données de 411'000 entreprises et près de 23 millions de leurs salariés.

source: lesechos.fr

Définition du Big data

De la données, beaucoup de données, structurée, ou pas…

  • Structurée = Base de données avec des attributs bien définis (Données mieux qualifiées, avec des formats de présentation bien définis, voir des outils d’extractions, requêtes de sélections déjà disponibles)
  • Non structurée = Des fichiers: Textes, slides, images, PDF, emails, sons, vidéos (Qualification bien plus aléatoire: Surtout sans les précieuses metadata : Sources, dates, localisations, nom des dossiers contenant le fichier, …)
  • Semi-Structurée = un mixe des deux, généralement présenté sous format XML. Par exemple, un flux twitter ou des fichiers non structurés avec metadata structurée (date création, localisation…)

Alors que les puissances doubles chaque 1–2 années, les volumes décuplent.

petitsdejeuners-vaud.ch 2014–12–05
Babak Falsafi (www.ecocloud.ch)

Avec IoT (Internet of Things): Les objets connectés, l’augmentation des volumes s’accélèrent encore plus…

1 Zettabyte = 1'000'000 Petabytes = 1'000'000'000'000 Gigabytes

Data growth (by 2015) = 100x in ten years — Population growth = 10% in ten years.

Si la Loi de Moore, assure un doublement en 18 mois, les données elles, explosent littéralement en termes de volumes.

Nous pouvons parler désormais d’infobésité, et d’un problème écologique aussi…

Aparté écologique ! Dans vos emails, arrêtez le truc des arbres !

Merci de penser à l’environnement, réduire l’infobésité avant le problème d’imprimer.
Et commencer à penser Eco-digital-responsable !

L’informatique consomme plus que le traffic aérien planétaire !

Désormais cela va dépasser 10% de la consommation électrique mondiale, et plus de 1,5 x le trafic aérien mondial.

Fin 2013, Digital Power Group estimait que l’ensemble des TIC (technologies de l’information et de la communication) captait près de 10% de la production d’électricité au niveau mondial. Le cabinet rappelait que le bilan électrique des appareils informatiques ne se limite pas à leur usage mais doit également tenir compte de leur construction, de leur assemblage mais aussi des réseaux de communication et data centers sollicités pour leur bon fonctionnement.

Big data, combiné avec l’Intelligence Artificielle

c’est la 4ème révolution !

Evolutions & révolutions industrielles — Accélérations !

Nous sommes en train de vivre, la 4ème révolution, post-digital, avec le Bigdata et l’IA (Intelligence Artificielle).

Ref. (https://fr.wikipedia.org/wiki/Luciano_Floridi, The 4th Revolution: How the Infosphere is Reshaping Human Reality, 2014) L.Floridi utilise les 4 noms du bas, pour ces 4 révolutions (Copernic, Darwin, Freud, Turing), pour ma part, je préfère Gutemberg, pour la révolution culturelle, suivi de Watt, pour la libération des mines via le moteur à vapeur, avec Edison pour les premiers éclairages électriques, et Rifkin pour la 3ème révolution, numérique. Nous sommes nombreux à croire dans l’émergence d’une 4ème, cyber-physique. Vers une libération de l’homme, ou son asservissement, ou bien son annihilation.

Les technologies numériques suivent les même évolutions accélérées, exponentiellement, avec un doublement tous les 18 mois, depuis 1960. Mais cela implique en réalité des évolutions encore plus exponentielles sur les capacités de stockages et de calculs:

Révolutions numériques: Les capacités de calcul pour 1'000 $ par seconde ont été multipliées par 100'000 de 1960 à 1990 pour atteindre une densité de circuit approchant l’équivalent du nombre de neurones dans le cerveau d’un insecte, puis encore x 100'000 de 1990 à 2010 pour équivaloir celui d’une souris, et en 2030 nous atteindrions celui du cerveau humain, à ce rythme.

La représentation suivante a été faîtes par des scientifiques, qui ont évalué dans combien d’années, des calculs compliqués qui ne valaient pas le prix à payer sur le moment, seront accessibles à un prix raisonnable.

Et les ordinateurs quantiques, pourraient bien permettre de maintenir sinon accélérer l’exponentialité de cette courbe dans le futur !

Il faut comprendre que la Loi de Moore, souvent présentée avec une courbe linéaire est en fait une exponentielle, l’ordonnée est logarithmique !

10 février 1996, un super-calculateur de 2 tours de CPU (au centre) gagne Kasparov aux échecs: Le smartphone de droite, comprend 20 fois ces 2 tours !

De nos jours, la puissance de calcul et la mémoire des 2 tours (rack) nécessaires pour battre Kasparov aux échecs, est contenu plusieurs dizaines de fois dans un de nos Smartphones (en 2018).

Il a fallu 20 ans.

Mais pour la prochaine itération, la tour de calcul qui a battu Eli SEDOL en 2016 au jeu de go, il ne faudra plus que 10 ans… C’est exponentiel !

Sauf qu’il a quand même fallu aligner plusieurs AlphaGo (48 CPUs+8 GPUs) en parallèle, pour un total de 1202 CPUs et 176 GPUs ! soit 25 systèmes AlphaGo…

15 mars 2016 ? Le début de la suprématie de l’intelligence artificielle ? Il va quand même falloir un moment pour avoir ces multiples Racks dans sa main !

Cf. https://www.tastehit.com/blog/google-deepmind-alphago-how-it-works/

— Conséquences pour le Big data (et l’IA):

Du coup, nous disposons désormais des moyens de produire et traiter beaucoup de données !

Y compris pour du profilage et ciblage individuel !

SOCIAL DATA

2017: Reste moins de 50% du monde à connecter à Internet…

Quelques données fabriquées en 1 minute, par les usagers du Net ?

Pour une toute petite partie :

Une minute d’Internet en 2016

La taille et le volume des informations traitées par ces réseaux sociaux, sont énormes, mais ils sont surtout individuellement identifiés, avec détails.

https://whatsthebigdata.com/

La connaissance intime des citoyens consommateurs, individuellement, et avec leurs réseaux relationnels, est devenu un enjeux majeur des GAFAM, et de Tencent (WeChat)…

Après plus de 40$ par profil Whatsapp rachetés par Facebook en 2014, Microsoft rachète Linkedin (400 millions de profils) pour plus de 50$ chaque, et Github (28 millions de développeurs) pour près de 250$ par profil ! Ils avaient racheté Skype pour près de 25$ par profil en 2011.

Et Microsoft rachète LinkedIn, 66$ /profil… en 2016, WhatsApp, c’est 42$/profil (en fait un peu +)

Mais les fonctionnalités et les intégrations les plus avancées, sont largement supérieures sur WeChat en Chine et KakaoTalk en Corée.

Si Facebook a racheté Whatsapp, c’est très probablement dans l’espoir de faire un WeChat pour le reste de la planète… Idem pour Microsoft (avec Skype et LinkedIn).

Pour Google, ils ont déjà les données détaillées de la totalité des Internautes, dans les Gmail contacts de tout le monde… Et Apple, vient de se rallier à Google… (TK)

NB. Pour les réseaux sociaux, il n’y a pas que Facebook dans la vie: Diasporing.ch

Les réseaux sociaux ne sont toutefois plus les principaux producteurs de données.

Les objets connectés sont arrivés.

IoT — L’Internet des objets (Internet of Things)

Que ce soit sur les humains eux-mêmes (wearable), ou bien au domicile (domotique), ou dans des objets itinérants généralement avec leur propriétaire (voiture, mobiles, drones), ou des objets fixes dans les paysages urbains, . les objets “bavardent” et communiquent.

Depuis 2008, le nombre d’objets connectés a dépassé le nombre d’humains… En 2015: 328 millions ajoutés par mois (127 /sec. *)

source: cloudtweaks.com

Toutefois, pour connecter des objets, il faut une plate-forme IoT de connexion , avec quatre composants:

  1. Des connecteurs pour “causer” avec les objets (à la base) [Yeux, oreilles], avec parfois des relais intermédiaires, voir via un maillage et par rebonds.
  2. Un cœur de traitement facilité pour les données
    (filtrages, agrégations, alertes)
  3. Une mémoire pour stocker la sélection utile de ces données (stockage)
  4. Reporting et présentation des données, avec interfaces programmables API (affichage, échanges, exports)
  5. Et parfois, un système de commande pour piloter des actions sur l’objet (domotique)

SaaS = Software as Service — Le Cloud n’est pas en reste

Cela s’ajoute à toutes les informations collectées via les Applications mobiles, ou les services en ligne. Ne serait-ce que pour s’identifier sur un service web, en utilisant un login Facebook, Twitter, Microsoft ou Google, et zou, une entrée dans le Big data de Google: “Tel jour, telle heure, s’est identifié sur tel prestataire hébergé chez SaaS, c’est noté”. Evidemment, avec un Google Chrome, ouvert sur une session identifiée (plus pratique), même pas besoin d’un SSO gratuit pour tracer la totalité des pages visitées. A chaque fois que nous utilisons un service en ligne depuis une page web, ou bien une App mobile, nous signalons des informations qui sont collectées.

— Des informations remises en pleine conscience ?

Si je vous demandais d’exporter maintenant tous vos contacts sur votre smartphone (un simple petit fichier VCF), et de me le transmettre par email, pour avoir vos contacts (associés à votre propre email), pour les inviter en votre nom à mes activités. Seriez-vous d’accord ? … Non ?… Mais alors, soyez cohérent !

Et bien vous l’avez déjà fait, et continuez, avec d’autres acteurs, autrement mieux équipés que moi-même pour bien exploiter et conserver toutes ces données…

Whatsapp collecte tous vos contacts, LinkedIn (Microsoft) aussi, Google et Apple, évidemment, mais un très grand nombre d’applications accèdent à vos contacts !

Il est temps de se poser quelques questions !

La responsabilisation passe aussi par les consommateurs (cf. projet http://Responsibility.digital)

Corporate Big data

Les données internes dans les entreprises, “non structurées” pour la plus grande part (email, documents, vidéos, images…), deviennent des sources pour mettre en place des ‘Data lake’ internes. Rappel: Les données de Facebook et Google, sont des ‘Data lake’ corporate, pas du Open Data

Un nouveau métier dans l’informatique, le Data-Scientist !

Car le challenge à relever nécessite de belles expertises, à cause des 3 V !

  1. Vélocité: Il faut être capable de traiter ces données, plus rapidement qu’elles ne sont produites, ce n’est pas si évident…
  2. Volume: Que ce soit en termes de tailles, ou de nombre de fichiers, ou de nombre d’enregistrement dans une base structurée, c’est Giga big parfois.
  3. Variable: Variété en type de données (métadonnées, sons, images, textes, pdf, slides, bases structurées…)

On parle aussi des 5 V: En ajoutant Véracité et Valorisation !

image: https://technophiles2016.blogspot.com/2017/08/more-on-big-data.html
Episode de #DataGueule, 3mn sur le Big data !

2- Pour quoi faire ?

Les collecteurs de ces Big data, ne savent pas encore vraiment tout ce qu’ils vont pouvoir en faire. Mais une chose est certaine, c’est que cela va servir à augmenter les rendements, et les revenus… Avec un peu de chance, cela pourrait aussi rendre des services aux humains, à tous les humains ?

Mais pas que…

  1. Analyse de marchés et de tendances, recommandations (profilages)
  2. Désormais devenu analyse fine de personae afin de manipulation marketing, ou politique… Plus important: Quelques clics ‘j’aime’ suffisent à établir un profil type significatif.
  3. Mais aussi, amélioration de la prévention dans le domaine de la santé.
  4. Amélioration et optimisation des ressources (Smart-cities)
  5. Création ou amélioration de modèles prédictifs sur des phénomènes complexes (Météorologie, Sociologie par exemples)
  6. Recherches Scientifiques (CERN, 150 millions de capteurs sur le ‘Large Hadron Collider’, 25 Po de données à stocker par années, et à sauvegarder)
  7. Surveillances militaires et policières (Détection de fraudes dans la finance)
  8. Protection civile (données sismiques)
  9. Automatisations des ordres financiers, boursiers.
  10. non exhaustif… (ex. Formations personnalisées)

Mais cela pourrait être aussi de la eGouvernance (eGov), afin de faciliter l’implication et la prise de décisions par les citoyens, ou les salariés dans les organisations, ou les communes, ou les régions, voir la nation.

De la prédiction

Identification sans équivoque d’un nouvel idylle ! A couché à 0, ou un peu avant…

Le Big data social, c’est aussi d’en savoir plus sur toi, que ton conjoint !

Et donc, de se doter d’outils de surveillances, et de manipulations massives ?

Mais le Big data n’est ni bon, ni mauvais, c’est juste de la technologie. C’est l’usage que nous allons en faire, qui sera importante, et du coup, la façon dont nous traitons, enregistrons, captons toutes ces données, sans s’imposer une charte éthique de traitement, est dangereux. Nous devons intégrer des intentions de bienveillances dans la mise en place des outils, dès le départ. Surtout quand on ne sait pas, ce qu’il va en être fait, de ces données !

3- Comment ? Les collecteurs IoT

Des capteurs électroniques spécialisés, low-cost, low-energy, low-tech parfois, pour les rendre durables. Mais il y aussi les capteurs “génériques”, pour faire un pilote, une maquette, ou même définitifs pour des mesures complexes.

Collecteurs génériques, Low-Energy-Tech: CPU

Des PC réduits, en mode “lego” (assemblages de pièces optionnelles: écran, LCD; couleur, sans; Wifi ou pas, etc…)

Arduino + Rasberry Pi
  • Arduino : +connectivités, micro-contrôleur (+ électronique)
  • Rasberry Pi: nano-pc complet (+ informatique)

Intel avait aussi fait une tentative dans la course: Avec Galileo

Mais plouf: L’aventure s’arrête en juin 2017

Low-Energy-Tech: LPWan

Des réseaux sans fils bats débits, et basses énergies. Du low-tech, low-cost !

Dont fait partie LoRa, une des applications LPWAN, conçu en France à Grenoble, racheté par Semtech (USA).

Plateformes IoT

Mais le gros challenge, va être de capter le marché des objets connectés en offrant la supervision et la sécurité, et d’ubériser la place, encore ? Ou pas…

  1. Amazon
  2. Apple
  3. Google
  4. Microsoft
  5. Samsung

Mais il devrait toujours y avoir de la place pour des acteurs de “niches”:

Il ne faut toutefois pas négliger Huawei, de notre point de vue (partagé chez LiN et CloudReady) :

Voir aussi: https://www.objetconnecte.com/iot-acteurs-influents/ et https://www.objetconnecte.com/comparatif-plateforme-iot

Les outils de traitement des big data

Le problème

Le traitement des données n’est plus possible manuellement. Des outils logiciels deviennent nécessaires pour en exploiter les contenus.

Les données actuelles défient l’entendement humain, notamment en raison de leur volume, de la présence d’erreurs ou de données manquantes, mais aussi du nombre important d’individus…

Il est donc difficile, voir impossible, pour un humain de traiter ces données dans un temps raisonnable. La classification probabiliste permet l’analyse de ces données afin de les organiser automatiquement en catégories homogènes et en générant les règles de classement. Il est ensuite possible de dégager une structure dans les données et de les représenter de manière simple et interprétable. [...]

En (e-)marketing et (e-)commerce, la classification permet le ciblage de typologies de clients. Dans les domaines financiers et boursiers, l’intérêt est d’identifier des catégories de placements ou d’investisseurs. (Christophe Biernack) https://www.inria.fr/centre/lille/agenda/data-et-big-data-le-nouvel-or-noir 2013

Le profilage des individus, n’est toutefois pas le seul domaine des Big data.

Les solutions

Exploiter des giga octets de données est à la fois simple et compliqué. Simple, car les outils mathématiques pour extraire des corrélations existent depuis longtemps. Compliqué, car les 3 V du big data (Volume, vitesse et variétés des formats) ont obligé les informaticiens à développer de nouveaux outils d’infrastructure, qui ne cessent d’évoluer dans le temps. Petite synthèse.

Pour faire parler les big data, le data scientist utilise des outils d’infrastructure, qui collectent, stockent et préparent les données, quels que soient leur source ou leur format (structuré, semi-structuré ou non structuré). Puis, avec les outils d’analyse et de visualisation, que l’on retrouve dans le “machine learning”(apprentissage statistique), il rend les données intelligibles et exploitables.

LES OUTILS D’INFRASTRUCTURE

Les bases NoSQL (No structured query language) stockent et gèrent de gros volumes de données structurées ou non. Les principales sont MongoDB, Apache Cassandra, HBase et Amazon dynamoDB en open source. Chez les éditeurs, elles s’appellent Vertica (HP), NoSQL Database (Oracle) ou Document DB (Microsoft).

Les frameworks de calcul distribué séparent les requêtes des algorithmes, les distribuent à des nœuds parallélisés (cluster) et rassemblent les résultats (reduce).

Le plus connu est Hadoop, une solution open source de la fondation Apache, initialement développée par Yahoo, et qui intègre des outils comme MapReduce, GoogleFS et BigTable développés par Google. Un remplaçant, Spark, arrive sur le marché.

Spark prend la place de MapReduce

R et Python sont les deux principaux langages open source pour écrire les algorithmes. Il existe aussi des modules préprogrammés, comme Apache Mahout pour le machine learning sur Hadoop. Enfin, les outils de l’éditeur Tableau se distinguent pour la visualisation.

Les data scientists utilisent également des outils du marché, hérités des technologies de data mining comme SPSS d’IBM ou les logiciels SAS. IBM propose aussi un outil en ligne, Watson Analytics, service cognitif fondé sur le langage naturel, qui charge des jeux de données dans le cloud pour trouver des pistes d’exploitation. Certains data scientists commencent également à partager des algorithmes spécialisés, comme PredPol qui identifie les pics de délinquance et les cartographies. Sans parler des start-up qui développent des algorithmes spécifiques pour fournir des services clés en main.

Aurélie Barbaux (2015, usine-digitale.fr)

— Voir aussi:

Rapidminer est un outil open source capable de prendre en charge des données non structurées, tels que des fichiers texte, des logs de trafic et des images.

Mais la très grosse rupture qui fait toute la différence, et rend les Big Data redoutablement efficaces, est la combinaison avec les IA.

C’est la véritable 4ème révolution de l’histoire humaine.

Les IA au secours du Big data

Le deep learning va permettre d’explorer dans le Big data, principalement :

  1. La reconnaissance d’images (et de sons)
  2. La classification multi-dimensionnelle
  3. ?

L’esprit humain est apte à prendre en compte une représentation à une dimension (orientation politique base gauche-droite, QI, hauteur, poids…), mais aussi à 2 dimensions (comme les Emeerge map d’Arnaud Velten, qui permettent de regrouper les personnes par affinités sur 2 critères). On peut encore extrapoler en 3D, mais regrouper des populations sur des dizaines de critères différents, cela devient peu représentable…

Cela ne pose pas le moindre problème, aux ordinateurs, qui peuvent explorer et voir, et regrouper sur plusieurs centaines de dimensions différentes !

Analyse simpliste humaine, par exemple, test de QI, alignement politique (Droite-gauche). Mode Emerge Map d’ Arnaud Velten
modèle 3D, pas facile à voir… Et à n dimensions, l’ordinateur n’a aucune difficulté à repérer des profils similaires, dans 10, 20 ou 100 dimensions…

La capacité en vitesse et volume de contenus: L’Ordinateur devance l’humain depuis longtemps.

— Mais avec l’apprentissage profond des Intelligences Artificielles (IA Deep learning), l’analyse des données va permettre d’étendre ces analyses sur des données non structurées (images, sons, vidéos).

Il repose sur un réseau neuronal numérique, qui reproduit artificiellement des structures similaires aux neurones humains. Mais ce sont fondamentalement des arbres de décisions, comme les systèmes experts dont les logiciels existent depuis plus de 30 ans. Sauf que désormais, l’apprentissage remplace les experts, permettant de finalement dépasser, tous les experts humains !

Les réseaux de neurones artificielles, et l’apprentissage profond ! (image: tastehit.com)

ImpactIA

Le Big data c’est les données massives. A ce jour pour qu’une machine puisse apprendre et avoir de bons résultats, il lui faut :
— 100 exemples : problèmes très simples
— 10’000 images : classifier des images,
— 10’000 heures d’audio pour que la machine le retranscrive clairement (Siri, Google assistant…)
— 10’000 heures d’entraînement : système de conduite qui fonctionne relativement bien.

Une règle approximative pour les apprentissages complexes est qu’il faut à peu près 100 fois plus de données que ce qui est nécessaire à un humain pour maîtriser une tâche. Aujourd’hui, le grand défi est de faire apprendre l’IA avec moins de données.

( Laura Tocmacov Venchiarutti, impactIA) https://www.impactia.org/7-notions-dintelligence-artificielle-pour-paniquer-avec-classe/

Les limites des IA

  • Elle doit être “entraînée” pour être efficiente. Cet entrainement nécessite un contrôle de validation, sur le résultat positif ou négatif de l’expérience apprise.
  • On ne sait pas facilement expliquer “pourquoi”, le choix 1 a été fait sur le 2. La machine apprend, et fait des choix sans les comprendre elle-même.
  • Il manque encore des ‘arbres de connaissances’ partagées, en open data. Mais ces ‘mémoires neuronales’ ou ‘arbres de connaissances’ commencent à être disponibles: Pour la reconnaissance d’images, de sons, de languages.

Une IA peut apprendre instantanément, en dupliquant les ‘connaissances acquises’ d’une autre IA (compatible) !

Mais la ‘singularité’ n’est pas encore là.

Toutefois: Sans mort ni renaissance, l’artificiel est condamné à devoir dépasser l’humain un jour. (Pascal Kotté)

4- Des difficultés !

IoT: Centralisé vs Distribué ! Perte de confiances

Les défiances actuelles face aux ubérisations planétaires avec les hégémonies des GAFAM (Google, Amazon, Facebook et Microsoft) et des NATU (Netflix, Air BNB, Tesla, Uber), mais aussi des BATX (Baidu, Alibaba, Tencent, Xiaomi), pourraient bien ouvrir des voies à des alternatives plus “Open source” et “distribuée”. Entre autres, des projets basés sur la Blockchain. Mais la connexion des objets connectés LPWAN passe impérativement par un opérateur intermédiaire. Les équipements Wifi ou 4G (alimentés) peuvent se connecter directement sur Internet, mais ils ont aussi besoin d’être supervisés et sécurisés. Il fera souvent sens de passer par une plateforme fédératrice intermédiaire. Mais c’est une mise en dépendance centralisée.

L’ensemble des GAFAM (et NATU) étendent leurs activités dans tous les domaines, à travers des rachats, grâces aux importants moyens financiers dégagés.

Rachats des GAFA: Le phénomène de trust, déjà existants depuis le néolibéralisme est amplifié dans le digital.

Car c’est un défi aux principes même d’auto-régulation par la “main invisible” du libéralisme capitaliste, issu du monde industriel, qui est censé assurer une marge net tendant vers zéro, du fait de la mise en concurrence. Cela ne fonctionne plus au regard des marges nettes dégagées par les GAFAM, qui plus est échappant à une imposition “normale” (TK ref?). Ils dépassent les budgets de la plus grande partie des nations de notre planète.

Les tentatives de régulations de l’Europe face aux GAFAM, semblent dérisoires.

Les propriétés spécifiques du numériques (cf. Netizenship), ne semblent pas être en adéquation avec les régulations historiques, ou trop en adéquation avec des intérêts spéculatifs de quelques, au détriment du plus grand nombre.

Mais les propriétés numériques ne sont pas les seules responsables, et un lobbying ploutocratique (contrôle du pouvoir par les fortunés) avec des gouvernances spéculatives (rentable vs durable/responsable) sont aussi certainement en cause.

La Chine fausse encore plus le jeux, car le gouvernement soutien les 4 grands acteurs, pour occuper le terrain au niveau planétaire, sans les laisser se faire concurrence, mais au contraire, en distribuant les cartes entre eux :

“Alors oui, les BATX sont en route pour dominer le digital mondial en 2025.” (Aurélie Dano)

La Chine est restée en gouvernance centralisée en interne, mais elle embrasse la ploutocratie planétaire en externe, en rachetant même des terres hors de la Chine, des entreprises, et l’or de la planète !

Les limites culturelles du Big data dans l’IoT

  • Régulations GDPR/LPD2, (sur?)protection de la sphère privée.

Les nouvelles réglementations européennes, la GDPR, seront suivies par la Suisse avec une nouvelle loi sur la protection des données (LPD2) mais plus tardivement.

Le contrôle complet des informations au niveau individuel permet de “programmer” le comportement des individus. Notre libre arbitre est limité à probablement bien moins de 5%, d’après les neurosciences. La transmission des bonnes informations, au bon moment, sous la bonne forme, permet de manipuler une personne pour lui faire prendre des décisions orientées. Cette crainte alimente multiples polémiques.

Polémique ?

  • L’intrusion profonde dans nos psychés, permet la manipulation massive, surtout quand c’est associé à des outils sociaux de grande envergure.

Et à lire absolument:

Des pistes d’évolutions ?

  1. Intégrer la dimension numérique comme une extension physique de l’humain dans nos constitutions, et les droits de l’homme: Le droit à l’intégrité physique, psychique et numérique !
    Cf. www.VieNumerique.ch pour la Suisse.
  2. Réappropriation de nos patrimoines publics et personnels: Private, Secure, et Open Data by Design.
    Créer des coopératives de gouvernances publiques, et d’intérêt publique, pour collecter nos propres données, afin d’en conserver le contrôle et les droits d’accès, anonymisées le cas échéant. Profilage oui, mais sous notre contrôle.

[Cf. intervention Emmanuelle Germond]

Les applications pratiques

Smart-cities

source: Talend.com

- More than 2.3 million smart sensors have been installed across 3,000 cities.

- The system manages around 20 million messages of data from clients per day.

- There are around 140 million messages collected and displayed every week.

“We collect all types of data — water, temperature, electricity, pollution, noise data, etc. — and analyze them to develop innovative public services in smart cities.”

Xavier Diab (M20CITY)

https://www.talend.com/blog/2017/12/01/create-smart-city-iot-big-data/

Agriculture

Au-delà de connecter nos animaux et légumes:

Le Big Data pourrait bien devenir une forte nécessité pour éviter à l’avenir dans le monde, ce que la Chine a déjà vécu en 1959 avec la grande famine.

“For a big data company, what is a farmer? It’s an account number, that grower’s next to everyone else’s,” Hackney said. “For a farmer, if their data falls into the wrong hands, it’s an existential threat.”

see https://www.techrepublic.com/article/how-big-data-is-going-to-help-feed-9-billion-people-by-2050/

Pushing for open data

Earlier this year, Aaron Ault of Purdue University’s open ag technology group headed up an initiative to bring third party auditors into the data gathering process. The Open Ag Data Alliance was born, and the project was designed to bring privacy and security to agricultural data.

En France

Ecologie

Encore Open Data nécessaire !

Astronomie

Des accès libres (open data), de nouveau une nécessité !

Portant sur 16 critères pouvant se résumer aux règles suivantes:

  • Les données sont accessibles via Internet
  • Les licences / droits d’utilisations des données sont clairement exprimés
  • Les données sont réutilisables
  • Les données sont fiables
  • Les données sont identifiées de manière unique selon une nomenclature permettant un référencement externe

Santé

  • Prévention: HUG, Christian Lovis: 2016 Rencontres Genève-LAB. L’hôpital deviendra un datacentre, avec des mesures et surveillances à domicile (IoT wearable). Le CHU invitera les habitants, pour des examens dès l’apparition des risques, avant même les premiers symptômes…
  • Mélanome malins, Watson déjà opérationnel. Bientôt depuis son smartphone ?
image: santeperso.ch
  • Génétique
En 2018, c’est moins de 1'000$ Délai < 1 semaine

Recherche et explorations génétiques (analyse des Génomes)

Décodage du génome, avec un prix devenant accessible dans une proportion vertigineuse.

Actuellement moins de 1'000$ et en moins d’une semaine…

Sécurité

  • Identifications faciales:
  • Préventions des Fraudes financières

NetGuardians, une ex-startup CH à Yverdon/Y-parc:

40mn en anglais, présentation d’une utilisation du Big Data dans la protection des données
  • Nouvelles solutions, nouvelles menaces !

Mais ce qui va permettre d’augmenter la sécurité, va aussi permettre de la réduire !

Finances, Mobile-banking

J’ai testé Revolut: http://revolut.kotte.net et l’identification de la carte d’identité, se fait en ligne, en temps réel, via une IA qui analyse la pièce d’identité scanné et la photo de la personne prise avec l’appareil. Sécurité très limité, mais service immédiatement disponible. Ce n’est toutefois pas un établissement bancaire, c’est une carte de débit, associée à la banque Loyd.

Marketing & Politique

Nos prochains élus, des avatars humains de Bots électroniques !? Pascal Kotté

Exemple de Lil Miquela: https://en.wikipedia.org/wiki/Lil_Miquela

Pour le moment toutefois, les big data ne servent qu’à cibler des populations, et des tendances et profils (persona) afin d’adapter le message de propagande, voir à téléguider les “visiteurs” bénévoles, vers les bonnes maisons à convaincre, dans leurs quartiers (TK référence campagne Sarkozi).

cf. https://thomaslestavel.files.wordpress.com/2017/02/tech-et-politique.pdf

Toutefois, les big data se trompent aussi :

Pour rappel, au second tour Macron / Le pen, 50% d’erreur… Pas si mal.

Météorologie, climatologie, modélisations

Les premiers modèles qui utilisaient des gros calculateurs en 1970, sont devenus accessibles et utilisables, en ligne, avec des calculs en secondes:

Désormais, les volumes de données collectées par les multiples capteurs, sondes et stations, peuvent aussi compter avec des acteurs en mode communautaire: Encore de l’Open Data qui permet cela:

Toutefois, cela n’est pas toujours couronné de succès… Startup en 2014, dormante depuis 2016 ! Mais toujours ‘up & running’ ? (à tester).

Mais pas que…

Bien d’autres applications à explorer…

5- Perspectives

Machine Learning, sans Deep learning… ?

En 2017, Libratus a battu haut la main les meilleurs joueurs de Poker mondiaux. On lui a appris les règles, et il n’y a pas eu, comme avec AlphaGo, un apprentissage profond en amont…

Mais en réalité, il y a eu apprentissage profond, car la nuit, quand les autres joueurs humains dormaient, lui, il calculait, toute la nuit, il apprenait de la journée. Chaque failles trouvées par les joueurs étaient corrigées le lendemain. Il a même appris des tactiques des joueurs humains, pour les reproduire. Le 2nd jour, il a commencé à bluffer, et à mettre des petites mises sur des bons jeux, et grosses mises sur des mauvais jeux… Le résultat est sans équivoque: Humains, Ko par la machine, et de loin.

Le dixième jour, Dong Kim déclara : « Jusqu’ici, je ne m’étais pas rendu compte à quel point il était bon. Aujourd’hui, j’avais les mêmes sensations qu’en jouant contre un tricheur qui aurait vu mes cartes. Mais Libratus ne trichait pas, il était seulement trop fort ». Dong Kim était le meilleur joueur de Poker, humain…

Informatique quantique

Les accélérations technologiques qui permettent d’exploiter et d’approfondir les mêmes ‘data lake’, ne semblent pas prévoir de ralentir. Cela pourrait même faire un bon avec l’informatique quantique, dont l’acteur majeur dans un futur proche pressenti, en regard des investissements réalisés, est: La Chine.

Voir aussi résumé FR ici: https://paris-singularity.fr/le-futur-quantique-de-la-chine/

Quand je vous dis, que la Singularité, ce sera avant 2050 ! Et peut-être bien en Chine… Espérons que cette singularité sera bienveillante, pour tous les humains et les être vivants de cette planète…

Bonnes chances à tous, et une belle vie, malgré tout !

Merci pour cette lecture/écoute

--

--

Pascal Kotté
BotReady

Réducteur de fractures numériques, éthicien digital, Suisse romande.