Les graphiques en tant que pile technologique fondamentale: analytique, IA et matériel


Élevez la technologie et la stratégie de vos données d’entreprise à Transform 2021.


Comment vous sentiriez-vous si vous voyiez la demande pour votre sujet préféré – qui se trouve être également votre secteur d’activité – croître de 1 000% en seulement deux ans? Justifié, ravi et un peu surchargé d’essayer de répondre à la demande, probablement.

Bien qu’Emil Eifrem n’ait jamais utilisé ces mots exacts lorsque nous avons discuté du passé, du présent et du futur des graphiques, c’est une projection raisonnable à faire. Eifrem est PDG et cofondateur de Neo4j, une société de bases de données de graphes qui prétend avoir popularisé le terme «base de données de graphes» et être le leader dans la catégorie des bases de données de graphes.

L’histoire et les idées d’Eifrem et Neo4j sont intéressantes car à travers elles, nous pouvons retracer ce qui s’annonce comme une pile technologique fondamentale pour les années 2020 et au-delà: les graphiques.

Analyses de graphes et bases de données de graphes

Eifrem a cofondé Neo4j en 2007 après être tombé sur l’applicabilité des graphiques dans des applications avec des données hautement interconnectées. Son initiation est venue en travaillant en tant qu’architecte logiciel sur une solution de gestion de contenu d’entreprise. Essayer de modéliser et d’appliquer des connexions entre des éléments, des acteurs et des groupes à l’aide d’une base de données relationnelle a fini par prendre la moitié du temps de l’équipe. C’est à ce moment-là qu’Eifrem a réalisé qu’ils essayaient d’insérer une cheville carrée dans un trou rond. Il pensait qu’il devait y avoir un meilleur moyen et s’est mis en route pour que cela se produise.

Lorsque nous nous sommes entretenus pour la première fois en 2017, Eifrem chantait depuis un moment la mélodie «les graphiques sont fondamentaux, les graphiques sont partout». Il l’est toujours, mais les choses sont différentes aujourd’hui.

Ce qui était alors l’un des premiers jeux d’adoption a fait boule de neige au grand public aujourd’hui, et il continue de croître. «Graph Relates Everything», c’est ainsi que Gartner l’a dit lorsqu’il a inclus des graphiques dans ses 10 principales tendances en matière de technologie de données et d’analyse pour 2021. Lors du récent sommet Data & Analytics 2021 de Gartner, le graphique était également au centre des préoccupations.

L’intérêt augmente à mesure que les données graphiques jouent un rôle dans la gestion des données de base, le suivi de l’argent blanchi, la connexion d’amis Facebook et l’alimentation du classeur de page de recherche dans un moteur de recherche dominant. Chercheurs des Panama Papers, ingénieurs de la NASA et leaders du classement Fortune 500: ils utilisent tous des graphiques.

Selon Eifrem, les analystes de Gartner constatent une croissance explosive de la demande de graphes. En 2018, environ 5% des demandes de Gartner sur l’IA et l’apprentissage automatique concernaient des graphiques. En 2019, cela est passé à 20%. De 2020 à aujourd’hui, 50% des demandes portent sur des graphiques.

L’intelligence artificielle et l’apprentissage automatique sont extrêmement demandés, et le graphique fait partie des sujets les plus brûlants dans ce domaine. Mais le concept remonte au 18ème siècle, lorsque Leonhard Euler a jeté les bases de la théorie des graphes.

Euler était un scientifique et ingénieur suisse dont la solution au problème des sept ponts de Königsberg a essentiellement inventé la théorie des graphes. Ce qu’Euler a fait a été de modéliser les ponts et les chemins qui les relient en tant que nœuds et arêtes dans un graphe.

Cela a formé la base de nombreux algorithmes de graphes capables de résoudre des problèmes du monde réel. Le PageRank de Google est probablement l’algorithme graphique le plus connu, aidant à marquer l’autorité des pages Web. D’autres algorithmes graphiques sont appliqués à des cas d’utilisation tels que les recommandations, la détection de fraude, l’analyse de réseau et le traitement du langage naturel, constituant le domaine de l’analyse graphique.

Les bases de données graphiques servent également une variété de cas d’utilisation, à la fois opérationnels et analytiques. Un avantage clé qu’ils ont par rapport aux autres bases de données est leur capacité à modéliser de manière intuitive et à exécuter rapidement des modèles de données et des requêtes pour des domaines hautement interconnectés. C’est assez important dans un monde de plus en plus interconnecté, affirme Eifrem:

Lorsque nous sommes allés sur le marché pour la première fois, la chaîne d’approvisionnement n’était pas un cas d’utilisation pour nous. L’entreprise de fabrication moyenne aurait une chaîne d’approvisionnement de deux à trois niveaux de profondeur. Vous pouvez stocker cela dans une base de données relationnelle; c’est faisable avec quelques sauts [or degrees of separation]. Avance rapide jusqu’à aujourd’hui, et toute entreprise qui expédie des marchandises puise dans ce maillage mondial à grain fin, couvrant un continent à l’autre.

Tout à coup, un navire bloque le canal de Suez, et vous devez ensuite comprendre comment cela affecte votre entreprise. La seule façon de le faire est de le numériser, puis de raisonner et de faire des effets en cascade. En 2021, vous ne parlez plus de deux à trois sauts. Vous parlez de chaînes d’approvisionnement de 20 à 30 niveaux de profondeur. Cela nécessite l’utilisation d’une base de données de graphiques – c’est un exemple de ce vent derrière notre dos.

Graphiques de connaissances, science des données graphiques et apprentissage automatique

La catégorie de base de données de graphes est en fait fragmentée. Bien qu’elles ne portent pas toujours ce nom, les bases de données de graphes existent depuis longtemps. Les bases de données RDF, basées sur la technologie du Web sémantique et datant d’environ 20 ans, sont l’une des premières branches des bases de données de graphes.

L’exploration et la catégorisation du contenu sur le Web est un problème très difficile à résoudre sans sémantique ni métadonnées. C’est pourquoi Google a adopté la technologie en 2010, en acquérant MetaWeb.

Ce que nous obtenons en connectant des données et en ajoutant de la sémantique à l’information, c’est un réseau interconnecté qui est plus que la somme de ses parties. Cette fusion en forme de graphique de points de données, de relations, de métadonnées et de signification est ce que nous appelons un graphe de connaissances. Google a introduit le terme en 2012, et il est maintenant utilisé partout.

Les cas d’utilisation des graphiques de connaissances sont en plein essor. Attirant une attention maximale dans le cycle de battage médiatique de Gartner pour l’IA en 2020, les applications se répandent des Googles et Facebook du monde vers les entreprises de taille moyenne et au-delà. Les cas d’utilisation typiques incluent l’intégration et la virtualisation des données, le maillage de données, les catalogues, les métadonnées et la gestion des connaissances, ainsi que la découverte et l’exploration.

Mais il existe une autre utilisation des graphiques en plein essor: la science des données graphiques et l’apprentissage automatique. Nous avons connecté des données et nous voulons les stocker dans un graphique, donc la science des données graphiques et l’analyse des graphiques sont la prochaine étape naturelle, a déclaré Alicia Frame, directrice de la science des données graphiques de Neo4j.

«Une fois que vous avez vos données dans la base de données, vous pouvez commencer à chercher ce que vous savez qu’il y a, c’est donc votre cas d’utilisation du graphe de connaissances», a déclaré Frame. «Je peux commencer à écrire des requêtes pour trouver ce que je sais, pour trouver les modèles que je recherche. C’est là que les data scientists commencent – j’ai des données connectées, je veux les stocker dans la bonne forme.

«Mais la progression naturelle à partir de là est que je ne peux pas écrire toutes les requêtes sous le soleil. Je ne sais pas ce que je ne sais pas. Je ne sais pas nécessairement ce que je recherche et je ne peux pas passer manuellement au crible des milliards de nœuds. Vous voulez donc commencer à appliquer le machine learning pour trouver des modèles, des anomalies et des tendances. »

Comme l’a souligné Frame, l’apprentissage automatique des graphiques est un sous-domaine en plein essor de l’IA, avec des recherches et des applications de pointe. Les réseaux de neurones graphiques fonctionnent sur des structures graphiques, contrairement à d’autres types de réseaux neuronaux qui fonctionnent sur des vecteurs. Ce que cela signifie dans la pratique, c’est qu’ils peuvent exploiter des informations supplémentaires.

Neo4j a été parmi les premières bases de données de graphes à étendre son offre aux data scientists, et Eifrem est allé jusqu’à prédire que d’ici 2030, chaque modèle d’apprentissage automatique utilisera les relations comme signal. Google a commencé à le faire il y a quelques années et il est prouvé que les relations sont de puissants prédicteurs de comportement.

Ce qui se passera naturellement, a ajouté Eifrem, c’est que les modèles d’apprentissage automatique qui utilisent des relations via des graphiques surclasseront ceux qui ne le font pas. Et les organisations qui utilisent de meilleurs modèles surpasseront tout le monde – un cas de la «main invisible» d’Adam Smith.

Les quatre piliers de l’adoption des graphes

Cette confluence de l’analyse graphique, des bases de données graphiques, de la science des données graphiques, de l’apprentissage automatique et des graphiques de connaissances est ce qui fait du graphique une technologie fondamentale. C’est ce qui motive les cas d’utilisation et l’adoption à tous les niveaux, ainsi que l’évolution des bases de données vers les plates-formes que Neo4j illustre également. Dans une perspective de dix ans, a noté Eifrem, cette transition repose sur quatre piliers.

Le premier pilier est le passage au cloud. Bien que ce ne soit probablement jamais un monde uniquement cloud, nous passons rapidement du premier sur site au cloud en premier en passant par la base de données en tant que service (DBaaS). Neo4j a été parmi les premières bases de données graphiques à proposer une offre DBaaS, faisant partie de la cohorte des fournisseurs open source avec lesquels Google s’est associé en 2019. Cela se passe bien, et AWS et Azure sont les prochains en ligne, a déclaré Eifrem. D’autres fournisseurs poursuivent des stratégies similaires.

Le deuxième pilier est l’accent mis sur les développeurs. Il s’agit d’une autre tendance bien établie dans l’industrie, et elle va de pair avec l’open source et le cloud. Tout se résume à éliminer les frictions lors de l’essai et de l’adoption de logiciels. Avoir une version du logiciel gratuite à utiliser signifie que l’adoption peut se faire de manière ascendante, l’open source ayant l’avantage supplémentaire de la communauté. DBaaS signifie que le passage des cas de test à la production peut se faire de manière organique.

Le troisième pilier est la science des données graphiques. Comme l’a noté Frame, le graphe remplit vraiment l’exigence fondamentale de représenter les données de manière fidèle. Le monde réel, ce ne sont pas des lignes et des colonnes, ce sont des concepts connectés, et c’est vraiment complexe. Il y a cette topologie de réseau étendue sur laquelle les scientifiques des données veulent réfléchir, et le graphique peut capturer cette complexité. Il s’agit donc de supprimer les frottements, et le reste suivra.

Le quatrième pilier est l’évolution du modèle graphique lui-même. La profondeur commerciale de l’adoption actuelle, bien que croissante, n’est pas à la hauteur des avantages que le graphique peut apporter en termes de performances et d’évolutivité, ainsi que d’intuitivité, de flexibilité et d’agilité, a déclaré Eifrem. L’expérience utilisateur pour les développeurs et les scientifiques des données doit encore s’améliorer, et le graphe peut alors être le choix n ° 1 pour les nouvelles applications à venir.

En fait, de nombreuses mesures sont prises dans ce sens. Certains d’entre eux peuvent se présenter sous la forme d’acronymes tels que GraphQL et GQL. Ils peuvent sembler énigmatiques, mais ils sont en fait un gros problème. GraphQL est un moyen pour les équipes de développeurs front-end et back-end de se rencontrer au milieu, unifiant l’accès aux bases de données. GQL est un effort intersectoriel visant à normaliser les langages de requête graphique, le premier que l’ISO a adopté au cours des 30 ans et plus depuis la normalisation formelle de SQL.

Mais il y a plus – l’effet graphique va au-delà du logiciel. Dans une autre catégorie en plein essor, les puces AI, le graphique joue un rôle de plus en plus important. C’est un sujet en soi, mais il convient de noter comment, des débutants ambitieux comme Blaize, GraphCore et NeuReality aux opérateurs historiques comme Intel, l’accent est également mis sur l’exploitation de la structure et des propriétés des graphiques dans le matériel.

Pour Eifrem, il s’agit d’une ligne d’innovation fascinante, mais comme les SSD avant elle, une ligne que Neo4j ne se précipitera pas pour prendre en charge tant qu’elle n’aura pas été adoptée par le grand public dans les centres de données. Cela peut arriver le plus tôt possible, mais Eifrem voit la fin du jeu comme un changement de génération dans les bases de données.

Après une longue période de stagnation en termes d’innovation de base de données, NoSQL a ouvert les portes il y a une dizaine d’années. Aujourd’hui, nous avons NewSQL et des bases de données chronologiques. Ce qui va se passer au cours des trois à cinq prochaines années, prédit Eifrem, c’est que quelques sociétés de bases de données générationnelles vont être couronnées. Il peut y en avoir deux, cinq ou sept de plus par catégorie, mais pas 20, nous devons donc procéder à une consolidation.

La question de savoir si vous vous abonnez à cette vue ou sur quels fournisseurs placer vos paris est ouverte à la discussion. Ce qui semble être une valeur sûre, cependant, c’est l’émergence du graphique en tant que pile technologique fondamentale pour les années 2020 et au-delà.

VentureBeat

La mission de VentureBeat est d’être une place de la ville numérique pour les décideurs techniques afin d’acquérir des connaissances sur la technologie transformatrice et d’effectuer des transactions. Notre site fournit des informations essentielles sur les technologies de données et les stratégies pour vous guider dans la conduite de vos organisations. Nous vous invitons à devenir membre de notre communauté, pour accéder:

  • des informations à jour sur les sujets qui vous intéressent
  • nos newsletters
  • contenu de leader d’opinion fermé et accès à prix réduit à nos événements prisés, tels que Transformer 2021: Apprendre encore plus
  • fonctionnalités de mise en réseau, et plus

Devenir membre

Laisser un commentaire