À l’intérieur du Big Data Journey de Deephaven


(Choses/Shutterstock)

Dans ce monde post-Hadoop, nous avons vu un certain nombre d’architectures de données émerger et gagner du terrain. L’un des plus intéressants est Deephaven, qui a été développé à l’origine la dernière décennie pour alimenter un hedge fund quantitatif, et qui est maintenant proposé au monde en tant que plate-forme ouverte pour l’analyse en temps réel et l’apprentissage automatique.

Pete Goddard a fondé Walleye Capital en 2004 avec l’idée d’utiliser beaucoup de données et des ordinateurs rapides pour gagner beaucoup d’argent pour ses clients. Goddard a supervisé le développement d’un système appelé Deephaven qui a permis aux analystes de Walleye d’interroger de grandes quantités de données rapides en temps réel, donnant ainsi à ses clients un avantage concurrentiel sur le marché boursier. Il a fait beaucoup d’argent pour ses clients.

En 2016, Goddard a créé Deephaven Data Labs en tant que sa propre entreprise, avec l’idée d’utiliser le système Deephaven pour résoudre les problèmes de données par d’autres moyens. Au cours des cinq dernières années, l’entreprise a attiré un certain nombre de clients dans divers secteurs, notamment les soins de santé, la fabrication et même la course automobile. Aujourd’hui, l’entreprise cherche à étendre sa présence et son utilisation des produits en embrassant la communauté open source.

Architecture Deephaven

« C’était certainement intéressant et amusant d’être à la tête d’une société commerciale et d’utiliser cela, ainsi que d’autres technologies dont nous disposions, pour gagner de l’argent. Je l’ai fait pendant longtemps », raconte Goddard Datanami. « Nous pensons que nous sommes dans un endroit unique maintenant. Nous comprenons une façon différente de faire les choses. Nous l’avons vu fonctionner. Nous savons à quel point il peut être puissant. Et maintenant, nous voulons l’apporter à la communauté d’une manière ouverte.

Un nouveau cadre de données

Alors, qu’est-ce que Deephaven ? Ce n’est pas une question si facile à répondre. Le site Web de la société indique qu’à la base, Deephaven est une base de données orientée colonnes. Un porte-parole de l’entreprise l’a décrit comme une base de données de séries chronologiques. Lorsqu’on lui a demandé de développer cela, Goddard a un peu couvert.

« Fondamentalement, ce sont deux choses différentes », dit-il. « C’est un moteur de données, puis c’est un cadre de données. »

En tant que moteur de données, Deephaven fonctionne de la même manière que d’autres moteurs de calcul, tels qu’Apache Spark ou un moteur de requête SQL, explique Goddard. Les utilisateurs peuvent interroger les données, qui sont généralement stockées au format Parquet, et même associer des modèles d’apprentissage automatique développés en Python ou Tensorflow à ces données. Mais contrairement à de nombreux produits Big Data, il n’y a pas de Spark à l’intérieur de Deephaven. Et il n’y a pas non plus d’interface SQL.

« C’est une nouvelle façon de travailler avec les données pour produire des analyses, pour développer des applications », déclare Goddard. « Il ne se situe pas au-dessus des autres moteurs de données. C’est sa propre version de celui-ci.

En tant que framework, Deephaven, qui a été développé en Java, fournit de nombreux autres « trucs » dont les utilisateurs ont besoin pour être productifs avec le logiciel. Cela inclut les connecteurs de données, les API, l’interopérabilité avec d’autres outils et les interfaces utilisateur qui permettent aux utilisateurs de travailler directement avec les données ingérées dans le système. En ce qui concerne l’apprentissage automatique, le logiciel peut exécuter des modèles développés en Python, Tensorflow et Numba.

Mais ce n’est pas non plus la description complète de ce que fait Deephaven. Selon Goddard, ce que Deephaven excelle vraiment, c’est de permettre l’analyse et l’apprentissage automatique sur des données en temps réel.

« Nous ne ressemblons à aucun autre système de données qui existe dans notre capacité à la fois à gérer des données en temps réel, des données dynamiques et à permettre à un utilisateur de passer en toute transparence des données statiques historiques aux données dynamiques en temps réel », a déclaré Goddard. . « Nous observons, sous les couvertures, des ajouts, des suppressions, des mises à jour, des modifications, et nous gardons l’état de manière intéressante afin que nous puissions calculer des choses de manière incrémentielle au lieu de refaire des calculs entiers sur une sorte de cycle. »

Heure d’horodatage des données

Garder une trace du moment où un événement s’est produit est essentiel dans l’exécution des stratégies de trading, et cela devient de plus en plus important dans d’autres secteurs, en particulier pour les organisations qui souhaitent tirer des informations sur des données d’événements volumineuses. Pour Goddard, le livrable clé est de permettre à ses clients de se rappeler l’état du monde à un moment donné.

« Il pourrait y avoir deux sources de données qui vous intéressent, ou il pourrait y avoir des milliers de sources de données », dit-il. « Je viens de faire un échange sur Apple. Eh bien, que s’est-il passé sur Twitter une seconde juste avant que je n’échange Apple ? Y a-t-il un pic de volume sur Twitter autour d’Apple, et donc peut-être que c’est un indice pour moi que le monde savait quelque chose que je ne savais pas et que je viens de me faire écraser?

« Il y a toutes ces données distinctes dans le monde qui peuvent circuler de plusieurs manières », poursuit-il, « et je dois être capable de les rassembler très bien en fonction des horodatages, ce qui signifie qu’elles sont ici maintenant, ou je veux faire cette étude d’il y a 10 minutes. Cela peut être assez important.

Au niveau technique, Deephaven a la capacité d’accepter des flux de données en temps réel provenant de systèmes pub/sub, tels que Kafka ou Solace, et de les joindre à des données statiques stockées dans un fichier Parquet, et « de manière très légère, contrairement à KSQL , diffusez des flux dérivés en plus des flux aux consommateurs, soit via des API, soit via des expériences utilisateur », explique Goddard. « Cela existera hors de la boîte. »

Deephaven, qui fonctionne de manière distribuée, joue également bien avec les données stockées dans les formats de données Apache Arrow et Arrow Flight, et Goddard cherche à étendre la présence de Deephaven dans ce petit coin de la communauté open source. En fait, Deephaven a apporté une nouvelle fonctionnalité au projet Arrow qui permet au format de données de mieux comprendre les données changeantes.

La société met Deephaven à disposition sous une licence « source disponible ». L’idée est d’attirer plus d’utilisateurs vers Deephaven, dans l’espoir que les développeurs prennent le ballon et aident à l’intégrer davantage à la communauté open source.

« Il y a pas mal de propriété intellectuelle intéressante sous les couvertures, et les éléments importants de celle-ci sont maintenant à l’air libre pour que les gens puissent les voir dans notre base de code », a déclaré Goddard. « Mais je ne pense pas que beaucoup de développeurs ou de membres de la communauté se soucieront de son fonctionnement. Ils pourront simplement l’utiliser et seront ravis que cela fonctionne.

Les données rencontrent le logiciel

Goddard semble apprécier son statut d’étranger. Après avoir passé plus d’une décennie dans l’autocuiseur de Wall Street, le natif de l’Illinois ne semble pas intéressé à s’intégrer aux notions préconçues de catégories logicielles de la Silicon Valley.

Pete Goddard est le PDG de Deephaven Data Labs

En ce qui concerne les données, que Deephaven soit décrit comme une base de données de séries chronologiques orientée colonnes, un cadre d’analyse en continu ou un système de traitement hybride en temps réel par lots, ces mots ne signifient pas grand-chose pour Goddard.

« La grande différence entre nous et tout le monde est que nous venons de l’extérieur et donc nous pensons que ce genre de choses est un continuum », dit-il. « Je pense simplement aux choses axées sur les données lorsque les données rencontrent les logiciels. Tout le monde le met dans une boîte. Je me dis, je m’en fiche si c’est l’une des boîtes. Les données et le logiciel peuvent être en temps réel ou par lots. Les données rencontrent le logiciel pourrait être une application. Il peut s’agir d’analyses. Il peut s’agir d’une visualisation pour un analyste commercial ou de la science des données ou autre.

La société a travaillé avec une gamme de clients, y compris ceux des marchés des capitaux, de la télématique médicale et même une équipe de voitures de course de Formule 1. La caractéristique commune qui relie tous ces clients est le désir d’obtenir des informations sur une grande quantité de données en évolution rapide.

« Ce n’est pas un projet scientifique, dit Goddard. «C’est une technologie fonctionnelle que certains des plus gros poids lourds des marchés des capitaux utilisent pour les chemins critiques… Ce sont des choses que font nos clients actuels, et ce sont des gens très sophistiqués qui pourraient choisir d’autres choses à utiliser. « 

Articles connexes:

Un aperçu de l’avenir de l’architecture de données ouvertes

Diffusion de données en temps réel, Kafka et analytique Première partie : Diffusion de données 101

Détection des menaces en temps réel basée sur l’apprentissage automatique pour les banques

Graph Analytics alimente les connaissances dans les services financiers

Laisser un commentaire