Suivi des exceptions et des erreurs dans les appareils IoT de production?

Comment les entreprises suivent-elles les erreurs sur les appareils, passerelles et plateformes IoT à l'heure actuelle? Mon entreprise utilise papertrail pour agréger les journaux de tous les appareils, mais cela nous laisse souvent traîner entre plusieurs systèmes lorsqu'une erreur se produit en production.

Je suis à la recherche d'un moyen de réduire notre "délai de cause-racine" lors de la résolution des exceptions qui peuvent avoir été générées en un seul endroit (par exemple sur une plate-forme IoT), mais qui sont dues à un problème ailleurs dans le pile - par exemple, erreur de données du périphérique périphérique.

En termes de ce que j'ai trouvé dans cet espace, Sentry et Rollbar sont bons pour le suivi des exceptions sur les serveurs ou les applications, mais ne fournissent pas de moyen de suivre les erreurs en cascade comme discuté dans le paragraphe précédent.

Existe-t-il des systèmes pour faire cela mieux que la journalisation de texte? Je cherche spécifiquement à utiliser les événements de style fil d'Ariane que vous obtenez de Sentry, mais avec un suivi sur un système distribué.

remote-access product-design

— hookd
source

Suivi distribué

L'idée derrière tout traçage distribué intéressant est le plus souvent connue décrite dans ce livre blanc de Google sur leur solution Dapper . Notez que je ne dis pas qu'ils l'ont inventé. En substance, cela fonctionne de la même manière pour l'IoT, il suffit de démarrer la trace au bord, soit de votre backend, soit même sur les terminaux.

Alors que le livre blanc de Google se concentre plus ou moins sur les systèmes côté serveur, le concept peut être facilement adapté pour inclure les terminaux. La magie de l'utilisation des identifiants de trace et d'étendue pour tracer toutes vos informations à travers les systèmes peut être vue par chaque visualisation que Netflix fait via Vizceral, qu'ils ont récemment open-source. Ce qui est visualisé dans le blog sous Vue régionale est entièrement basé sur des analyses de journal en direct où les appels sont corrélés via des identifiants de trace. Notez que - comme Google le mentionne dans l'article Dapper - Netflix a un échantillon des appels qui tapotent sur leur API. Google a mentionné 1: 1000 dans le journal - qui date de quelques années. Apparemment, Netflix a déjà atteint 1: 1 million sur certains de leurs types de demandes.

Je ne connais pas votre système, mais vous pouvez très probablement commencer avec un véritable suivi à 100%.

Quoi qu'il en soit, tant que vous pouvez faire correspondre la trace depuis le début à vos appareils IoT ou même créer les identifiants de trace sur vos points de terminaison en premier lieu, rien ne vous empêche d'adapter ces idées d'une manière qui inclut vos périphériques périphériques.

— Helmar
source

Merci Helmar, j'aurais aimé mentionner Dapper dans ma question d'origine parce que j'avais déjà lu sur ce domaine! Il est certainement possible de s'en servir, mais espérait-on également voir s'il existe d'autres solutions existantes qui sont déjà utilisées?

— hookd