Que sont les chaînes de Markov, quand les utiliser, et comment elles fonctionnent
Les chaînes de Markov sont une manière assez commune, et relativement simple, de modéliser statistiquement des processus aléatoires. Elles ont été utilisées dans de nombreux domaines différents, allant de la génération de textes à la modélisation financière. Un exemple populaire est r/SubredditSimulator, qui utilise les chaînes de Markov pour automatiser la création de contenu pour un subreddit entier. Dans l’ensemble, les chaînes de Markov sont conceptuellement assez intuitives et très accessibles, car elles peuvent être mises en œuvre sans l’utilisation de concepts statistiques ou mathématiques avancés. Elles sont un excellent moyen de commencer à apprendre la modélisation probabiliste et les techniques de science des données.
Scénario
Pour commencer, je vais les décrire avec un exemple très commun :
Imagine that there were two possible states for weather: sunny or cloudy. You can always directly observe the current weather state, and it is guaranteed to always be one of the two aforementioned states.Now, you decide you want to be able to predict what the weather will be like tomorrow. Intuitively, you assume that there is an inherent transition in this process, in that the current weather has some bearing on what the next day's weather will be. So, being the dedicated person that you are, you collect weather data over several years, and calculate that the chance of a sunny day occurring after a cloudy day is 0.25. You also note that, by extension, the chance of a cloudy day occurring after a cloudy day must be 0.75, since there are only two possible states.You can now use this distribution to predict weather for days to come, based on what the current weather state is at the time.
Cet exemple illustre plusieurs des concepts clés d’une chaîne de Markov. Une chaîne de Markov consiste essentiellement en un ensemble de transitions, qui sont déterminées par une certaine distribution de probabilité, qui satisfont la propriété de Markov.
Observez comment dans l’exemple, la distribution de probabilité est obtenue uniquement en observant les transitions du jour actuel au jour suivant. Cela illustre la propriété de Markov, la caractéristique unique des processus de Markov qui les rend sans mémoire. Cela les rend généralement incapables de produire avec succès des séquences dans lesquelles une certaine tendance sous-jacente devrait se produire. Par exemple, bien qu’une chaîne de Markov puisse imiter le style d’écriture d’un auteur sur la base de la fréquence des mots, elle serait incapable de produire un texte contenant un sens profond ou une signification thématique, car ceux-ci sont développés sur des séquences de texte beaucoup plus longues. Ils n’ont donc pas la capacité de produire un contenu dépendant du contexte puisqu’ils ne peuvent pas prendre en compte la chaîne complète des états antérieurs.