Renforcement négatif: comment remplacer un objet?

18

Mon berger de Beauce a maintenant 9 mois, nous avons suivi des cours d'éducation comportementale avec un entraîneur personnel et tout s'est très bien passé. Avant que le chien ne fasse ce qu'il voulait et maintenant, il écoute vraiment bien!

À la suggestion du formateur, certains comportements ont été renforcés positivement et d'autres négativement. Le problème que nous avons maintenant concerne les comportements que nous avons renforcés négativement. Nous utilisons une boîte en métal pour faire un son, le chien le déteste et obéit. Il est toujours utilisé après un "non" comme deuxième sanction. Tout fonctionne parfaitement, et maintenant nous n'avons plus besoin d'utiliser la box car il se comporte correctement.

Le problème est que nous pensons que nous devrons remplacer la boîte par quelque chose d'autre car il a maintenant appris que si nous n'avons pas la boîte, il n'y aura pas de son et il s'engage donc dans le comportement indésirable. Cela commence à être un problème car nous devons transporter la boîte partout maintenant, car si nous ne l'avons pas, il utilisera l'opportinuty.

Existe-t-il un moyen de rectifier cela en remplaçant la boîte par notre corps ou quelque chose?

Remarque: Il a été désexité il y a un mois et il nous brave un peu moins mais le fait quand nous n'avons pas la boîte à portée de main.

Je vous remercie

dogs behavior training

— Salketer
source

1

Vous devriez probablement poser cette question à votre entraîneur, mais une fois que le renforcement négatif (boîte métallique) a fonctionné pour freiner son comportement indésirable, ne devriez-vous pas maintenant commencer à renforcer les bons comportements? À titre d'exemple, si mon chien montait sur le canapé, je pourrais (1) secouer la boîte en métal pour la décourager, puis une fois qu'il aurait appris que le canapé n'était pas souhaité, je (2) féliciterais et traiterais généreusement chaque fois qu'il posé sur le sol près du canapé ou similaire.

— Steve D

1

:) J'adore comment les chiens peuvent apprendre ces choses par eux-mêmes, après quelques observations ... "pas de boîte, hé, je peux faire ce que je veux!" :) :) :)

— woliveirajr

10

Chaque fois que l'on discute du conditionnement opérant, il est utile de parler la même langue:

Renforcement: une action conçue pour augmenter la fréquence d'un comportement
Punition: une action conçue pour diminuer la fréquence d'un comportement
Positif: présence d'un stimulus
Négatif: Absence de stimulus

Ces termes peuvent former quatre combinaisons différentes ( NB: les exemples entre parenthèses sont des exemples, pas des conseils!):

Renforcement positif: Présentez un stimulus pour augmenter la fréquence d'un comportement (par exemple, donnez une friandise lorsque le chien est assis sur commande)
Renforcement négatif: supprimer un stimulus pour augmenter la fréquence d'un comportement (par exemple, le facteur s'en va après que le chien aboie)
Punition positive: Présentez un stimulus pour diminuer la fréquence d'un comportement (par exemple, frapper le chien lorsqu'il est uriné sur le tapis)
Punition négative: supprimez un stimulus pour diminuer la fréquence d'un comportement (par exemple, quittez la pièce lorsque le chien vous saute dessus)

En pratique, ceux-ci peuvent devenir confus. Par exemple, vous faites du bruit avec la boîte est un stimulus conçu pour diminuer la fréquence d'un comportement, c'est donc techniquement un exemple de punition positive, mais si vous arrêtez le bruit une fois que le chien a le comportement correct, vous supprimez également un stimulus pour augmenter la fréquence du comportement correct, hé presto !, renforcement négatif.

Mais cela suppose qu'il y ait un comportement correct pour votre chien. Vous ne spécifiez pas quel est le comportement indésirable ou s'il existe un autre comportement souhaité que vous essayez de renforcer. Si tout ce que vous faites avec le bruit essaie de l'empêcher de faire quelque chose, alors vous fournissez une punition plutôt qu'un renforcement négatif.

Dans les deux cas, une partie de votre problème est probablement que vous n'utilisez que des renforçateurs et des punisseurs primaires , c'est-à-dire ceux que le chien n'a pas besoin d'apprendre. La nourriture, par exemple, est un renforçateur primaire. Le chien sait que la nourriture est une bonne chose sans avoir à l'apprendre. Par extension, le bruit est un punisseur primaire, car il est inconfortable pour le chien d'entendre. Les renforçateurs et les punisseurs secondaires , en revanche, sont ceux que le chien a appris.

L'exemple classique est la cloche de Pavlov qu'il sonnerait chaque fois qu'il fournirait de la nourriture au chien. En associant systématiquement un renforçateur primaire à un stimulus, le stimulus peut commencer à agir comme un renforçateur secondaire. Autrement dit, le chien apprend que la cloche signale l'arrivée de nourriture et réagira en conséquence.

Vous mentionnez que vous utilisez le mot «non» (si tout va bien d'une voix sévère, les chiens sont tout à fait capables de discerner les intonations) lorsque vous dites à votre chien, avec le bruit. Le «non» devrait agir comme un punisseur secondaire, de la même manière que l'éloge peut fonctionner comme un renforçateur secondaire. Mais vous n'avez probablement pas réussi à éliminer progressivement le bruit réel, en commençant parfois à dire «non», mais pas à faire le bruit.

Le problème est que, maintenant, votre chien a compris que «non» sans boîte autour ne signifie aucun punisseur principal, c'est-à-dire que les deux ne sont pas liés, et lui, par conséquent, est économisé lorsqu'il n'est pas là.

Je vous suggère d'ouvrir une nouvelle question décrivant le (s) comportement (s) réel (s) que vous souhaitez décourager, et nous serons peut-être mieux en mesure de vous aider à trouver un moyen d'utiliser tout le spectre de la condition opérante pour amener votre chien à apprendre ce que vous voulez faire.

— ThomasH
source

5

@ThomasH est une excellente réponse et touche à la question de l'utilisation des punisseurs secondaires de manière très précise.

Ici, j'ajoute simplement quelques commentaires sur deux aspects du problème.

Punir le mauvais comportement vs renforcer le bon comportement

Même si la "théorie" fonctionne de la même façon du "côté renforçateur" et du "côté punisseur" et que les effets peuvent être aussi efficaces, il ne faut pas oublier que supprimer un comportement n'enseigne pas au chien quoi faire à la place et se concentrer principalement sur la partie «non» de la formation conduit à la microgestion : vous devez constamment apprendre au chien ce qu'il ne doit pas faire. Même si le chien apprend qu'il ne devrait pas faire X dans une situation donnée, il est toujours libre d'effectuer Y, Z, etc. Si vous lui apprenez positivement (le renforcez) à faire W à la place, cela arrêtera probablement une sorte de cercle vicieux et rendre tout le monde heureux.

Renforcement / punition à taux variable

@ThomasH a expliqué le concept de renforcement secondaire ou de punition.

Un aspect à garder à l'esprit est que, contrairement aux renforcements / punitions primaires, les secondaires doivent être récompensés (d'une manière ou d'une autre) selon un horaire variable .

La nourriture est un renforçateur primaire. Chaque fois que le chien reçoit un morceau de nourriture, il est renforcé.

Mais un mot-clé comme "oui" ou un clic peut devenir un renforçateur secondaire. Il est lié à un renforcement primaire ultérieur. Le point clé est que cela fonctionne parce que le chien a appris que le renforçateur secondaire est récompensé par le renforçateur primaire. Une fois que cela est appris, le lien doit être maintenu avec des récompenses réelles. Au début (pendant la formation), la récompense viendra à chaque fois, puis elle peut être récompensée avec un horaire variable. L'horaire variable renforce en fait le lien car le chien ne peut pas prévoir quand la récompense principale viendra.

Notez que cela est généralement appliqué aux renforts tertiaires : le signal "sit" est en fait un renfort, car il peut conduire à un autre renfort (un clic par exemple) qui débouche alors sur une récompense réelle.

En règle générale, nous ne dissocions jamais le renforçateur secondaire (le clic) du renforçateur principal (par exemple la récompense alimentaire). Cela maintient le lien entre les deux extrêmement fort, et le taux variable est appliqué entre la queue (renfort tertiaire) et le clic.

Cependant, dans le cas des peines, vous n'avez pas de véritable "punition tertiaire", donc le taux variable de "renforcement" (entendu comme punition dans ce cas) se situe entre votre peine secondaire ("non") et la peine réelle ( la boîte).

— Cedric H.
source