C'est un effet secondaire possible
Tout agent axé sur les objectifs pourrait, tout simplement, simplement faire des choses qui atteignent ses objectifs tout en ignorant les effets secondaires qui n'ont pas d'importance pour ces objectifs.
Si mes objectifs incluent un espace de vie bien rangé, je peux transformer ma cour en une belle pelouse ou un trottoir plat tout en effaçant l'écosystème complexe de la vie qui était là auparavant, parce que je ne m'en soucie pas particulièrement.
Si les objectifs d'une IA puissante particulière incluent de faire quoi que ce soit à grande échelle et ne se soucient pas particulièrement de l'écosystème complexe actuel, alors cet écosystème pourrait être anéanti dans le processus. Il n'a pas besoin de vouloir ou de nous anéantir. Si nous ne sommes tout simplement pas pertinents pour ses objectifs, alors nous sommes faits de matériaux et occupons un espace qu'il pourrait vouloir utiliser pour autre chose.
Nous menaçons la plupart des objectifs
Tout agent axé sur les objectifs peut vouloir s'assurer qu'il peut atteindre ses objectifs. Tout agent intelligent essaiera d'anticiper les actions d'autres agents susceptibles de les empêcher d'atteindre ces objectifs et prendra des mesures pour garantir leur réussite de toute façon. Dans de nombreux cas, il est plus simple d'éliminer ces autres agents plutôt que de s'assurer que leurs efforts échouent.
Par exemple, mes objectifs peuvent inclure le stockage d'un sac de sucre dans une maison de campagne afin que je puisse faire des crêpes lors de la visite sans apporter tous les ingrédients à chaque fois. Cependant, si je le laisse là, il est susceptible d'être mangé par des rats pendant l'hiver. Je peux prendre toutes sortes de précautions pour mieux le stocker, mais les rats sont intelligents et astucieux, et il y a clairement une chance non triviale qu'ils réussiront quand même à atteindre leur objectif, donc une précaution supplémentaire efficace est de tuer les rats avant d'avoir une chance essayer.
Si les objectifs d'une IA puissante particulière sont de faire X; il peut arriver que (certains?) les humains ne désirent pas X mais Y à la place. Il peut également facilement en déduire que certains de ces humains pourraient activement faire des choses qui empêchent X et / ou essayer de désactiver l'IA. Faire des choses qui garantissent que l'objectif est atteint est à peu près ce que fait un agent de recherche d'objectifs; dans ce cas, si l'existence des humains n'est pas strictement nécessaire à l'objectif X, leur élimination devient alors une stratégie solide de réduction des risques. Ce n'est pas strictement nécessaire et cela peut prendre toutes sortes d'autres précautions également, mais tout comme dans mon exemple de rats, les humains sont intelligents et astucieux et il y a clairement une chance non triviale qu'ils réussiront toujours à atteindre leur objectifs (afin que X ne se produise pas comme l'IA le prévoit), une précaution supplémentaire efficace pourrait donc être de les tuer avant qu'ils aient la chance d'essayer.