Comment appelle-t-on l'encodage «à chaud» dans la littérature scientifique?


10

Quel est le nom de l'opérateur qui prend un vecteur catégorique et le transforme en représentation binaire en utilisant un codage à chaud? Je me demande depuis que j'écris un article scientifique et j'ai besoin d'un nom propre pour cela.


3
L'encodage factice est un autre nom. Dans l'apprentissage automatique, tout le monde utilise simplement le type simple, il est donc assez clair de quoi il s'agit, mais il existe d'autres types de codage de contraste (un autre nom) avec des caractères moins et d'autres idées, qui remplissent un rôle similaire, utilisé dans les statistiques, etc. vous pouvez être un peu plus précis.
Gijs

7
En statistiques et en analyse de données, bien avant l'apprentissage automatique, ce type de codage catégoriel était connu sous le nom de variables fictives ou variables de contraste de type indicateur .
ttnphns

Réponses:


18

Les statisticiens appellent le codage à chaud comme codage factice . Comme d'autres l'ont suggéré (y compris Scortchi dans les commentaires), ce n'est pas un synonyme exact, mais c'est le terme qui serait généralement utilisé pour les variables catégorielles codées 0-1.

Voir aussi: "Variable fictive" versus "variable indicatrice" pour les données nominales / catégorielles


3
Duh !! Je ne peux pas croire que j'ai oublié ça. Je les appelle également indicateurs.
Tim Atreides

2
Je ne pense pas que "codage factice" soit un bon synonyme. Il est utilisé soit dans un sens général pour signifier la représentation d'une variable catégorielle avec un ensemble de variables numériques, soit pour le "codage de niveau de référence" par opposition au "codage à chaud", par exemple dans Problèmes avec le codage à chaud vs codage factice . "Codage de niveau moyen" (voir Y a - t-il quelque chose appelé "codage moyen" (comme le codage factice et le codage d'effet) dans les modèles de régression? ) Dénote un codage à chaud, mais connote peut-être aussi un contexte de modèle linéaire ...
Scortchi - Rétablir Monica

2
... fortement pour une utilisation générale.
Scortchi - Réintégrer Monica

3
Je n'ai jamais vu de définition en soi, mais pour moi, les variables factices en statistiques impliquent toujours le codage de N facteurs avec (N-1) variables tandis que le codage à chaud codera N facteurs avec N variables. Cette différence est extrêmement importante dans la pratique. Si l'on utilise un codage à chaud pour les régressions, on obtiendrait un non-sens en raison de la dépendance des variables!
meh

2
@aginensky Bien que les gens devraient certainement faire attention à exactement quelles variables ils ont, une bonne routine de régression ne produira aucun non-sens dans cette circonstance: elle omettra simplement un prédicteur et vous le dira.
Nick Cox

8

Cela dépend de votre public cible.

Comme l'a dit Tim , les statisticiens appellent cela un codage factice, et c'est ce que je m'attendrais à voir en décrivant quelque chose comme un modèle de régression. "Des variables codées factices ont été incluses pour s'adapter à l'emplacement du magasin." Je pense que l'appeler un encodage à chaud semble un peu étrange ici.

Cependant, comme un autre Tim l'a également dit, l'encodage à chaud est assez courant dans la littérature sur l'apprentissage automatique. Cela implique à peine l'existence de nœuds (comme dans un réseau neuronal), de fils physiques (dans un appareil), ou quelque chose comme ça, du moins pour moi.

IX


6

Le terme vient de l'ingénierie électronique. Pensez simplement à qui appellerait 1 "chaud"? Seuls ceux qui travaillent avec l'électricité, où "chaud" ou "vivant" signifie qu'il y a un potentiel électrique sur le fil . "Un chaud" se réfère à la conception du circuit où le niveau de signal électrique discret sur un fil serait décodé en chaud / froid sur un ensemble de fils. Je suppose que certaines personnes en apprentissage automatique avec une expérience en EE ont trouvé l'analogie convaincante.

En économétrie et des statistiques que vous pouvez rencontrer dummyou indicatorvariables, qui sont assez similaires car ceux - ci sont utilisés pour représenter des catégories distinctes avec leurs indicateurs distincts. Il y a cependant une différence subtile. Par exemple, vous créez des variables factices K-1 pour les catégories K, car la catégorie de base correspond à toutes les variables muettes définies sur 0. En revanche, je pense que dans un encodage à chaud, vous avez K fils, où la catégorie de base aura son propre fil ( variable).


5

Je suis statistiquement formé et j'ai récemment entendu parler de "l'encodage à chaud" en apprentissage automatique / sci lit. Je viens généralement de désigner la matrice à un point comme une matrice de conception / matrice de données / cadre de conception.


Avez-vous une référence que je pourrais citer pour cela? J'écris une publication scientifique et je voudrais clarifier cette méthode pour tous les lecteurs car le document n'est pas destiné à la communauté ML mais plus large.
fractile

Je ne peux pas dire que j'aie jamais entendu "un point" comme verbe. Mais j'y arrive également d'une direction mathématique / statistique. (Les résultats de Google sur "un point chaud" sont intéressants - je reçois un mélange de la signification de l'apprentissage automatique et des gens qui parlent de "une voiture pointée".)
Michael Lugo

3

En sciences physiques et en génie, on l'appelle le delta (généralisé) de Kronecker .

δi,j{1ifi=j0else,
δ[condition]{1if[condition]0else.

δicategory

δicategory{1ificategory0else,
δi

Le delta de Kronecker est vraiment utile dans Sigma / Pi / Einstein / etc. notations car il permet de spécifier les termes de manière conditionnelle.

Juste pour relier cela aux structures de programmation communes, le delta de Kronecker condition?1:0, où se ?:trouve l' opérateur conditionnel .


δi,jδi=j


Je ne vois pas le lien ici. Un chaud décode une variable en un ensemble pour chaque état de la variable. Comment le delta Kronecker est-il utilisé dans cette application?
Aksakal

{0,1}δVWδAcuraδHonda

δi,jδCompanyName,VW

VWACURAi=1..NVWiACURAiiCARiVWi=δ(CARi,VW)

VWiδVWiδiVWi10

2

1K

Voici une citation du livre,

K1KKxxk10K=6x3=1x

x=(0,0,1,0,0,0)T

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.