TL; DR
Comme cette question continue de susciter l'intérêt, je vais résumer ici pour que les nouveaux arrivants n'aient pas à subir l'histoire:
JOIN table t ON t.member = @value1 OR t.member = @value2 -- this is slow as hell
JOIN table t ON t.member = COALESCE(@value1, @value2) -- this is blazing fast
-- Note that here if @value1 has a value, @value2 is NULL, and vice versa
Je me rends compte que cela ne concerne pas tout le monde, mais en soulignant la sensibilité des clauses ON, cela pourrait vous aider à regarder dans la bonne direction. En tout cas, le texte original est là pour les futurs anthropologues:
Texte original
Considérons la requête simple suivante (seulement 3 tables impliquées)
SELECT
l.sku_id AS ProductId,
l.is_primary AS IsPrimary,
v1.category_name AS Category1,
v2.category_name AS Category2,
v3.category_name AS Category3,
v4.category_name AS Category4,
v5.category_name AS Category5
FROM category c4
JOIN category_voc v4 ON v4.category_id = c4.category_id and v4.language_code = 'en'
JOIN category c3 ON c3.category_id = c4.parent_category_id
JOIN category_voc v3 ON v3.category_id = c3.category_id and v3.language_code = 'en'
JOIN category c2 ON c2.category_id = c3.category_id
JOIN category_voc v2 ON v2.category_id = c2.category_id and v2.language_code = 'en'
JOIN category c1 ON c1.category_id = c2.parent_category_id
JOIN category_voc v1 ON v1.category_id = c1.category_id and v1.language_code = 'en'
LEFT OUTER JOIN category c5 ON c5.parent_category_id = c4.category_id
LEFT OUTER JOIN category_voc v5 ON v5.category_id = c5.category_id and v5.language_code = @lang
JOIN category_link l on l.sku_id IN (SELECT value FROM #Ids) AND
(
l.category_id = c4.category_id OR
l.category_id = c5.category_id
)
WHERE c4.[level] = 4 AND c4.version_id = 5
Ceci est une requête assez simple, la seule partie déroutante est la dernière jointure de catégorie, c'est parce que le niveau de catégorie 5 peut exister ou non. À la fin de la requête, je recherche des informations sur la catégorie par ID de produit (ID SKU), et c'est là que la très grande table category_link entre en jeu. Enfin, la table #Ids est simplement une table temporaire contenant 10'000 ID.
Une fois exécuté, j'obtiens le plan d'exécution réel suivant:
Comme vous pouvez le constater, presque 90% du temps est consacré aux boucles imbriquées (jointure interne). Voici des informations supplémentaires sur ces boucles imbriquées:
Notez que les noms de table ne correspondent pas exactement parce que j'ai édité les noms de table de requête à des fins de lisibilité, mais il est assez facile de faire correspondre (ads_alt_category = category). Est-il possible d'optimiser cette requête? Notez également qu'en production, la table temporaire #Ids n'existe pas, il s'agit d'un paramètre de valeur de table des 10 000 identificateurs identiques transmis à la procédure stockée.
Information additionnelle:
- indices de catégorie sur category_id et parent_category_id
- category_voc index sur category_id, language_code
- category_link index sur sku_id, category_id
Modifier (résolu)
Comme le soulignait la réponse acceptée, le problème était la clause OR dans category_link JOIN. Cependant, le code suggéré dans la réponse acceptée est très lent, même plus lent que le code d'origine. Une solution beaucoup plus rapide et beaucoup plus propre consiste simplement à remplacer la condition JOIN actuelle par la suivante:
JOIN category_link l on l.sku_id IN (SELECT value FROM @p1) AND l.category_id = COALESCE(c5.category_id, c4.category_id)
Ce tweak minute est la solution la plus rapide, testée contre la double jointure de la réponse acceptée et également comparée au CROSS APPLY, comme suggéré par valverij.