Modifier la distance avec les opérations de déplacement

Motivation: Un co-auteur édite un manuscrit et j'aimerais voir un résumé clair des éditions. Toutes les « diff » -comme outils ont tendance à être inutile si vous êtes à la fois du texte déplacerez (par exemple, la réorganisation de la structure) et faire des modifications locales. Est-il vraiment si difficile de bien faire les choses?

Définitions: Je voudrais trouver la distance de montage minimale, où les opérations autorisées sont:

opérations "bon marché": ajouter / modifier / supprimer un seul caractère (les opérations Levenshtein habituelles),
"cher": opérations: déplacer une sous-chaîne vers un nouvel emplacement ( $abcd \mapsto acbd$ pour toutes les chaînes , $a$ $b$ , $c$ , $d$ ).

Étant donné deux chaînes $x$ et $y$ et des entiers $k$ et $K$ , je voudrais résoudre le problème suivant:

pouvez-vous transformer $x$ en $y$ utilisant au plus $k$ opérations bon marché et au plus $K$ opérations coûteuses?

Des questions:

Ce problème a-t-il un nom? (Cela ressemble à une question très standard dans le contexte de l'alignement de séquence.)
Est-il difficile?
S'il est difficile, est-il traitable à paramètres fixes avec comme paramètre? $K$
Existe-t-il des algorithmes d'approximation efficaces? (Par exemple, trouvez une solution avec au plus bon marché et coûteuses si une solution avec bon marché et coûteuses existe.) $2k$ $2K$ $k$ $K$

J'ai essayé de jeter un coup d'œil aux métriques de chaîne répertoriées dans Wikipedia , mais aucune d'entre elles n'avait l'air correcte.

— Jukka Suomela
source

Pour

, le problème est le tri par transpositions. Voir, par exemple, web.cs.dal.ca/~whidden/HThesis07.pdf Je n'ai pas rencontré votre problème, mais il semble très bien motivé.

k = 0

$k=0$

— Serge Gaspers

La dureté NP du problème du tri par transpositions a été prouvée en 2010, voir Tri par transpositions est difficile .

— Marzio De Biasi

Les transpositions sont difficiles, mais les insertions et les suppressions ne le sont pas. Si vous autorisez une opération coûteuse à supprimer la sous-chaîne arbitraire ou l'insertion d'une sous-chaîne de l'autre chaîne, le problème devrait devenir assez facile. La distance résultante ne serait cependant pas symétrique.

— Jouni Sirén

Je suis plus curieux de la tractabilité à paramètres fixes. Y a-t-il une nouvelle découverte?

— Yixin Cao

Réponses:

Comme l'a commenté Serge Gaspers, pour le problème est le tri par transpositions $k=0$ , et a été introduit par Bafna et Pevzner en 1995. Sa dureté NP n'a été prouvée qu'en 2010; voir Laurent Bulteau, Guillaume Fertin et Irena Rusu, "Le tri par transposition est difficile" .

— Marzio De Biasi
source

Le problème devient plus facile, si l'on considère les suppressions longues et la copie de sous-chaînes au lieu de transpositions. Supposons que nous utilisons l'algorithme de programmation dynamique standard pour éditer le calcul de distance, et qu'une opération coûteuse de longueur augmente la distance de , pour certaines constantes . Ces constantes peuvent être différentes pour les suppressions longues et la copie de sous-chaîne. $k$ $ak+b$ $a,b \ge 0$

Une longue suppression est la suppression d'une sous-chaîne arbitraire de . Les soutenir est facile, si nous les décomposons en deux types d'opérations simples: supprimer le premier caractère (coût ) et étendre la suppression d'un caractère (coût ). En plus du tableau standard , où est la distance d'édition entre les préfixes et , nous utilisons un autre tableau $x$ $a+b$ $a$ $A$ $A[i,j]$ $x[1 \dots i]$ $y[1 \dots j]$ $A_{d}$ pour stocker la distance d'édition, lorsque la dernière opération utilisée était une longue suppression. Avec ce tableau, il suffit de regarder , , et lors du calcul et $A[i-1,j]$ $A[i-1,j-1]$ $A[i,j-1]$ $A_{d}[i-1,j]$ $A[i,j]$ . , nous permettant de le faire en $A_{d}[i,j]$ $O(1)$

La copie de sous-chaîne signifie l'insertion d'une sous-chaîne arbitraire de dans la chaîne éditée. Comme pour les suppressions longues, nous décomposons l'opération en deux opérations simples: l'insertion du premier caractère et l'extension de l'insertion d'un caractère. Nous utilisons également le tableau $x$ $A_{s}$ pour stocker la distance d'édition entre les préfixes, à condition que la dernière opération utilisée soit la copie de la sous-chaîne.

Faire cela efficacement est plus compliqué qu'avec de longues suppressions, et je ne sais pas si nous pouvons arriver à temps amorti par cellule. Nous construisons un arbre de suffixe pour , ce qui prend du temps , en supposant un alphabet de taille constante. Nous stockons un pointeur sur le nœud d'arbre de suffixe courant dans , ce qui nous permet de vérifier en temps constant, si nous pouvons étendre l'insertion par le caractère . Si cela est vrai, nous pouvons calculer $O(1)$ $x$ $O(|x|)$ $A_{s}[i,j-1]$ $y[j]$ en temps constant. $A[i,j]$ et $A_{s}[i,j]$

Sinon, , où est la sous-chaîne insérée qui a été utilisée pour calculer , n'est pas une sous-chaîne de . Nous utilisons l'arbre des suffixes pour trouver le suffixe le plus long de , pour lequel est une sous-chaîne de , dans $zy[j]$ $z$ $A_{s}[i,j-1]$ $x$ $z'$ $z$ $z'y[j]$ $x$ $O(|z|-|z'|)$ . Pour calculer , nous devons maintenant regarder les cellules à . Trouver le suffixe nécessite juste un temps amortipar cellule, mais le calcul de avec une approche par force brute prend $A_{s}[i,j]$ $A[i, j-|z'|-1]$ $A[i,j-1]$ $z'$ $O(1)$ $A_{s}[i,j]$ temps. Il existe probablement un moyen de le faire plus efficacement, mais je ne le trouve pas pour le moment. $O(|z'|)$

Dans le pire des cas, l'algorithme prend temps, mais une meilleure analyse devrait être possible. La distance d'édition résultante avec de longues suppressions et la copie de sous-chaîne n'est pas symétrique, mais cela ne devrait pas être un problème. Après tout, il est généralement plus facile d'atteindre la chaîne vide à partir d'une chaîne non vide que l'inverse. $O(\min(|x| \cdot |y|^{2}, |x|^{2} \cdot |y|))$

— Jouni Sirén
source