Comment prouver qu'une langue n'est pas sans contexte?

89

Nous avons appris la classe des langages sans contexte . Il se caractérise à la fois par des grammaires sans contexte et des automates à pile , il est donc facile de montrer qu’une langue donnée est sans contexte. $\mathrm{CFL}$

Comment puis-je montrer le contraire, cependant? Mon assistante professionnelle a insisté sur le fait que, pour ce faire, il faudrait montrer à toutes les grammaires (ou automates) qu’elles ne peuvent pas décrire le langage utilisé. Cela semble être une grosse tâche!

J'ai lu sur certains lemmes de pompage, mais cela semble vraiment compliqué.

— Raphaël
source

Ntpick: il est indécidable de montrer si une langue est sans contexte.

— Reinierpost

1

@ reinierpost Je ne vois pas en quoi votre commentaire se rapporte à la question. Il s'agit de prouver des choses, pas de décider (par algorithme).

— Raphaël

Il suffit de souligner qu'il n'est pas facile de montrer qu'une langue est sans contexte, en général . Si cela est facile pour frafl, cela doit être dû à certaines conditions spéciales qui ne sont pas valables pour les langues en général, telles que l’attribution d’un automate à pile décrivant la langue.

— reinierpost

@reinierpost Ce raisonnement semble supposer qu'indécidable implique (égal à?) difficile à prouver. Je me demande si c'est vrai.

— Raphaël

69

À ma connaissance, le lemme de pompage est de loin la technique la plus simple et la plus utilisée. Si vous trouvez cela difficile, essayez d'abord la version régulière , ce n'est pas si grave. Il existe d'autres moyens pour les langues qui sont loin d'être libres de tout contexte. Par exemple, les langues indécidables ne sont trivialement pas dépourvues de contexte.

Cela dit, je suis également intéressé par d'autres techniques que le lemme de pompage s'il en existe.

EDIT: Voici un exemple pour le lemme de pompage: supposons que la langue soit sans contexte ( est l'ensemble des nombres premiers). Le lemme de pompage a beaucoup de quantificateurs , je vais donc en faire un peu comme un jeu: $L=\{ a^k \mid k ∈ P\}$ $P$ $∃/∀$

Le lemme de pompage vous donne un $p$
Vous donnez un mot de la langue de longueur au moins $s$ $p$
Le lemme de pompage le réécrit comme : avec certaines conditions ( et ) $s=uvxyz$ $|vxy|≤p$ $|vy|≥1$
Vous donnez un entier $n≥0$
Si n'est pas dans , vous gagnez, n'est pas sans contexte. $uv^nxy^nz$ $L$ $L$

Pour cette langue particulière pour tout (avec et est un nombre premier) fera l'affaire. Alors le lemme de pompage vous donne avec . Ne réfutez pas le contexte-liberté, vous devez trouver tel quen'est pas un nombre premier. $s$ $a^k$ $k≥p$ $k$ $uvxyz$ $|vy|≥1$ $n$ $|uv^nxy^nz|$

| u v^{n} x y^{n} z | = | s | + (n - 1) | v y | = k + (n - 1) | v y |

$|uv^nxy^nz|=|s|+(n-1)|vy|=k+(n-1)|vy|$

Et puis va faire: n'est pas premier si . Le lemme de pompage ne peut pas être appliqué, donc n'est pas sans contexte. $n=k+1$ $k+k|vy|=k(1+|vy|)$ $uv^nxy^nz\not\in L$ $L$

Un deuxième exemple est la langue . Nous devons (bien sûr) choisir une chaîne et montrer qu'il est impossible de la diviser en cinq parties et que chaque chaîne dérivée pompée reste dans la langue. $\{ww \mid w \in \{a,b\}^{\ast}\}$

La chaîne est un choix approprié pour cette preuve. Maintenant, il suffit de regarder où et peuvent être. Les éléments clés sont que ou doivent contenir quelque chose (peut-être les deux) et que et (et ) sont contenus dans une sous-chaîne de longueur - ils ne peuvent donc pas être trop éloignés l'un de l'autre. $s=a^{p}b^{p}a^{p}b^{p}$ $v$ $y$ $v$ $y$ $v$ $y$ $x$ $p$

Cette chaîne offre un certain nombre de possibilités quant à l'endroit où et pourraient se trouver, mais il s'avère que plusieurs cas se ressemblent beaucoup. $v$ $y$

v y ∈ b * a b | v y | = k ≤ p ou . Ils sont donc tous deux contenus dans l’une des sections de continguous s ou s. C’est un cas relativement facile à argumenter, car peu importe le pays dans lequel ils se trouvent. Supposons que .
- S'ils sont dans la première section d' s, alors, lorsque nous pompons, la première moitié de la nouvelle chaîne est , et la seconde est . Évidemment, ce n'est pas de la forme . $a$ $a^{p+k}b^{p-k/2}$ $b^{k/2}a^{p}b^{p}$ $ww$
- L'argument pour n'importe laquelle des trois autres sections est à peu près le même, c'est juste où et se retrouvent dans les index. $k$ $k/2$
chevauche deux des sections. Dans ce cas , le pompage vers le bas est votre ami. Encore une fois, cela peut se produire à plusieurs endroits (trois pour être exact), mais je vais en faire un exemple, et le reste devrait être facile à comprendre à partir de là.
- On suppose que à cheval sur la frontière entre le premier section et le premier section. Laissez (peu importe précisément où les s et s sont en et , mais nous savons qu'ils sont dans l' ordre). Puis, quand on pompe (c'est-à-dire le cas ), on obtient la nouvelle chaîne , mais si pourrait être divisé en , le milieu doit être quelque part dans la seconde section, donc la première moitié est $vxy$ $a$ $b$ $vy = a^{k_{1}}b^{k_{2}}$ $a$ $b$ $v$ $y$ $i=0$ $s'=a^{p-k_{1}}b^{p-k_{2}}a^{p}b^{p}$ $s'$ $ww$ $a$ $a^{p-k_{1}}b^{p-k_{2}}a^{(k_{1}+k_{2})/2}$ et la seconde moitié est . Clairement, ce ne sont pas la même chaîne, donc nous ne pouvons pas mettre et ici. $a^{p-(k_{1}+k_{2})/2}b^{p}$ $v$ $y$

Les cas restants devraient être assez transparents à partir de là - ce sont les mêmes idées, mettant simplement et dans les 3 autres emplacements dans le premier cas, et 2 dans le second cas. Cependant, dans tous les cas, vous pouvez pomper de manière à ce que la commande soit clairement gâchée lorsque vous divisez la chaîne en deux. $v$ $y$

— jmad
source

En effet, le jeu de kozen est le moyen d'y parvenir.

— Socrates

45

Ogma Lemma

Lemma (Ogden). Soit un langage sans contexte. Il existe alors une constante telle que, pour tout et tout moyen de marquer ou plusieurs positions (symboles) de tant que "positions distinguées", peut alors être écrit sous la forme , de sorte que $L$ $N$ $z\in L$ $N$ $z$ $z$ $z=uvwxy$

$vx$ a au moins une position distinguée.

$vwx$ a au plus positions distinguées. $N$

Pour tout , . $i\geq 0$ $uv^iwx^iy\in L$

Exemple. Soit . Supposons que est dépourvu de contexte et que soit la constante donnée par le lemme de Ogden. Soit (Qui appartient à ), et supposons que nous marquons comme distinguées toutes les positions du symbole (c'est-à-dire les premières positions de ) . Soit une décomposition de satisfaisant les conditions du lemme de Ogden. $L=\{a^ib^jc^k:i\neq j,j\neq k,i\neq k\}$ $L$ $N$ $z=a^Nb^{N+N!}c^{N+2N!}$ $L$ $a$ $N$ $z$ $z=uvwxy$ $z$

Si ou contiennent des symboles différents, alors , car il y aura des symboles dans le mauvais ordre. $v$ $x$ $uv^2wx^2y\notin L$
Au moins un des et doit contenir que les symboles , car seuls les ont été distingués. Ainsi, si ou , alors . Soit. Alors , ce qui signifie que divise. Laissez . Alors doit appartenir à . Cependant, . Puisque a exactement symboles , alors $v$ $x$ $a$ $a$ $x\in L(b^*)$ $x\in L(c^*)$ $v\in L(A^+)$ $p=|v|$ $1\leq p\leq N$ $p$ $N!$ $q=N!/p$ $z'=uv^{2q+1}wx^{2q+1}y$ $L$ $v^{2q+1}=a^{2pq+p}=a^{2N!+p}$ $uwy$ $N-p$ $a$ $z'$ a symboles . Mais et n'ont pas de , alors aussi symboles , ce qui signifie , ce qui contredit le lemme de Ogden. Une contradiction similaire se produit si ou . Nous concluons que n'est pas sans contexte. $2N!+N$ $a$ $v$ $x$ $c$ $z'$ $2N!+N$ $c$ $z'\notin L$ $x\in L(A^+)$ $x\in L(c^*)$ $L$

Exercice. En utilisant le lemme d'Ogden, montrez que n'est pas dépourvu de contexte. $L=\{a^ib^jc^kd^{\ell}:i=0\text{ or }j=k=\ell\}$

Lemma de pompage

C'est un cas particulier du lemme d'Ogden dans lequel toutes les positions sont distinguées.

Lemme. Soit un langage sans contexte. Alors il existe une constante telle que pour tout , puisse s'écrire , telle que $L$ $N$ $z\in L$ $z$ $z=uvwxy$

$|vx|>0$ .

$|vwx|\leq N$ .

Pour tout , . $i\geq 0$ $uv^iwx^iy\in L$

Le théorème de Parikh

C'est encore plus technique que le lemme d'Ogden.

Définition. Soit . Nous définissons par où est le nombre d'apparences de dans . $\Sigma=\{a_1,\ldots,a_n\}$ $\Psi_{\Sigma}:\Sigma^*\to\mathbb{N}^n$

Ψ_{Σ} (w) = (m_{1}, \dots, m_{n}),

$\Psi_{\Sigma}(w)=(m_1,\ldots,m_n),$

m_{i}

$m_i$

a_{i}

$a_i$

w

$w$

Définition. Un sous-ensemble de est appelé linéaire s'il peut s'écrire: $S$ $\mathbb{N}^n$

S = {u_{0} + \sum_{1 \leq i \leq k} a_{i} u_{i} : for some set of u_{i} \in N^{n} and a_{i} \in N}

$S = \{\mathbf{u_0} + \sum_{1 \le i \le k} a_i \mathbf{u_i} : \text{ for some set of $\mathbf{u_i} \in \mathbb{N}^n$ and $a_i \in \mathbb{N}$}\}$

Définition. Un sous-ensemble de est appelé semi-linéaire s'il s'agit de l'union d'un ensemble fini d'ensembles linéaires. $S$ $\mathbb{N}^n$

Théorème (Parikh). Soit un langage sur . Si est dépourvu de contexte, alors est semi-linéaire. $L$ $\Sigma$ $L$
$Ψ_{Σ} [L] = {Ψ_{Σ} (w) : w \in L}$ $\Psi_{\Sigma}[L]=\{\Psi_{\Sigma}(w):w\in L\}$

Exercice. En utilisant le théorème de Parikh, montrez que n'est pas dépourvu de contexte. $L=\{0^m1^n:m>n\text{ or }(m\text{ is prime and }m\leq n)\}$

Exercice. En utilisant le théorème de Parikh, montrez que toute langue sans contexte utilisant un alphabet unaire est également régulière.

— Janoma
source

1

J'ai accepté la réponse de Jmad parce que la question mentionne explicitement Pumping Lemma. J'apprécie beaucoup votre réponse cependant; le fait de rassembler toutes les méthodes principales ici est une bonne chose.

— Raphaël

1

C'est bien, mais notez que le lemme de pompage est un cas particulier du lemme d'Ogden ;-)

— Janoma

Bien sûr. Pourtant, la plupart des gens vont d'abord essayer PL. beaucoup ne connaissent même pas l'OL.

— Raphaël

1

Un théorème de Ginsburg et Spanier, basé sur le théorème de Parikh, donne une condition nécessaire et suffisante pour la suppression du contexte dans le cas délimité. math.stackexchange.com/a/122472

— sdcvvc

Pouvez-vous définir les "positions distinguées" en termes d’autres opérations? Ou du moins de manière informelle? Je trouve la définition de l’OL copiée telle quelle dans de nombreux endroits, mais aucun d’eux jusqu’à présent ne voulait expliquer ce que cela voulait dire.

— wvxvw

34

Propriétés de fermeture

Une fois que vous avez une petite collection de langages non dépourvus de contexte, vous pouvez souvent utiliser les propriétés de fermeture de comme ceci: $\mathrm{CFL}$

Supposons que . Ensuite, par la propriété de fermeture X (avec Y), . Cela contredit que nous savons détenir, donc . $L \in \mathrm{CFL}$ $L' \in \mathrm{CFL}$ $L' \notin \mathrm{CFL}$ $L \notin \mathrm{CFL}$

C'est souvent plus court (et souvent moins sujet aux erreurs) que d'utiliser l'un des autres résultats qui utilisent moins de connaissances préalables. C'est aussi un concept général qui peut s'appliquer à toutes sortes de classes d'objets.

Exemple 1: Intersection avec des langages normaux

Nous notons le langage régulier spécifié par toute expression régulière . $\mathcal L(e)$ $e$

Soit . Comme $L = \{w \mid w \in \{a,b,c\}^*, |w|_a = |w|_b = |w|_c\}$

$\qquad \displaystyle L \cap \mathcal{L}(a^*b^*c^*) = \{a^nb^nc^n \mid n \in \mathbb{N}\} \notin \mathrm{CFL}$

et est fermé en intersection avec les langages standard, . $\mathrm{CFL}$ $L \notin \mathrm{CFL}$

Exemple 2: homomorphisme (inverse)

Soit . À l'homomorphisme $L = \{(ab)^{2n}c^md^{2n-m}(aba)^{n} \mid m,n \in \mathbb{N}\}$

$\qquad \displaystyle \phi(x) = \begin{cases} a &x=a \\ \varepsilon &x=b \\ b &x=c \lor x=d \end{cases}$

nous avons $\phi(L) = \{a^{2n}b^{2n}a^{2n} \mid n \in \mathbb{N}\}.$

Maintenant avec

$\qquad \displaystyle \psi(x) = \begin{cases} aa &x=a \lor x=c \\ bb &x=b \end{cases}\quad\text{and}\quad L_1 = \{x^nb^ny^n \mid x,y \in \{a,c\}\wedge n \in \mathbb{N}\},$

nous obtenons . $L_1 = \psi^{-1}(\phi(L)))$

Enfin, en croisant avec le langage normal nous obtenons le langage . $L_1$ $L_2 = \mathcal L(a^*b^*c^*)$ $L_3 = \{a^n b^n c^n \mid n \in \mathbb{N}\}$

Au total, nous avons . $L_3 = L_2 \cap \psi^{-1}(\phi(L))$

Supposons maintenant que était sans contexte. Ensuite, depuis est fermé contre homomorphisme, homomorphisme inverse, et l' intersection avec des ensembles réguliers, est sans contexte aussi. Mais nous savons (via Pumping Lemma, si besoin est) que n'est pas dépourvu de contexte, c'est donc une contradiction; nous avons montré que . $L$ $\mathrm{CFL}$ $L_3$ $L_3$ $L \notin \mathrm{CFL}$

Échange lemme

Le lemme d'échange [1] propose une condition nécessaire à la libération du contexte, qui est encore plus forte que le lemme d' Ogden . Par exemple, il peut être utilisé pour montrer que

$\qquad \{xyyz \mid x,y,z \in \{a,b,c\}^+\} \notin \mathrm{CFL}$

qui résiste à beaucoup d'autres méthodes. C'est le lemme:

Soit . Ensuite, il existe une constante telle que pour tout entier , tout ensemble et tout entier avec il existe chaînes avec $L \in \mathrm{CFL}$ $c_L$ $n\geq 2$ $Q_n \subseteq L_n = L \cap \Sigma^n$ $m$ $n \geq m \geq 2$ $k \geq \frac{|Q_n|}{c_L n^2}$ $z_i \in Q_n$

$z_i = w_ix_iy_i$ pour , $i=1,\dots,k$

$|w_1| = |w_2| = \dots = |w_k|$ ,

$|y_1| = |y_2| = \dots = |y_k|$ ,

$m \geq |x_1| = |x_2| = \dots = |x_k| > \frac{m}{2}$ et

$w_ix_jy_i \in L_n$ pour tout . $(i,j) \in [1..k]^2$

L’appliquer signifie trouver et tels que 1.-4. tenir mais 5. est violé. L'exemple d'application donné dans l'article original est très détaillé et est donc laissé ici. $n,m$ $Q_n$

Pour le moment, je n'ai pas de référence librement disponible et la formulation ci-dessus est tirée d'une pré-impression de [1] de 1981. J'apprécie l'aide pour retrouver de meilleures références. Il semble que la même propriété ait été (re) découverte récemment [2].

Autres conditions nécessaires

Boonyavatana et Slutzki [3] étudient plusieurs conditions similaires au lemma de pompage et d'échange.

Un «lemme d'échange» pour des langues sans contexte par W. Ogden, RJ Ross et K. Winklmann (1985)
Échanges de lemmes contre des langages normaux et sans contexte par T. Yamakami (2008)
Les lemmes d’échange ou de pompe (DI) pour les langues sans contexte de R. Boonyavatana et G. Slutzki (1988)

— Raphaël
source

Il existe de bonnes propriétés de fermeture de riches sous-classes de CFL qui peuvent être utilisées avec le même effet.

— Raphaël

19

Il n'y a pas de méthode générale, car l'ensemble des langages non dépourvus de contexte n'est pas semi-décidable (akare). S'il existait une méthode générale, nous pourrions l'utiliser pour décider en partie de cet ensemble.

La situation est encore pire car, dans le cas de deux LFC, il n'est pas possible de décider si leur intersection est également une LFC.

Référence: Hopcroft et Ullman, "Introduction à la théorie des automates, aux langages et au calcul", 1979.

— Kaveh
source

2

Une question intéressante (mais probablement plus avancée et ouverte) serait la catégorisation de la sous-classe de non-CFL dont il peut être prouvé qu’elle n’est pas CFL en utilisant une méthode particulière.

— Kaveh

Je ne cherche pas une calculable méthode , mais pour les techniques de preuve et stylo papier. Ce dernier n'implique pas nécessairement le premier.

— Raphaël

13

Une version plus forte de la condition d’Ogden ( OC ) est la

État de Bader-Moura (BMC)

Un langage satisfait BMC s’il existe une constante telle que si et nous y étiquetons les positions "distinguées" et "exclues", avec , on peut alors écrire tel que: $L\subseteq \Sigma^*$ $n$ $z \in L$ $d(z)$ $e(z)$ $d(z) > n^{e(z)+1}$ $z = uvwxy$

$d(vx) \geq 1$ et $e(vx) =0$

$d(vwx) \leq n^{e(vwx)+1}$ et

pour chaque , est en . $i \geq 0$ $uv^iwx^iy$ $L$

Nous disons qu'une langue si satisfait à la condition de Bader-Moura. $L \in BMC(\Sigma)$ $L$

Nous avons , de sorte que BMC est strictement plus fort que OC. $CFL(\Sigma) \subset BMC(\Sigma) \subset OC(\Sigma)$

Référence: C. Bader, A. Moura, Une généralisation du lemme d'Ogden. JACM 29, no. 2, (1982), 404–407

— Vor
source

2

Pourquoi ne pas aller juste tout le chemin à la généralisation de Dömösi et Kudlek de dx.doi.org/10.1007/3-540-48321-7_18 ...

— András Salamon

@ AndrásSalamon: Je ne le savais pas! :-) ... peut-être pouvez-vous l'afficher comme nouvelle réponse en indiquant que OC, BMC, PC en sont des cas particuliers (tous distingués ou aucun poste exclu).

— Vor

vous êtes invités à l'afficher, vous n'avez pas le temps pour l'instant.

— András Salamon le

Cette réponse tirerait profit d'un exemple.

— Raphaël