La langue anglaise peut-elle être généralisée à l'aide d'un ensemble de règles de grammaire?


10

Dans les langages de programmation, il existe un ensemble de règles de grammaire qui régissent la construction d'instructions et d'expressions valides. Ces règles aident à analyser les programmes écrits par l'utilisateur.

Peut-il jamais y avoir un ensemble de règles de grammaire fonctionnellement complet qui puisse analyser avec précision n'importe quelle instruction en anglais (spécifique aux paramètres régionaux) et qui peut éventuellement être implémenté pour être utilisé dans des projets basés sur l'IA?

Je sais qu'il y a beaucoup de boîtes à outils PNL disponibles en ligne, mais elles ne sont pas aussi efficaces. La plupart d'entre eux sont formés à l'aide de corpus spécifiques qui ne parviennent parfois pas à déduire des corrélations complexes entre différentes parties d'une expression.

En d'autres termes, ce que je demande, c'est que s'il est possible pour un ordinateur d'analyser une phrase bien versée écrite en anglais comme si elle avait été analysée par un humain anglophone adulte?

EDIT: S'il ne peut pas être représenté à l'aide de règles de grammaire simples, quel type de structure sémantique peut-on utiliser pour le généraliser?

EDIT2: Cet article prouve l'absence de context-freeness dans les langues naturelles. Je cherche une solution, même si elle est trop complexe.


2
Je n'ai pas les références pour étayer cela, mais je pense qu'il a été prouvé mathématiquement que vous ne pouvez pas le faire - que la compréhension de l'anglais nécessite complètement des indices de contexte qui nécessitent un raisonnement sémantique de plus haut niveau qui ne peut pas être contenu dans règles de grammaire.
Antlersoft

Selon wikipedia, la plupart des parties des langues naturelles sont sans contexte: en.wikipedia.org/wiki/…
inf3rno

Réponses:


8

Peut-il jamais y avoir un ensemble de règles de grammaire fonctionnellement complet qui puisse analyser avec précision n'importe quelle instruction en anglais (spécifique aux paramètres régionaux) et qui peut éventuellement être implémenté pour être utilisé dans des projets basés sur l'IA?

Analyser oui, très probablement non.

Pourquoi ?

Selon ma compréhension de la façon dont nous dérivons le sens des sons, il existe 2 stratégies complémentaires:

Règles de grammaire: Un système basé sur des règles pour ordonner les mots pour faciliter la communication, ici le sens est dérivé de l'interaction des sons discrets et de leur signification indépendante, vous pouvez donc analyser une phrase basée sur un livre de règles.

EG "Ce fut un triomphe" : l'analyseur extrait un pronom ( This ) avec le sens correspondant (une personne ou une chose spécifique); un verbe ( était ) avec une signification correspondante (s'est produit); ( a ) et ici nous commençons par quelques problèmes d'analyse, qu'extrait l'analyseur, un nom ou un article indéfini? Et donc nous consultons le livre de règles de grammaire et nous nous contentons du sens (article indéfini), vous devez analyser le mot suivant et y faire référence cependant, mais passons cela pour l'instant, et enfin ( triompheons ) un nom (il pourrait aussi s'agir d'un verbe, mais grâce au livre de règles de grammaire, nous nous sommes contentés d'un nom ayant un sens: (victoire, conquête), donc à la fin nous avons (joindre les significations):

Une chose spécifique s'est produite de la victoire. Assez proche et je passe sous silence quelques autres règles, mais ce n'est pas le but, l'autre stratégie est:

Un dictionnaire lexical (ou lexique) où les mots ou les sons sont associés à une signification spécifique. Ici, le sens est dérivé d'un ou plusieurs mots ou sons comme une unité. Cela introduit le problème à un analyseur, car il ne devrait rien analyser.

EG "Non Plus Ultra" Et donc l'analyseur AI reconnaîtrait que cette phrase ne doit pas être analysée et doit plutôt correspondre à une signification:

Le point culminant ou point culminant

Les unités lexicales introduisent un autre problème dans la mesure où elles pourraient elles-mêmes faire partie du premier exemple, et vous vous retrouvez donc avec une récursivité.

s'il est possible pour un ordinateur d'analyser une phrase bien versée écrite en anglais comme si elle avait été analysée par un humain anglophone adulte?

Je pense que cela pourrait être possible, la plupart des exemples que j'ai vus traitent efficacement du livre de règles de grammaire ou de la partie lexique, mais je ne suis pas au courant d'une combinaison des deux, mais en termes de programmation, cela pourrait arriver.

Malheureusement, même si vous résolvez ce problème, votre IA ne comprendrait pas vraiment les choses au sens strict, mais vous présenterait plutôt des synonymes très élaborés.En outre, le contexte (comme mentionné dans les commentaires) joue un rôle dans les stratégies de grammaire et de lexique.

S'il ne peut pas être représenté à l'aide de règles de grammaire simples, quel type de structure sémantique peut-on utiliser pour le généraliser?

Un mélange où il y a à la fois des règles de grammaire et un lexique et les deux peuvent changer et être influencés en fonction du contexte et de l'expérience spécifiques à l'IA ainsi qu'un système pour traiter ces objets pourrait être un moyen.


Mon champ d'anglais est limité à un usage formel. Si pour une fois nous sautons des entités très complexes comme les métaphores ou les idiomes, la définition d'une grammaire contextuelle atteindrait-elle le but?
skrtbhtngr

@skrtbhtngr: eh bien en théorie oui, ce serait un sous-ensemble comme le langage formel, le contexte restera cependant le problème difficile.
Keno

Side case: "It was a Triumph" parle d'une moto pour diverses raisons (premier vélo, vélo brûlé). Peut-être pouvons-nous affirmer qu'il faut un majuscule pour distinguer la marque d'un nom.
Tensibai

Je suis d'accord que la compréhension du sens du texte est la partie difficile. Juste une phrase simple: "Peter est allé au cinéma." contient beaucoup d'informations cachées: Peter est un homme, il y est très probablement allé voir un film avec sa petite amie, son lieu a changé, etc ... Construire un modèle par exemple un graphique basé sur le texte ne suffit pas, car il est pas quelque chose de statique, il peut décrire plusieurs chronologies, événements et contextes, et il y a des informations cachées dans chaque phrase que vous pouvez déduire et utiliser pour comprendre les phrases précédentes ou suivantes.
inf3rno

2

Je suis à peu près sûr que la réponse est «non» au sens strict, car l'anglais n'a tout simplement pas de définition formelle. Autrement dit, personne ne contrôle l'anglais et publie une grammaire formelle à laquelle tout le monde est tenu d'adhérer. L'anglais se construit à travers un processus expérientiel et il a des contradictions et des défauts, mais la nature probabiliste de l'esprit humain nous permet de les contourner.

Par exemple, que cette "phrase":

Cette phrase pas de verbe

Techniquement, ce n'est pas du tout une phrase, car elle n'a pas de verbe. Mais est-ce que quelqu'un avait du mal à comprendre ce que cela signifiait? Douteux. Essayez de trouver une règle formelle pour cela. Et ce n'est qu'un exemple.

Maintenant, pourriez-vous trouver une grammaire formelle qui couvre, peut-être, 90% des cas, et qui est "assez bonne" pour la plupart des utilisations pratiques? Peut-être, peut-être même probablement. Mais je suis sûr qu'il n'est pas possible d'atteindre 100%.


1
Votre exemple n'est pas grammatical, alors pourquoi une grammaire devrait-elle contenir une règle formelle pour la décrire?
BlindKungFuMaster

1
C'est exactement mon point. C'est clairement l'anglais et c'est clairement compréhensible, mais s'il ne répond pas à la définition couramment utilisée de la grammaire anglaise. C'est donc un exemple de la façon dont l'anglais parlé dans le monde réel fonctionne en dehors des limites d'une grammaire rigide.
mindcrime

2

Nous avons conclu qu'il s'agit d'un problème circulaire à deux facettes: la structure ne peut pas être déduite sans contexte, mais la connaissance de la structure permet également de déduire le contexte. Alors, voici votre solution complexe: commencez par le contexte, qui est déterminé par la combinaison de mots dans la phrase (combinatoire et problème de recherche), à ​​partir de là, déterminez votre structure, ou "analyser" (à cette étape, vous pouvez également filtrer certains mots insignifiants ou au moins leur attribuer des poids moindres), revenez au contexte, revenez à l'analyse, et ainsi de suite jusqu'à ce que vous arriviez à la signification. Ainsi, par réduction itérative et récursive, l'ensemble du problème peut être résolu.


2

Je suis fortement en désaccord avec tous les anciens commentaires. Non pas parce qu'ils ont tort, ce qu'ils ne sont pas, mais parce qu'ils sont trompeurs, mais involontairement.

Par exemple: si l'on regarde ces problèmes d'un point de vue académique, les problèmes sembleront toujours insurmontables. En effet, tout est froidement évalué et calculé indépendamment de tout le reste.

La réponse réside principalement dans l' association de mots . Vous devez écrire un programme capable de traiter une vaste base de données de livres numériques, d'enregistrer chaque mot et tous les mots de cette langue qui lui sont associés. Plus toutes les informations statistiques avec chaque mot associé et sa ponctuation associée.

Cela vous donnera alors la base sur laquelle une IA peut décider de plusieurs choses:

  1. Si la structure d'une phrase donnée est correcte.
  2. Si la structure est mauvaise, quelle est la probabilité de déterminer le contexte et l'intention de ce qui est dit.
  3. La signification correcte et l'application d'un mot à multiples facettes (Triomphe), est par probabilité - selon les statistiques.
  4. Déterminer où une conversation est susceptible de se dérouler.
  5. Quelle doit être la bonne grammaire et la ponctuation.

Donc, en conclusion, vous devez rechercher deux choses: l'association et la probabilité.

Lors de la base de données numérique d'un modèle de langage, la possibilité de "chaînes" de mots et de phrases se produit, de sorte que chaque variation de la structure du langage dans une phrase donnée peut être déterminée avant, pendant et après qu'un échantillon de texte soit scribé. Ce contrôle intime sur les modèles de modèle de langage signifie que les composants sensibles tels que "sujet" et "objet" peuvent être facilement déterminés par le code.


Je pense que c'est trop optimiste. La langue est trop salissante pour que cela fonctionne.
Oliver Mason,
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.