Guide d'annotation syntaxique du corpus Orfeo

 

Version : décembre 2017

 

Rédacteurs : Sylvain Kahane, José Deulofeu, Kim Gerdes, Alexis Nasr, André Valli
Avec la collaboration des annotateurs :
Marion Bernard, Anaïs Chanclu, Fanny Lafontaine,
Marie Marcia, Chloé Monnin, Rafaël Poiret

 

1. Segmentation

1.1 Unité maximale

1.2 Unité minimale

2. Morphosyntaxe

2.1 Liste des catégories morphosyntaxiques

2.2 Lemmes

3. Microsyntaxe

3.1 La racine root

3.2 Le sujet : suj

3.3 L’auxiliaire : aux

3.4 Le spécifieur : spe

3.5 Les autres dépendants : dep

3.6 Eléments disfluents : disflink

3.5 Constructions microsyntaxiques particulières

3.5.1 Propositions relatives et interrogatives indirectes

3.5.2 Constructions clivées

3.5.3 Négations averbales

3.5.4 Adverbes dans des entassements paradigmatiques

3.5.5 Adv de N

3.5.6 Que + S et Comme + S

3.5.7 Plus + ADJ + que et plus + ADV + que + consécutives

3.5.8 Greffes

4. Listes paradigmatiques (coordinations)

4.1 Lien paradigmatique : para

4.2 Lien marqueur : mark

5. Macrosyntaxe

5.1 Eléments périphériques : periph

5.2 Marqueurs de discours : dm

5.3 Incises

5.4 Parenthèses

 

Note préalable : certaines analyses peuvent apparaître discutables, mais elles visent à minimiser les erreurs d’analyse automatique. Il s’agit en outre d’éviter que le système d’interrogation ne retourne pas des exemples cruciaux pour l’argumentation. En termes quantitatifs ce choix suppose que l’on privilégie la dimension « retour » plutôt que la dimension « précision ».  C’est, par exemple, le cas de l’analyse des clivées (c’est Marie qui vient) qui ne sont pas distinguées des constructions avec une relative ordinaire (c’est la fille qui devait venir

1. Segmentation

Voir le détail des choix dans le guide Segmentation.

1.1. Unité maximale

L’unité maximale de segmentation est aussi appelée énoncé

Selon le guide de segmentation, « les unités maximales de segmentation (US) sont basées par défaut sur des constructions verbales, mais aussi sur des constructions dont le gouverneur est une autre catégorie ( nominales, adjectivales, adverbiales  prépositionnelles…) lorsqu’elles constituent un tour de parole. Les US regroupent donc canoniquement un élément tête ainsi que toutes les séquences qui sont régies par lui. Certaines US sont constituées de la séquence tête + éléments régis étendue aux éléments dits « associés » dans le cadre de l’Approche Pronominale ou périphériques dans d’autres cadres. »

L'unité maximale est également appelée énoncé.

Nous associons à chaque énoncé un arbre complet dont le nœud racine reçoit la fonction root. La structure de dépendance d’un énoncé est donc toujours connexe et intègre aussi bien des relations micro- que macrosyntaxiques.

1.2 Unité minimale

Les énoncés sont découpés en tokens.  Ces tokens constituent l’unité minimale de l’analyse en dépendance.

Nous appelons mots orthographiques les segments de textes maximaux comprenant des lettres et l’un des deux autres symboles utilisés dans les transcriptions orales : l’apostrophe et le tiret.

Le guide doit être complété pour la segmentation de l’écrit, mais en première approximation on peut dire que les séquences de chiffres et les signes de ponctuation (utilisés comme ponctuation, cf. les différents usages du point) forment des tokens.

Les mots comportant une apostrophe sont décomposés en deux tokens avec l’apostrophe à gauche (l’ enfant), à l’exception de aujourd’hui et de mots grammaticaux comme quelqu’un ou l’un, qui figurent dans notre lexique des unités grammaticales.

Les mots comportant un tiret sont décomposés en deux tokens avec le tirets à droite lorsque le token ainsi formé appartient à notre lexique de mots grammaticaux : dit -on, a -t-il, maison    -là, … Les autres mots comportant un tiret forment un token : avant-hier, au-dessus, soutien-gorge, …

En dehors de ces cas, un token ne peut jamais être une partie de mot. En particulier, les amalgames (au, du, des, …) ne sont jamais décomposés.

Les mots lexicaux forment un token même lorsqu’ils font partie d’une locution. Ainsi pomme de terre forme trois tokens.

Les locutions (expressions multi-mots) grammaticales répertoriées dans le lexique Orfeo (adapté du Lefff, selon les dispositions détaillées dans le guide des POS) forment des tokens. Cela concerne les catégories suivantes :

·         ADV : à coup sûr, belle lurette, bien entendu, dans ce cas, …

·         COO : ainsi qu’,  c’est-à-dire, et puis, y compris, plutôt que,…

·         CSU : est-ce que, parce que, sous réserve qu’,  toujours est-il que, …

·         DET : Dieu sait quelle, le moins de, n’importe quels, tel et tel, une drôle de, … (mais pas les ADV de comme beaucoup de, combien de, moins de, plein de, …)

·         INT : à bientôt, hum, mh euh, ouh là, …

·         PRE : aux côté de, d’après, de façon à, en face d’, 

·         PRO : autre chose, elles-mêmes, le mien, l’autre, n’importe lequel, …

·         PRQ : où est-ce que, qui est-ce qui, …

Note technique : Les locutions grammaticales qui possèdent par ailleurs une analyse compositionnelle sont décomposées lors du pré-traitement et reliées par un lien morph lors de l’analyse en dépendance. (voir guide POS).

         

Figure 1.   Les deux analyses de bien que

Afin d’optimiser la reconnaissance des morph ceux-ci suivent l’analyse syntaxique qu’aurait la locution. Lorsqu’un élément possède la même catégorie que la locution, il est privilégié comme tête (c’est cas de que pour bien que  ci-dessus).

Figure 2.   Exemple de liens morph

2. Morphosyntaxe

Chaque token est pourvu d'une étiquette morphosyntaxique (donnée par le lexique).

2.1 Liste des catégories morphosyntaxiques

l  ADJ (adjectifs qualificatifs) : méchant, petit, long, gigantesque, drôle, rouge, etc.

l  ADN (adverbes de négation) : pas, jamais, nullement, guère, plus, etc.

l  ADV (adverbes) : savamment, peut-être, in extremis, très, environ, etc.

l  CLI (autres clitiques) : te, lui, -le, -y, en, -leur, nous, etc.

l  CLN (clitique de négation) : ne

l  CLS (clitiques sujets) : tu, elles, vous, -vous, c’,  etc.

l  COO (conjonctions de coordination) : et, ou, alias, mais encore, voire, puis, etc.

l  CSU (conjonctions de subordination) : au fur et à mesure qu’,  alors que, lorsque, etc.

l  DET (déterminants) : cette, certains, quelques, un, etc.

l  INT (interjections) : hein, ben, allô, pfff, no comment, niark, okidoki, parbleu, etc.

l  NOM (noms) : diplodocus, Montastruc-la-Conseillère, topinambour, Google, etc.

l  NUM (nombres) : six, treize, milliard, quatorze, mille, billion, dix-sept, quatre-vingt-onze, vingt-cinq, etc. (mais pas soixante et un)

l  PCT (signes de ponctuation) : !, ?, !, etc., (, », etc.

l  PRE (prépositions) : de, des, nonobstant, parmi, pour cause de, par delà, outre, etc.

l  PRO (pronoms) : moi, celles, les tiens, plusieurs, vous-mêmes, nul, pas grand-chose, etc.

l  PRQ (pronoms interrogatifs-relatifs) : combien est-ce que, lequel, pourquoi, que, etc.

l  VNF (verbes à l'infinitif) : tenir, poindre, jouer, entendre, etc.

l  VPP (verbes au participe passé) : tenu, point, joué, entendu, etc.

l  VPR (verbes au participe présent) : tenant, poignant, jouant, entendant, etc.

l  VRB (verbes à la forme finie) : tiens, poignent, joueraient, entendissions, etc.

l  X (mot inconnu, étranger ou tronqué de catégorie indécidable) : El Paìs, fuck you, etc.

 

Remarques diverses (rappel du guide POS) :

-          des est toujours analysé comme PRE, qu’il s’agisse de l’article indéfni ou de l’amalgame de de et de l’article défini les.

          

Figure 3.   des comme PRE

-          deux est toujours analysé comme NUM qu’il commutent avec des DET (deux chaises), des ADJ (les deux chaises), des PRO (j’en ai deux) ou des NOM (la deux).

-          Par contre, million est NUM dans deux millions cinq cent mille et NOM dans deux millions de personnes.

Figure 4.   NUM vs NOM

 

-          quelques est toujours ADJ, avec fonction spe dans quelques chaises et dep dans ces quelques chaises. De même pour tout : il est ADJ et spe dans toute autre solution ; ADJ et dep du nom jours dans tous les jours ; mais PRO dans je sais tout et ADV dans tout jaune.

-          Les déictiques comme demain sont classés parmi les ADV en suivant la tradition, même quand il commute avec des NOM comme lundi : il vient demain/lundi/lundi prochain/ce lundi/le lundi de mon anniversaire.

2.2 Lemmes

Les lemmes sont comme il est d’usage la forme pour les lexèmes invariables, la forme infinitive pour les verbes, le singulier pour les noms et le masculin singulier pour les adjectifs.

Le lemme pour les articles (DET) et les pronoms clitiques (CLI) le, la, l’,  les est le, le lemme pour du et des est de+le.

Le lemme pour les pronoms clitiques de 1ère et 2ème personne je, tu, nous, vous, me, te … est la forme non élidées (me pour m’). Le lemme pour les clitiques sujet (CLS) de 3ème personne (il, ils, elle, elles) est la forme du masculin singulier il. Le lemme pour les pronoms forts personnels (PRO) (toi, lui, eux, elle, elles) est la forme de 1ère personne singulier moi.

Le lemme pour les déterminants possessifs (mon, ma, mes, ton, ta, tes …) est toujours mon.

Le lemme pour les mots tronqués est le token lui-même, même si on pense pouvoir reconstruire le mot que le locuteur souhaitait produire :

Figure 5.   Lemmes

3. Microsyntaxe

Les relations de dépendance dont nous avons besoin en microsyntaxe sont :

·         root (racine)

·         dep (dépendant, complément ou ajout)

·         suj (sujet)

·         aux (auxiliaire)

·         spe (spécifieur)

·         disflink (segment non analysable)

3.1 La racine root

root désigne l'élément racine de l’énoncé, qui est la tête du noyau de l’énoncé. Cet élément ne dépend d'aucun autre élément aussi bien à l'échelle microsyntaxique qu'à l'échelle macrosyntaxique. Lorsqu'un élément forme à lui seul l'intégralité de l'énoncé, il s'agit alors d’un élément root.

Figure 6.   root

Convention : oui est un élément root uniquement quand il constitue une réponse à une question. Dans les autres cas, il est marqueur de discours (relation dm). Il peut aussi être dep dans il pense que oui.

NB 1. Comme le montre la figure 6, nous avons choisi de faire du participe passé (VPP) la tête d’un forme verbale complexe (voir aux).

NB 2.  Toutes les catégories peuvent être root, sauf DET et COO. Les constructions introduites par une CSU qui ne forment pas un tour de parole sont normalement rattachées, même lorsqu’il s’agit a priori de subordonnées non régies « périphériques » (il doit être à la fac parce que sa voiture est dans le parking) : le segmenteur automatique ne pourrait pas les distinguer d’ajouts régis canoniques ( complément de cause) : il doit être à la fac parce qu’il a cours aujourd’hui. Lorsque les CSU root forment un tour de parole, cette annotation peut représenter une construction fragmentaire acceptable (tant qu’il y aura des hommes) , mais aussi un fragment imposé par le découpage, qui devrait en fait être rattaché à un gouverneur du tour de parole précédent.

3.2 Le sujet : suj

suj désigne le sujet du verbe.

En cas de construction impersonnelle, c’est le sujet grammatical, c’est-à-dire le pronom qui porte la fonction suj :

Figure 7.   Sujet impersonnel

Certaines participiales prennent un sujet (on fait ici l’équivalence avec une fois que le fleuve est traversé, ce qui justifie également le rôle de tête de une fois).

Figure 8.   Sujet d’une participiale

Dès que le verbe porte un enclitique sujet, celui-ci est déclaré comme sujet. En conséquence, un verbe peut exceptionnellement avoir deux sujets :

Figure 9.   Double sujet

Cette situation est néanmoins exceptionnelle. En cas de dislocation gauche du sujet, seul le pronom clitique occupant la position microsyntaxique de sujet portera la fonction suj (voir periph) :

Figure 10.                              Dislocation du sujet

3.3 L’auxiliaire : aux

La relation aux s'applique aux auxiliaires qui dépendent d'un verbe au participe passé (VPP). Le choix de traiter le participe comme la racine de l'énoncé permet d’éviter la non-projectivité que pourrait générer des énoncés du type il lui a parlé.

Convention : Sont seulement considérés comme auxiliaires ÊTRE et AVOIR.

Figure 11.                              Auxiliaire et clitique

Ce choix peut néanmoins conduire à des constructions non projectives en cas de négation et de double auxiliaire :

 

Figure 12.                              Double auxiliaire

3.4 Le spécifieur : spe

spe désigne le spécifieur du nom. Un seul des éléments rattachés au nom peut porter cette étiquette. Les autres éléments porteront alors la fonction dep.

Figure 13.                              Spécifieur et dépendants du nom

La fonction spe est attribuée à l’élément (DET, ADJ, PRQ) en tête du groupe nominal et obligatoire dans le contexte :  Dans tous les amis et seuls les amis, c’est les qui est analysé spe.

Rappel : de, du et des sont toujours PRE et toujours analysés comme gouverneur du NOM qu’ils introduisent. Ils ne sont donc jamais spe :

                  

Figure 14.                              de, du, des

3.5 Les autres dépendants : dep

dep regroupe tous les éléments dépendant microsyntaxiquement d'une tête qui ne font pas l’objet d’une fonction spéciale (subj, aux, spe, mark) ou ne sont pas traités au niveau macrosyntaxique (periph). Sont également traités comme dep les adverbes intégrés au noyau (il est quand même venu) et les subordonnées, même lorsque leur statut comme complément régi est discutable (il est à la fac parce que sa voiture est dans le parking).

Parmi les relations de dépendance dep, on notera :

·         les compléments régis par le verbe qu’ils fassent partie ou non de la valence verbale (objets direct et indirect, attributs du sujet ou de l’objet, complément oblique, ajouts ou modifieurs).

Figure 15.                              Compléments d’un verbe

·         le complément de la préposition, de l’adjectif, de l’adverbe

·         le verbe introduit par une conjonction de subordination (pour les conjonctions de coordination, voir mark) :

Figure 16.                              Complément de CSU et de PRE

Figure 17.                              Pronom interrogatif

Figure 18.                              Discours rapporté

Figure 19.                              Adverbiaux

Mais pas ceux qui sont en position détachée à gauche, qui sont periph (voir plus loin) :

Figure 20.                              Modifieurs hors noyau

3.6 Eléments disfluents : disflink

On utilise la fonction disflink pour rattacher un élément en l’absence de son gouverneur : Il mange -disflink→ quelques. La tête du groupe nominal étant absente et l’adjectif quelques ne dépendant pas normalement d’un verbe, il est rattaché par le lien disflink à l’élément qui précède.

 

Figure 21.                              disflink

Les amorces disfluentes qui figurent dans une liste sont normalement gérées par le lien para. On évite le lien disflink autant que possible. Celui-ci n’est utilisé que quand aucune autre analyse correcte ne semble possible. Dans les exemples qui suivent, l’amorce en tant que telle est gérée par le lien para (qu’ qu’, j’ j’, de de, la la). L’utilisation du lien disflink est rendue nécessaire par le fait que l’amorce contient plusieurs éléments qui ne sont pas liés par une dépendance régulière (qu’ on, j’ en, de la).

Dans la figure 21 on propose de mettre disflink entre les deux clitiques sujet (répétition simple

Figure 22.                              Amorces disfluentes

Les prépositions sans leur complément obligatoire sont analysées normalement :

Figure 23.                              Préposition sans complément

Qu’il s’agisse des amorces d’auxiliaire ou de verbe pour les cas de répétition simple  nous proposons de maintenir para ne serait-ce que pour faciliter les requêtes:

Figure 24.                              Amorces d’auxiliaires

3.5 Constructions microsyntaxiques particulières

3.5.1 Propositions relatives et interrogatives indirectes

Bien que le pronom relatif possède un double rôle de complémenteur et de pronom, seul son rôle de pronom au sein de la relative est pris en compte. En conséquence, la tête d’une relative est le verbe principal qui est lui-même dep de l’antécédent.

Figure 25.                              Relative

Il en va de même pour les interrogatives indirectes, mais ici le verbe de l’interrogative est dep du verbe de la principale.

Figure 26.                              Interrogative indirecte

Même analyse pour les relatives sans antécédent.

Figure 27.                              Relative sans antécédent

NB les relatives « de libre choix :

On analyse les séquences comme : quel qu’il soit, où qu’il soit, de quelque manière qu’il agisse, comme des relatives sans tête avec quel que, où que,  PRQ ,

La relative est PERIPH d’un VRB du contexte  :

                                    

NB. qui que ce soit, quoi que ce soit sont traités comme des PRO composés dans le lexique où que ce soit, comme ADV composé . Ces formes se comportent en effet comme des lexèmes pronominaux uniques:

                Je ne parlerai pas à qui que ce soit

Le  à dépend de parler  et non de soit comme  dans parler à n’importe qui.

3.5.2 Constructions clivées

Pour chaque construction clivée qui possède la forme c'est X qui ou il y a X qui, la proposition subordonnée dépendra de X. Aucune différence n'est donc faite entre une construction clivée et une construction "relative présentative". Par conséquent, c'est un ami qui m'a aidé et c'est l'ami qui m'a aidé seront analysés de façon identique. (La raison en est qu’il ne nous semble pas possible pour un analyseur automatique de discriminer entre les deux situations sans indices prosodiques et pragmatiques.). Cette analyse vaut pour l’objet direct clivé également.

Figure 28.                              Clivage d’un sujet ou d’un objet

Construction clivée avec syntagme prépositionnel

Lorsque les propositions clivées présentent un syntagme prépositionnel dans la proposition principale, la proposition subordonnée, qui n’a plus la forme d’une relative standard, est alors dep du verbe de la proposition principale et que est analysé par convention CSU :

Figure 29.                              Clivage d’un groupe prépositionnel

3.5.3 Négations averbales

Lorsque la négation pas forme un syntagme avec une tête non verbale, il dépend de cette tête :

Figure 30.                              Négation averbale

3.5.4 Adverbes dans des entassements paradigmatiques

Les adverbes sont normalement dépendants d’un verbe. Il est néanmoins courant que des adverbes apparaissent dans des entassements paradigmatiques, où ils forment un syntagme avec les conjoints. Dans ce cas, l’adverbe sera marqué comme un dépendant de la tête du conjoint. On aura ainsi, selon la position de l’adverbe et du syntagme sur lequel il « porte », deux analyses possibles :

·         S’il n’y a pas d’entassement paradigmatique, l’adverbe dépend du verbe : il est -dep→ surtout ennuyeux.

·         Si l’adverbe forme un syntagme avec un conjoint, il dépend de ce conjoint : il est triste et surtout ←dep- ennuyeux.

Figure 31.                              Adverbes dans entassements paradigmatiques

Voir section 5.2 pour le traitement de évidemment comme marqueurs de discours dans l’exemple précédent.

3.5.5 Adv de N

Une construction de la forme J'ai mangé trop de sushis ou trop de sushis sont vendus sans label est analysée de la même manière que J'ai mangé des tonnes de sushis : trop = tête adverbiale.

Figure 32.                              Adv de N

Ceci concerne trop de N, peu de N, beaucoup de N, tant de N, combien de N, plein de N, etc.

Par contre, les constructions de la forme J'ai trop mangé de sushis, où trop n’est pas contigu à de N, est analysé de la même manière que Je n'ai pas mangé de sushi.

3.5.6 Que + S et Comme + S

Dans cette construction, que et comme sont considérés comme PRQ et dépendent du verbe :

oh que c’est moche : que ←dep- est

Mais que est root dans que de N :

3.5.7  comparatives (Plus + ADJ + que ,  plus + ADV + que) et consécutives

Le complément du comparatif en que dépend bien du comparatif :

Figure 33.                              Comparatives

Figure 34.                              Consécutives

3.5.8 Greffes

Les greffes sont des propositions qui viennent occuper une place où un syntagme d’une autre catégorie est attendu (je vais prendre je crois que c’est l’avenue AL au lieu de je vais prendre l’avenue AL), le verbe greffé est considéré comme dep du verbe hôte, malgré la rupture de sous-catégorisation :

Figure 35.                              Greffe

3.5.9 l’un l’autre

l’un est traité comme un dépendant dans cette construction :

Figure 36.                              l’un PRE l’autre

4. listes (ou entassements) paradigmatiques :

(coordinations, énumérations, reformulation, apposition, disfluences)

Le terme liste paradigmatique rassemble les configurations de termes unis par des liens paradigmatiques (conjoints occupant une même fonction syntaxique par rapport à une tête) . Les étiquettes para et mark sont spécialement conçues pour gérer les listes.

Para entre les têtes des séquences en liste (cf 4.1)

Mark entre la tête d’un terme de la liste et une éventuelle conjonction de coordination (4.2)

Les listes regroupent les phénomènes suivants :

Figure 37.                              Coordination

Figure 38.                              Intensification

Figure 39.                              Disfluence

Figure 40.                              Reformulation

Figure 41.                              Double formulation

Figure 42.                              Question-réponse

4.1 Lien paradigmatique : para

para représente un lien paradigmatique qui rattache un élément à son conjoint le plus proche au sein des listes. Le premier conjoint d’une liste est la tête (et le gouverneur de la liste s’y rattache). Un dépendant commun se rattache au conjoint le plus proche. Les liens paradigmatiques vont toujours de gauche à droite.

Figure 43.                              Liens para

Par défaut, il n’y a pas de lien para entre des verbes principaux, même lorsque ceux-ci sont dans un discours direct (voir guide de segmentation). Par contre, deux verbes principaux qui partagent un dépendant seront liés par un lien para. L’exemple suivant illustre les deux cas :

Figure 44.                              Liens para entre verbes principaux

On utilisera aussi un lien para pour la construction de X à Y, où on a une forme de coordination (ordre fixe *à Y de X) : de trois à quatre personnes, du début à la fin, le train de Paris à Marseille.

Figure 45.                              de X à Y

4.2 Lien marqueur : mark

Les conjonctions de coordination (COO) sont analysées comme dépendant du conjoint qui suit par un lien mark. Cette analyse permet de privilégier le lien para entre les deux conjoints et de rendre compte de l’asymétrie de la construction (la conjonction forme un syntagme avec le conjoint qui suit et pas celui qui précède).

Figure 46.                              mark

Les COO en début d'énoncé dépendent de la racine par un lien mark.

Figure 47.                              CCO introducteur

Les épexégèses (ou compléments différés) peuvent être introduits pas une conjonction de coordination sans qu’il y ait alors de lien para :

Figure 48.                              Epexégèse

Les exceptives sont traitées comme des cas de listes paradigmatiques, avec sauf, excepté, hormis ou à part comme COO et mark. Ce traitement est justifié par le fait que les éléments comme sauf peuvent être suivi de syntagmes que n’autorisent pas les PRE (sauf à Paris, hormis quand il pleut) et qu’ils ne sont jamais précédé de et. (Par contre sauf que n’a rien à voir au niveau syntaxique et est traité comme une CSU figée.) Il s’agit souvent d’épexégèses, sans lien para (2e exemple ci-dessous).

Figure 49.                              Les exceptives (sauf, …)

Certains adverbes paradigmatisants se comportent de manière proche des COO, mais le fait qu’ils puissent cooccurer avec et ne permet pas d’en faire des COO. C’est le cas par exemple  de y compris :

Figure 50.                              L’adverbe y compris

5. Macrosyntaxe

L'analyse en macrosyntaxe prend en compte le rattachement des éléments non régis ainsi que, par convention dans ce guide, les éléments en position détachée, régis ou pas. Afin de pouvoir les analyser comme il convient, nous utilisons les relations periph, dm, et parenth.

5.1 Eléments périphériques : periph

La relation periph relie les éléments périphériques, en position détachée par rapport à  l’élément root).

Les constituants à gauche du sujet seront systématiquement traités comme periph, même lorsqu’on pourrait considérer qu’ils sont dans la valence du verbe. Cela est également vrai pour des constituants dépendant d’un verbe, qui sont à la périphérie de la construction régie par ce verbe sans être à la périphérie de l’énoncé. Il est beaucoup plus complexe de repérer les periph lorsqu'ils se trouvent à droite du noyau, sauf avec certains lexèmes (puisque, de sorte que, adverbes comme heureusement, franchement…) On a traité comme périph les cas de dislocation droite avec reprise par clitique ( comment ça marche , les autres fig. 5) En cas d'ambiguïté potentielle on a utilisé par défaut la fonction dep.

Certaines constructions verbales sans introducteur qui ne peuvent fonctionner seules et jouent le rôle de présentatifs d’un thème ( il y a N, j’ai N) sont aussi annotées periph (dernier exemple de la figure52)

Figure 51.                              periph

Figure 52.                              Inversion du sujet

Les adverbes (y compris les dits « adverbes de phrase ») sont dep quand ils sont intégrés au noyau et periph quand ils sont en périphérie du noyau :

 

Figure 53.                              Adverbes dep vs periph

Iles constituants placés devant le sujet d’un VRB dépendant (en subordonnée) sont également analysés comme periph (sauf les PRQ)  :

Figure 54.                              periph dans une « subordonnée »

Les adverbes qui apparaissent dans des listes paradigmatiques dépendent du conjoint (voir section 3.5.4). Certains adverbes sont traités comme des marqueurs de discours (voir section 5.2 qui suit). Les autres, ainsi que les syntagmes prépositionnels sont dep, même ceux qui sont détachés et pourraient être analysés comme periph (cf. encore ci-après) : 

Figure 55.                              pas de  periph dans un entassement

On évite les periph de periph même quand il y aurait de bonnes raisons de le faire. Par exemple, moi mon vélo le guidon il est cassé est analysé avec 3 periph dépendant du noyau. Idem dans le cas suivant :

Figure 56.                              Double periph

5.2 Marqueurs de discours : dm

Les marqueurs de discours sont des éléments plus flottants que les periph. Un élément dm est rattaché à l'élément qui le précède directement, ou à la racine s’il est en position initiale.

Figure 57.                              dm

Seule exception : lorsque le dm est en tête d’un discours direct, il est rattaché au verbe principal du discours direct et pas à l’élément qui précède.

Figure 58.                              dm et discours direct

Liste des éléments pouvant fonctionner comme DM

La liste des DM extraite depuis les fichiers Rhapsodie :

Interjections : euh, , bon, hein, bah, enfin, mh mh, voilà , oui, non, ben, peuh, eh, ah , eh ben, eh bien, oh( là) oh la la, ouh, et oui, ouh la la la la,, waouh, eh oui,  ah bon, ouais,  bref, pff, quoi, non mais, fff, OK, en tout cas, attention,

Incises verbales « sans complément » :  je dirais, je veux dire , on dit, on va dire, je dois dire, disons,  je te dis , je me disais, on dirait,  si je puis dire, c’est-à-dire, comment (dire) ,  je cite, , je vous signale

je sais, tu sais, je sais pas, vous savez,

je vois, vous voyez, voyez-vous, tu vois , tu as vu, voyez, tu verras , vous verrez, vous allez voir

 il me semble, je crois , je pense, je trouve, j'imagine, tu imagines , je me souviens,  si vous voulez, si tu veux, allez, remarque, remarquez, écoute, écoutez,, attends, attendez, ça y est, pardonnez-moi, pardon, n'est-ce pas, excusez-moi,

Certains adverbes comme alors (fig 59) ou donc, en fait, enfin (fig 60), et en tout cas  sont normalement des dep ou des periph, mais certains locuteurs en font des tics de langage et les utilisent comme des phatiques ponctuant la plupart de leurs énoncés. Dans ce cas, on peut être amenés à en faire des dm, mais la frontière est difficile à tracer.

Figure 59.                              alors comme dm

Figure 60.                              enfin comme dm

Certains adverbes en -ment comme finalement ou évidemment pourrait être analysés comme des dm dans certains cas, mais pour éviter les ambiguïtés d’annotation nous les traiterons systématiquement comme des dep ou periph.

5.3 Incises

Les incises, comme répéta-t-il ou dit le diable, sont étiquetées dm et attachées au mot précédent comme les dm et les parenth:

Figure 61.                              Incise de discours rapporté

Les constructions verbales saturées (et sans inversion du sujet) comme vous l'avez vu ou il a dit seront traitées comme parenthèses :

Figure 62.                              Incises vs parenthèses

5.4 Parenthèses

Les parenthèses sont explicitement identifiées et analysées parenth. Le gouverneur de la parenthèse est, comme pour les dm, le mot qui précède.

Figure 63.                              Parenthèses

6. Ponctuation

Les ponctuations à l’écrit forment des tokens séparés de catégorie PUNC et de fonction punc. Il faut distinguer deux types de ponctuation.

Ponctuation simple : il s’agit d’une ponctuation qui fonctionne seule et marque le début ou la fin d’un syntagme. Une telle ponctuation est toujours rattachée au dépendant de la relation qui la couvre.

Dans l’exemple suivant, la première virgule est couverte par la dépendance periph entre a et Si : elle est dont rattachée au dépendant qui est Si et marque ainsi la limite droite du syntagme dont Si est la tête. La même chose s’observe avec la deuxième virgule : elle est également couverte par un lien periph et s’attache au dépendant au contraire de lien, marquant ainsi la limite gauche du syntagme dont au contraire est la tête. Enfin, la ponctuation finale qui n’est « couverte » que par le lien root, s’attache aussi au dépendant de ce lien, c’est-à-dire à la racine de l’arbre, ici a.

Figure 64.                              Ponctuation simple

Les virgules qui marquent des listes paradigmatiques sont traitées de la même façon. Elles sont couvertes par un lien para et s’attache au dépendant de ce lien qui se trouve à leur droite ; elles marquent ainsi la frontière gauche du conjoint qui les suit, comme le font aussi les COO.

Figure 65.                              Ponctuation simple dans une liste paradigmatique

Ponctuation double : il s’agit d’une paire de ponctuations de même nature (deux virgules, deux guillemets, deux parenthèses, deux tirets) qui marque les frontières gauche et droite d’un même syntagme. Dans ce cas les deux ponctuations sont rattachées à la racine de ce syntagme

 

Figure 66.                              Ponctuations doubles