12 Syntaxe des requêtes CQL
12.3 Recherche sur les propriétés [niveau 2 (lexical) : les propriétés]
12.3.1 Introduction
Jusqu'alors, les recherches effectuées portaient sur la forme graphique des mots, qui est enregistrée dans la propriété word : [word="bonheur"] signifie qu'on recherche la valeur bonheur de la propriété word, correspondant à la forme graphique. Mais, lorsque le corpus est enrichi, les mots portent d'autres informations que leur seule graphie, sous la forme d'autre propriétés. Les requêtes peuvent alors porter sur d'autres propriétés des mots (et les combiner).
La graphie étant une propriété (presque) comme les autres, tout ce qu'on a vu dans la section précédente s'applique aux valeurs de propriété quelle que soit la propriété, sauf l'écriture simplifiée.
Pour interroger sur les propriétés il faut connaître leur nom et leurs valeurs. En effet, le nom des propriétés dépend de l'import du corpus : dans tel corpus la propriété qui enregistre le lemme est lemma, dans tel autre frlemme, dans tel autre encore ttlemme, etc. De même, les valeurs des catégories grammaticales dépendent du jeu d'étiquettes utilisé. Dans TXM en version locale, la fonction Description montre quelles propriétés sont disponibles et donne pour chacune d'elle un aperçu de quelques valeurs attestées (sur les premières occurrences du corpus). La fonction Lexique permet de lister exhaustivement les valeurs d'une propriété attestées dans le corpus. Dans la version locale, un double-clic sur une de ces valeurs permet de voir son usage en contexte (dans une concordance). Ceci étant il est utile d'avoir les tables descriptives des jeux de catégories utilisés pour le corpus sur lequel on travaille.
12.3.2 Recherche sur une propriété
[frlemma="beau"] [frlemma="faire"] |
Rechercher un lemme permet de désigner un mot sous ses formes (très) variables. Il faut expliciter sur quelle propriété on travaille, la formulation à crochets devient nécessaire. |
[frlemma="je"] |
Le lemme « je » recouvre ici ses formes élidées ou avec majuscule initiale. |
[frpos="ADV"] |
De même, on peut chercher sur d'autres propriétés, comme la catégorie grammaticale. |
[frpos="VER.*"] [frpos="NOM|NAM|VER.*|ADJ"] |
La valeur que prend la propriété peut utiliser les mêmes opérateurs que précédemment, par ex. pour reconstruire des catégories en regroupant des étiquettes. |
[frlemma=".*\|.*"] |
Ici la barre verticale fait partie intégrante de l'étiquette (ambiguïtés non résolues par TT). |
12.3.3 Alternative (2)
[frpos="NAM|NOM"] |
Il y a plusieurs manières d'exprimer l'alternative, plus ou moins factorisées. |
[frpos="N(A|O)M"] |
La barre verticale est l'opérateur le plus général, sa portée peut être ciblée par des parenthèses. |
[frpos="N[AO]M"] |
Les crochets ne sont utilisables que pour une alternance sur un seul caractère, |
"[aeiouy]+" |
mais facilitent l'expression d'un large choix |
[pos=".*[1-3].*"] |
(dans Discours) ou d'une gamme. |
[pos="[^12]*"] |
(dans Discours) Le chapeau est une négation : ensemble des caractères interdits sur la position. |
[frpos="VER:(futu|cond|subi)"] |
Alternance sur des séquences de caractères (de longueurs identiques ou non) : seule la barre verticale est utilisable. |
12.3.4 Combinaison d'informations
[frlemma="pouvoir" & frpos="NOM"] |
Désambiguïsation catégorielle d'un lemme. |
[frpos="ADV" & word=".*ment"] |
Croisement d'une catégorie et d'un trait morphologique. |
[frlemma="liber.*"%d & frlemma!="libéral"] |
Exclusion de cas non souhaités. |
[frpos="NOM" & word!=".*\p{P}"] |
Post-taitement des erreurs de segmentation. |
[pos!="NA|pon" & pos!=fropos] |
(dans la BFM) Comparaison directe à une autre propriété. |