pylexique

Package Maintenance Status Package Maintener Build status on Windows, MacOs and Linux Pypi Python Package Index Status Anaconda Package Index Status Compatible Python versions Supported platforms Documentation Status Dependencies status Code Coverage Status Code Vulnerability Status PyPI Downloads Conda

Pylexique est une librairie Python encapsulant Lexique383.
Elle permet l’extraction d’informations lexicales de plus de 140 000 mots français de manière orientée objet.


Chaque élément lexical est représenté par un LexItem ayant le LexEntryType suivant :

class LexEntryType:
"""
Type information about all the lexical attributes in a LexItem object.

"""
ortho: str
phon: str
lemme: str
cgram: str
genre: str
nombre: str
freqlemfilms2: float
freqlemlivres: float
freqfilms2: float
freqlivres: float
infover: str
nbhomogr: int
nbhomoph: int
islem: bool
nblettres: int
nbphons: int
cvcv: str
p_cvcv: str
voisorth: int
voisphon: int
puorth: int
puphon: int
syll: str
nbsyll: int
cv_cv: str
orthrenv: str
phonrenv: str
orthosyll: str
cgramortho: str
deflem: float
defobs: int
old20: float
pld20: float
morphoder: str
nbmorph: int

Les significations des attributs de cet objet sont les suivantes :

  • ortho : le mot

  • phon : les formes phonologiques du mot

  • lemme : les lemmes de ce mot

  • cgram : les catégories grammaticales de ce mot

  • genre : le genre

  • nombre : le nombre

  • freqlemfilms : la fréquence du lemme selon le corpus de sous-titres (par million d’occurrences)

  • freqlemlivres : la fréquence du lemme selon le corpus de livres (par million d’occurrences)

  • freqfilms : la fréquence du mot selon le corpus de sous-titres (par million d’occurrences)

  • freqlivres : la fréquence du mot selon le corpus de livres (par million d’occurrences)

  • infover : modes, temps et personnes possibles pour les verbes

  • nbhomogr : nombre d’homographes

  • nbhomoph : nombre d’homophones

  • islem : indique si c’est un lemme ou non

  • nblettres : le nombre de lettres

  • nbphons : nombre de phonèmes

  • cvcv : la structure orthographique

  • p-cvcv : la structure phonologique

  • voisorth : nombre de voisins orthographiques

  • voisphon : nombre de voisins phonologiques

  • puorth : point d’unicité orthographique

  • puphon : point d’unicité phonologique

  • syllabe : forme phonologique des syllabes

  • nbsyll : nombre de syllabes

  • cv-cv : structure phonologique des syllabes

  • orthrenv : forme orthographique inversée

  • phonrenv : forme phonologique inversée

  • orthosyll : forme orthographique des syllabes

  • cgramortho : les différentes catégories grammaticales pour une représentation orthographique donnée

  • deflem : le pourcentage de personnes qui ont déclaré connaître le lemme du mot.

  • defobs : la taille de l’échantillon d’où est tiré “deflem”.

  • old20 : distance de Levenshtein orthographique

  • pld20 : distance de Levenshtein phonologique

  • morphoder : morphologie flexionnelle

  • nbmorph : le nombre de morphèmes directement calculé à partir de “morphoder”.

Vous pouvez trouver toutes les informations pertinentes dans la documentation officielle de Lexique383 (français).

Caractéristiques

  • Extraire toutes les informations lexicales d’un mot français telles que :
    • les représentations orthographiques et phonémiques

    • les lemmes associés

    • syllabation

    • la catégorie grammaticale

    • le genre et le nombre

    • les fréquences d’apparition dans un corpus de livres et dans un corpus de sous-titres de films, etc…

  • Extraire toutes les formes lexicales d’un mot français.

  • Api simple d’utilisation.

  • Intégrez facilement pylexique dans vos propres projets en tant que bibliothèque importée.

  • Peut être utilisé comme un outil de ligne de commande.

Crédits

Développeur principal SekouDiaoNlp.

Corpus lexical : Lexique383

À propos de Lexique383

Lexique3

Lexique 3.83 est une base de données lexicale française qui fournit pour ~ 140 000 mots du français : représentations orthographique et phonémique, lemmes associés, syllabation, catégorie grammaticale, genre et nombre, fréquences dans un corpus de livres et dans un corpus de sous-titres de films, etc…


Données tabulaires: Lexique383.zip

Site web : http://www.lexique.org

Online: http://www.lexique.org/shiny/lexique

Publications

  • New, Boris, Christophe Pallier, Marc Brysbaert, and Ludovic Ferrand. 2004. « Lexique 2: A New French Lexical Database. » Behavior Research Methods, Instruments, & Computers 36 (3): 516–524. DOI. pdf

  • New, Boris, Christophe Pallier, Ludovic Ferrand, and Rafael Matos. 2001. « Une Base de Données Lexicales Du Français Contemporain Sur Internet: LEXIQUE » L’Année Psychologique 101 (3): 447–462. DOI. pdf

  • Boris New, Marc Brysbaert, Jean Veronis, and Christophe Pallier. 2007. « The Use of Film Subtitles to Estimate Word Frequencies. » Applied Psycholinguistics 28 (4): 661–77. DOI. (pdf)

Contributeurs

  • Boris New & Christophe Pallier

  • Ronald Peereman

  • Sophie Dufour

  • Christian Lachaud

  • et bien d’autres encore… (contactez-nous pour être listé)

Licence

CC BY SA40.0

Entrée BibTex pour citer les publications sur Lexique383 :

@article{npbf04,
author = {New, B. and Pallier, C. and Brysbaert, M. and Ferrand, L.},
journal = {ehavior Research Methods, Instruments, & Computers},
number = {3},
pages = {516-524},
title = {Lexique 2 : A New French Lexical Database},
volume = {36},
year = {2004},
eprint = {http://www.lexique.org/?page_id=294},
}
@article{npfm01,
author = {New, B. and Pallier, C. and Ferrand, L. and Matos, R.},
journal = {L'Ann{\'e}e Pschologique},
number = {447-462},
pages = {1396-2},
title = {Une base de donn{\'e}es lexicales du fran\c{c}ais contemporain sur internet: LEXIQUE},
volume = {101},
year = {2001},
}
@article{new_brysbaert_veronis_pallier_2007,
author={NEW, BORIS and BRYSBAERT, MARC and VERONIS, JEAN and PALLIER, CHRISTOPHE},
title={The use of film subtitles to estimate word frequencies},
volume={28}, DOI={10.1017/S014271640707035X},
number={4}, journal={Applied Psycholinguistics},
publisher={Cambridge University Press},
year={2007},
pages={661–677}}

BibTeX

Si vous souhaitez citer pylexique dans une publication universitaire, utilisez ce format de citation :

@article{pylexique,
  title={pylexique},
  author={Sekou Diao},
  journal={GitHub. Note: https://github.com/SekouDiaoNlp/pylexique Cited by},
  year={2021}
}