Offre de stage: Data scientist, Natural Language Processing

Présentation

Start-up créée en 2013 et basée à Paris, Liegey Muller Pons a développé des technologies data uniques pour analyser l’opinion publique locale et mener des campagnes de communication efficaces. Candidats à l’élection présidentielle, porteurs de projets d’infrastructure ou leaders industriels utilisent l’intelligence apportée par notre logiciel Cinquante Plus Un pour comprendre ce que pense la population sur leur territoire et définir leur stratégie. La société est en forte croissance, en France et à l’international. En 2017, LMP a servi de nombreux clients sur toutes les élections françaises et de nombreuses élections européennes, renforcé son activité corporate, et bouclé une levée de fond de série A.

 

Analyse de la presse via Natural Language Processing (NLP)

LMP a lancé un cycle de R&D destiné à améliorer son logiciel, concevoir de nouvelles analyses, et exploiter de nouvelles sources de données, parmi lesquelles les textes issus de la presse. L’exploitation de ces textes se fait via Natural Language Processing (NLP) [1].

 

Sujet de stage

Au sein de l’équipe data de LMP, vous serez chargé de développer de nouvelles analyses à partir des données texte issues de la presse. Vous travaillerez en particulier sur l’extraction de thèmes à partir de larges corpus de textes. Le stage consistera (liste non-exhaustive) en :

  • La prise en main de spaCy, la librairie de NLP actuellement employée par LMP [2].
  • L’implémentation et l’adaptation des modèles de détection de thèmes dans des corpus de texte, par exemple LDA [3] ou modèles plus récents.
  • L’évaluation de ces modèles [4], notamment en utilisant des représentations vectorielle si cela est pertinent, voir par exemple [5].
  • La détection automatisée évènements importants, voir par exemple [6].
  • L’élaboration d’analyses à partir des informations extraites.

Vous disposerez pour cela d’un accès à de grandes bases formatées et actualisées de textes de presse française.

 

Profil

  • Formation : vous êtes en dernière année d’un master en data science, computer science, statistique, économie, ou discipline proche.
  • Possibilité de poursuivre par une embauche en CDI : oui. Les stages de fin d’étude sont privilégiés.
  • Expérience requise : aucune
  • Compétences souhaitées :
    • Fort background en mathématiques (probabilités et statistiques) pour comprendre le détail et les limites des différents modèles utilisés.
    • Fortes compétences en programmation (Python) pour implémenter et tester rapidement ces modèles.
    • Esprit d’initiative et imagination pour concevoir de nouvelles analyses.
    • Connaissances préalables en NLP.

 

Informations complémentaires :

  • Durée et type de contrat : stage ou alternance, dès que possible, minimum 4 mois.
  • Lieu : Paris (11ème arrondissement).
  • Rémunération : 1 333 bruts C par mois, tickets restaurants & free food.
  • Pour candidater : Envoyez les éléments suivants à César Pierre (info@liegeymullerpons.com) en indiquant dans l’objet de votre email « stage data scientist »
    • Un CV (une page de préférence, deux pages maximum)
    • Quelques lignes concises de motivation comprenant :
      • Le poste auquel vous candidatez
      • Vos dates de disponibilités et la durée souhaitée de stage
      • Une présentation de vous-même (études, compétences, qualités, …)
      • 2 à 3 éléments de votre profil en lien avec votre candidature à Liegey Muller Pons
    • Relevés de notes : de préférence les plus récents

 

Références

[1] https://web.stanford.edu/~jurafsky/slp3/
[2] https://github.com/explosion/spaCy)
[3] D. Blei, A. Ng, and M. Jordan. Latent dirichlet allocation. 2003
[4] http://newslens.berkeley.edu
[5] T. Mikolov, K. Chen, G. Corrado, J. Dean. Efficient Estimation of Word Representations in Vector Space. arXiv preprint. 2013
[6] http://newslens.berkeley.edu