Conversion de fichiers PDF et DOCX en texte

English English

Pour un projet d’analyse de données sur CV, j’avais besoin de convertir en masse des fichiers PDF et DOCX (Microsoft Word) en fichiers texte (TXT). L’objectif était d’appliquer des algorithmes d’apprentissage automatique sur les données.

La bibliothèque Apache Tika m’a permis de convertir facilement ces documents (des centaines de documents en quelques secondes seulement).

Pour installer Tika sur macOS, j’ai utilisé Brew et une seule ligne de commande dans le terminal (condition préalable: le JDK Java.)

brew install tika

Pour obtenir la liste des commandes disponibles:

tika --help

All the documents that I wanted to convert were placed in a folder input. With the following command, all .pdf and .docx documents were converted to .txt documents in the folder output.

Tous les documents que je voulais convertir ont été placés dans un dossierinput. Avec la commande suivante, tous les documents .pdf et .docx  ont été convertis en documents .txt dans la sortie du dossier.

tika --text -i ~/Desktop/input/ -o ~/Desktop/output/

Merci !