
Pour un projet d’analyse de données sur CV, j’avais besoin de convertir en masse des fichiers PDF et DOCX (Microsoft Word) en fichiers texte (TXT). L’objectif était d’appliquer des algorithmes d’apprentissage automatique sur les données.
La bibliothèque Apache Tika m’a permis de convertir facilement ces documents (des centaines de documents en quelques secondes seulement).
Pour installer Tika sur macOS, j’ai utilisé Brew et une seule ligne de commande dans le terminal (condition préalable: le JDK Java.)
brew install tika
Pour obtenir la liste des commandes disponibles:
tika --help
All the documents that I wanted to convert were placed in a folder input
. With the following command, all .pdf
and .docx
documents were converted to .txt
documents in the folder output
.
Tous les documents que je voulais convertir ont été placés dans un dossierinput
. Avec la commande suivante, tous les documents .pdf
et .docx
ont été convertis en documents .txt
dans la sortie du dossier.
tika --text -i ~/Desktop/input/ -o ~/Desktop/output/
Merci !