Recherche plein texte - OCR
Pour le fonctionnement de l'OCR et de la recherche plein texte au sein de QALITEL, il sera nécessaire d'installer les applications / paquets suivants :
- Poppler (PDFto Text et PDFtoImages)
- Tesseract
- Elasticsearch
Il est possible d'installer Poppler et Tesseract (OCR) sur un serveur et Elasticsearch (Recherche plein texte) sur un autre serveur. Il est également possible d'installer l'ensemble sur le même serveur. Cela dépendra de la volumétrie et de la charge d'utilisation estimée.
1. Installation des modules pour l'OCR
Pour l'installation de Tesseract :
sudo apt-get install tesseract-ocr
sudo apt-get install tesseract-ocr-fra
Pour l'installation de poppler :
sudo apt-get install poppler-utils
2. Installation des modules pour la recherche plein texte
Le fonctionnement d'Elasticsearch nécessite OpenJDK que l'on peut installer de la manière suivante :
sudo apt-get install openjdk-11-jdk
Téléchargement et installation de la clé utilisée par Elasticsearch pour signer ses paquets :
wget -qO - https://artifacts.elastic.co/GPG-KEY-elasticsearch | sudo gpg --dearmor -o /usr/share/keyrings/elasticsearch-keyring.gpg
Installation des paquets suivants :
sudo apt-get install apt-transport-https
echo "deb [signed-by=/usr/share/keyrings/elasticsearch-keyring.gpg] https://artifacts.elastic.co/packages/8.x/apt stable main" | sudo tee /etc/apt/sources.list.d/elastic-8.x.list
sudo apt-get update && sudo apt-get install elasticsearch
Pour permettre le démarrage automatique d'Elasticsearch au redémarrage du serveur :
sudo systemctl daemon-reload
sudo systemctl enable elasticsearch.service
Pour démarrer, arrêter et redémarrer Elasticsearch, on utilisera les commandes suivantes :
sudo systemctl start elasticsearch.service
sudo systemctl stop elasticsearch.service
sudo systemctl restart elasticsearch.service
Il est nécessaire de paramétrer l'adresse IP d'écoute d'Elasticsearch (par défaut Elasticsearch n'est accessible que pour Localhost).
Cela se fait dans le fichier de configuration /etc/elasticsearch/elasticsearch.yml
Pour prendre en compte les modifications apportées au fichier de configuration, il est nécessaire de redémarrer Elasticsearch :
sudo systemctl restart elasticsearch.service
P.S. : C'est également dans ce fichier que vous pouvez spécifier le port d'écoute (autre que le 9200 port par défaut)
Pour vérifier le fonctionnement d'Elasticsearch, on utilisera la commande suivante :
(Par défaut Elasticsearch tourne sur le port 9200)
On obtient alors une réponse similaire à celle présentée ci-dessous :
3. Paramétrage au sein de QALITEL
Une fois les installations ci-dessus réalisées, il vous faut paramétrer la configuration dans votre application QALITEL. Cela se fait au nivuea des "Préférences Globales" - menu "Configuration - Préférences Globales"
Plusieurs paramétrages sont possibles selon votre configuration d'installation :
- QALITEL - Elasticsearch et Tesseract installés sur le même serveur
- QALITEL - Elasticsearch et Tesseract installés chacun sur un serveur différent
3.1. QALITEL - Elasticsearch et Tesseract installés sur le même serveur
Dans cette configuration, les différents champs de la rubrique "Archivage numérique" sont à paramétrer de la manière suivante :
- Recherche plein texte ==> http://localhost
- Installation du serveur OCR locale
- Ne rien mentionner dans les 2 champs "Chemin des utilisataires PDF" et "Chemin de l'OCR"
3.2. QALITEL - Elasticsearch et Tesseract installés chacun sur un serveur différent