Créez votre PDF

No pages found in Basket

Recherche plein texte - OCR

Sommaire[Masquer]

 

Pour le fonctionnement de l'OCR et de la recherche plein texte au sein de QALITEL, il sera nécessaire d'installer les applications / paquets suivants : 

  • Poppler (PDFto Text et PDFtoImages)
  • Tesseract
  • Elasticsearch

 

Il est possible d'installer Poppler et Tesseract (OCR) sur un serveur et Elasticsearch (Recherche plein texte) sur un autre serveur. Il est également possible d'installer l'ensemble sur le même serveur. Cela dépendra de la volumétrie et de la charge d'utilisation estimée.

 

1. Installation des modules pour l'OCR

Pour l'installation de Tesseract :


sudo apt-get install tesseract-ocr
sudo apt-get install tesseract-ocr-fra

Pour l'installation de poppler : 


sudo apt-get install poppler-utils

 

2. Installation des modules pour la recherche plein texte

Le fonctionnement d'Elasticsearch nécessite OpenJDK que l'on peut installer de la manière suivante : 


sudo apt-get install openjdk-11-jdk

 

Téléchargement et installation de la clé utilisée par Elasticsearch pour signer ses paquets :


wget -qO - https://artifacts.elastic.co/GPG-KEY-elasticsearch | sudo gpg --dearmor -o /usr/share/keyrings/elasticsearch-keyring.gpg

 

Installation des paquets suivants :


sudo apt-get install apt-transport-https
echo "deb [signed-by=/usr/share/keyrings/elasticsearch-keyring.gpg] https://artifacts.elastic.co/packages/8.x/apt stable main" | sudo tee /etc/apt/sources.list.d/elastic-8.x.list
sudo apt-get update && sudo apt-get install elasticsearch

 

Pour permettre le démarrage automatique d'Elasticsearch au redémarrage du serveur : 


sudo systemctl daemon-reload
sudo systemctl enable elasticsearch.service

 

Pour démarrer, arrêter et redémarrer Elasticsearch, on utilisera les commandes suivantes : 


sudo systemctl start elasticsearch.service
sudo systemctl stop elasticsearch.service
sudo systemctl restart elasticsearch.service

 

Il est nécessaire de paramétrer l'adresse IP d'écoute d'Elasticsearch (par défaut Elasticsearch n'est accessible que pour Localhost).
Cela se fait dans le fichier de configuration /etc/elasticsearch/elasticsearch.yml

Debian-Elastic2

Pour prendre en compte les modifications apportées au fichier de configuration, il est nécessaire de redémarrer Elasticsearch : 


sudo systemctl restart elasticsearch.service

P.S. : C'est également dans ce fichier que vous pouvez spécifier le port d'écoute (autre que le 9200 port par défaut)

 

Pour vérifier le fonctionnement d'Elasticsearch, on utilisera la commande suivante : 
(Par défaut Elasticsearch tourne sur le port 9200)


curl http://localhost:9200

 On obtient alors une réponse similaire à celle présentée ci-dessous : 

Debian-Elastic1

 

 

3. Paramétrage au sein de QALITEL

Une fois les installations ci-dessus réalisées, il vous faut paramétrer la configuration dans votre application QALITEL. Cela se fait au nivuea des "Préférences Globales" - menu "Configuration - Préférences Globales"

Plusieurs paramétrages sont possibles selon votre configuration d'installation : 

  1. QALITEL - Elasticsearch et Tesseract installés sur le même serveur
  2. QALITEL - Elasticsearch et Tesseract installés chacun sur un serveur différent

 

3.1. QALITEL - Elasticsearch et Tesseract installés sur le même serveur

Dans cette configuration, les différents champs de la rubrique "Archivage numérique" sont à paramétrer de la manière suivante  : 

  • Recherche plein texte ==> http://localhost
  • Installation du serveur OCR locale
    • Ne rien mentionner dans les 2 champs "Chemin des utilisataires PDF" et "Chemin de l'OCR"

 

Archivage

 

 

3.2. QALITEL - Elasticsearch et Tesseract installés chacun sur un serveur différent