fix models not persisting between restart

AlexanderVanhee · AlexanderVanhee · commit d2a9d3499c36 · 2025-09-27T13:44:03.000+02:00
diff --git a/gradia/backend/ocr.py b/gradia/backend/ocr.py
@@ -26,7 +26,7 @@
 from gradia.backend.logger import Logger
 from gradia.backend.settings import Settings
 from gradia.constants import app_id
-from gradia.constants import ocr_tesseract_cmd, ocr_original_tessdata, ocr_user_tessdata
+from gradia.constants import ocr_tesseract_cmd, ocr_original_tessdata
 
 
 logger = Logger()
@@ -63,7 +63,7 @@ class OCR:
     def __init__(self, window=None):
         self.tesseract_cmd = ocr_tesseract_cmd
         self.original_tessdata_dir = ocr_original_tessdata
-        self.user_tessdata_dir = ocr_user_tessdata
+        self.user_tessdata_dir = os.path.expanduser(f"~/.var/app/{app_id}/data/tessdata")
         self.window = window
 
         pytesseract.pytesseract.tesseract_cmd = self.tesseract_cmd
@@ -90,27 +90,21 @@ def set_current_model(self, model_code: str):
             logger.warning(f"Cannot set model {model_code}: not installed")
             raise ValueError(f"Model {model_code} is not installed")
 
-    def extract_text(self, image, primary_lang="eng", secondary_lang="eng"):
+    def extract_text(self, image, primary_lang):
         if not self.get_installed_models():
             raise RuntimeError("No OCR language models are available")
 
         if not self.is_model_installed(primary_lang):
-            available_models = self.get_installed_models()
-            if available_models:
-                primary_lang = available_models[0]
-                logger.warning(f"Requested language not available, using {primary_lang}")
-            else:
-                raise RuntimeError("No OCR language models are available")
+            raise RuntimeError(f"OCR language model '{primary_lang}' is not installed")
 
         self.set_current_model(primary_lang)
+
         try:
             tessdata_dir = self._get_tessdata_dir_for_lang(primary_lang)
             config = f'--tessdata-dir "{tessdata_dir}"'
-
-            if self.is_model_installed(secondary_lang) and secondary_lang != primary_lang:
-                lang = f"{primary_lang}+{secondary_lang}"
-            else:
-                lang = primary_lang
+            lang = primary_lang
+            if self.is_model_installed("eng") and primary_lang != "eng":
+                lang = f"{primary_lang}+eng"
 
             extracted_text = pytesseract.image_to_string(
                 image,
@@ -168,6 +162,7 @@ def on_download_complete(session, result, user_data):
 
                 with open(output_path, 'wb') as f:
                     f.write(raw_bytes)
+                    logger.info(f"saving to  {output_path} ")
 
                 logger.info(f"Downloaded OCR model: {model_code}")
                 self.set_current_model(model_code)
diff --git a/gradia/constants.in b/gradia/constants.in
@@ -33,4 +33,3 @@ help_url         = '@HELP_URL@'
 # OCR paths
 ocr_tesseract_cmd      = '@OCR_TESSERACT_CMD@'
 ocr_original_tessdata  = '@OCR_ORIGINAL_TESSDATA_DIR@'
-ocr_user_tessdata      = '@OCR_USER_TESSDATA_DIR@'
diff --git a/gradia/ui/dialog/ocr_dialog.py b/gradia/ui/dialog/ocr_dialog.py
@@ -37,7 +37,6 @@ def __init__(self, image=None, **kwargs):
         self.image = image
         self.ocr = OCR()
         self.primary_lang = "eng"
-        self.secondary_lang = None
         self._setup_language_button()
         self._start_ocr()
         self.ocr_text_view.remove_css_class("view")
diff --git a/meson.build b/meson.build
@@ -64,7 +64,6 @@ endif
 # OCR Directories
 OCR_TESSERACT_CMD = '/app/bin/tesseract'
 OCR_ORIGINAL_TESSDATA_DIR = '/app/share/tessdata'
-OCR_USER_TESSDATA_DIR = '~/.var/app' / APPLICATION_ID / 'data' / 'tessdata'
 
 # Install configuration data
 conf = configuration_data()
@@ -82,7 +81,6 @@ conf.set('BUILD_DIR', meson.current_build_dir())
 
 conf.set('OCR_TESSERACT_CMD', OCR_TESSERACT_CMD)
 conf.set('OCR_ORIGINAL_TESSDATA_DIR', OCR_ORIGINAL_TESSDATA_DIR)
-conf.set('OCR_USER_TESSDATA_DIR', OCR_USER_TESSDATA_DIR)
 
 # Install project information
 conf.set('RELEASE_VER', meson.project_version())