Безопасное распознавание текста на изображениях с помощью Cloud Vision с использованием аутентификации Firebase и функций на платформах Apple

Чтобы вызывать Google Cloud API из своего приложения, вам необходимо создать промежуточный REST API, который обрабатывает авторизацию и защищает секретные значения, такие как ключи API. Затем вам нужно написать код в своем мобильном приложении для аутентификации и связи с этой промежуточной службой.

Одним из способов создания этого REST API является использование проверки подлинности и функций Firebase, что дает вам управляемый бессерверный шлюз к Google Cloud API, который обрабатывает аутентификацию и может быть вызван из вашего мобильного приложения с предварительно созданными SDK.

В этом руководстве показано, как использовать этот метод для вызова API Cloud Vision из вашего приложения. Этот метод позволит всем аутентифицированным пользователям получать доступ к платным услугам Cloud Vision через ваш облачный проект, поэтому подумайте, достаточно ли этого механизма аутентификации для вашего варианта использования, прежде чем продолжить.

Прежде чем вы начнете

Настройте свой проект

Если вы еще не добавили Firebase в свое приложение, сделайте это, следуя инструкциям в руководстве по началу работы .

Используйте диспетчер пакетов Swift для установки и управления зависимостями Firebase.

  1. В Xcode при открытом проекте приложения перейдите в File > Add Packages .
  2. При появлении запроса добавьте репозиторий SDK Firebase для платформ Apple:
  3.   https://github.com/firebase/firebase-ios-sdk
  4. Выберите библиотеку Firebase ML.
  5. Когда закончите, Xcode автоматически начнет разрешать и загружать ваши зависимости в фоновом режиме.

Затем выполните некоторые настройки в приложении:

  1. В вашем приложении импортируйте Firebase:

    Быстрый

    import FirebaseMLModelDownloader

    Цель-C

    @import FirebaseMLModelDownloader;

Еще несколько шагов настройки, и мы готовы к работе:

  1. Если вы еще не включили облачные API для своего проекта, сделайте это сейчас:

    1. Откройте страницу API Firebase ML в консоли Firebase.
    2. Если вы еще не обновили свой проект до тарифного плана Blaze, нажмите «Обновить» , чтобы сделать это. (Вам будет предложено обновиться, только если ваш проект не входит в план Blaze.)

      Только проекты уровня Blaze могут использовать облачные API.

    3. Если облачные API еще не включены, щелкните Включить облачные API .
  2. Настройте существующие ключи Firebase API, чтобы запретить доступ к Cloud Vision API:
    1. Откройте страницу учетных данных облачной консоли.
    2. Для каждого ключа API в списке откройте режим редактирования и в разделе «Ограничения ключей» добавьте в список все доступные API, кроме Cloud Vision API.

Разверните вызываемую функцию

Затем разверните облачную функцию, которую вы будете использовать для соединения вашего приложения и API Cloud Vision. Репозиторий functions-samples содержит пример, который вы можете использовать.

По умолчанию при доступе к Cloud Vision API через эту функцию только прошедшие проверку подлинности пользователи вашего приложения получат доступ к Cloud Vision API. Вы можете изменить функцию для различных требований.

Чтобы развернуть функцию:

  1. Клонируйте или загрузите репозиторий functions-samples и перейдите в каталог Node-1st-gen/vision-annotate-image :
    git clone https://github.com/firebase/functions-samples
    cd Node-1st-gen/vision-annotate-image
    
  2. Установить зависимости:
    cd functions
    npm install
    cd ..
    
  3. Если у вас нет Firebase CLI, установите его .
  4. Инициализируйте проект Firebase в каталоге vision-annotate-image . При появлении запроса выберите свой проект в списке.
    firebase init
  5. Разверните функцию:
    firebase deploy --only functions:annotateImage

Добавьте аутентификацию Firebase в свое приложение

Вызываемая функция, развернутая выше, отклонит любой запрос от пользователей вашего приложения, не прошедших проверку подлинности. Если вы еще этого не сделали, вам нужно будет добавить Firebase Auth в свое приложение.

Добавьте необходимые зависимости в ваше приложение

Используйте диспетчер пакетов Swift для установки библиотеки Cloud Functions for Firebase.

Теперь вы готовы начать распознавать текст на изображениях.

1. Подготовьте входное изображение

Чтобы вызвать Cloud Vision, изображение должно быть отформатировано как строка в кодировке base64. Чтобы обработать UIImage :

Быстрый

guard let imageData = uiImage.jpegData(compressionQuality: 1.0f) else { return }
let base64encodedImage = imageData.base64EncodedString()

Цель-C

NSData *imageData = UIImageJPEGRepresentation(uiImage, 1.0f);
NSString *base64encodedImage =
  [imageData base64EncodedStringWithOptions:NSDataBase64Encoding76CharacterLineLength];

2. Вызвать вызываемую функцию для распознавания текста

Чтобы распознать ориентиры на изображении, вызовите вызываемую функцию, передав запрос JSON Cloud Vision .

  1. Сначала инициализируйте экземпляр Cloud Functions:

    Быстрый

    lazy var functions = Functions.functions()
    

    Цель-C

    @property(strong, nonatomic) FIRFunctions *functions;
    
  2. Создайте запрос. API Cloud Vision поддерживает два типа обнаружения текста: TEXT_DETECTION и DOCUMENT_TEXT_DETECTION . См. документы Cloud Vision OCR , чтобы узнать о различиях между двумя вариантами использования.

    Быстрый

    let requestData = [
      "image": ["content": base64encodedImage],
      "features": ["type": "TEXT_DETECTION"],
      "imageContext": ["languageHints": ["en"]]
    ]
    

    Цель-C

    NSDictionary *requestData = @{
      @"image": @{@"content": base64encodedImage},
      @"features": @{@"type": @"TEXT_DETECTION"},
      @"imageContext": @{@"languageHints": @[@"en"]}
    };
    
  3. Наконец, вызовите функцию:

    Быстрый

    functions.httpsCallable("annotateImage").call(requestData) { (result, error) in
      if let error = error as NSError? {
        if error.domain == FunctionsErrorDomain {
          let code = FunctionsErrorCode(rawValue: error.code)
          let message = error.localizedDescription
          let details = error.userInfo[FunctionsErrorDetailsKey]
        }
        // ...
      }
      // Function completed successfully
    }
    

    Цель-C

    [[_functions HTTPSCallableWithName:@"annotateImage"]
                              callWithObject:requestData
                                  completion:^(FIRHTTPSCallableResult * _Nullable result, NSError * _Nullable error) {
            if (error) {
              if (error.domain == FIRFunctionsErrorDomain) {
                FIRFunctionsErrorCode code = error.code;
                NSString *message = error.localizedDescription;
                NSObject *details = error.userInfo[FIRFunctionsErrorDetailsKey];
              }
              // ...
            }
            // Function completed succesfully
            // Get information about labeled objects
    
          }];
    

3. Извлечение текста из блоков распознанного текста

Если операция распознавания текста завершится успешно, ответ BatchAnnotateImagesResponse в формате JSON будет возвращен в результате выполнения задачи. Текстовые аннотации можно найти в объекте fullTextAnnotation .

Вы можете получить распознанный текст в виде строки в text поле. Например:

Быстрый

guard let annotation = (result?.data as? [String: Any])?["fullTextAnnotation"] as? [String: Any] else { return }
print("%nComplete annotation:")
let text = annotation["text"] as? String ?? ""
print("%n\(text)")

Цель-C

NSDictionary *annotation = result.data[@"fullTextAnnotation"];
if (!annotation) { return; }
NSLog(@"\nComplete annotation:");
NSLog(@"\n%@", annotation[@"text"]);

Вы также можете получить информацию, относящуюся к областям изображения. Для каждого block , paragraph , word и symbol вы можете получить текст, распознаваемый в регионе, и ограничивающие координаты региона. Например:

Быстрый

guard let pages = annotation["pages"] as? [[String: Any]] else { return }
for page in pages {
var pageText = ""
guard let blocks = page["blocks"] as? [[String: Any]] else { continue }
for block in blocks {
    var blockText = ""
    guard let paragraphs = block["paragraphs"] as? [[String: Any]] else { continue }
    for paragraph in paragraphs {
    var paragraphText = ""
    guard let words = paragraph["words"] as? [[String: Any]] else { continue }
    for word in words {
        var wordText = ""
        guard let symbols = word["symbols"] as? [[String: Any]] else { continue }
        for symbol in symbols {
        let text = symbol["text"] as? String ?? ""
        let confidence = symbol["confidence"] as? Float ?? 0.0
        wordText += text
        print("Symbol text: \(text) (confidence: \(confidence)%n")
        }
        let confidence = word["confidence"] as? Float ?? 0.0
        print("Word text: \(wordText) (confidence: \(confidence)%n%n")
        let boundingBox = word["boundingBox"] as? [Float] ?? [0.0, 0.0, 0.0, 0.0]
        print("Word bounding box: \(boundingBox.description)%n")
        paragraphText += wordText
    }
    print("%nParagraph: %n\(paragraphText)%n")
    let boundingBox = paragraph["boundingBox"] as? [Float] ?? [0.0, 0.0, 0.0, 0.0]
    print("Paragraph bounding box: \(boundingBox)%n")
    let confidence = paragraph["confidence"] as? Float ?? 0.0
    print("Paragraph Confidence: \(confidence)%n")
    blockText += paragraphText
    }
    pageText += blockText
}

Цель-C

for (NSDictionary *page in annotation[@"pages"]) {
  NSMutableString *pageText = [NSMutableString new];
  for (NSDictionary *block in page[@"blocks"]) {
    NSMutableString *blockText = [NSMutableString new];
    for (NSDictionary *paragraph in block[@"paragraphs"]) {
      NSMutableString *paragraphText = [NSMutableString new];
      for (NSDictionary *word in paragraph[@"words"]) {
        NSMutableString *wordText = [NSMutableString new];
        for (NSDictionary *symbol in word[@"symbols"]) {
          NSString *text = symbol[@"text"];
          [wordText appendString:text];
          NSLog(@"Symbol text: %@ (confidence: %@\n", text, symbol[@"confidence"]);
        }
        NSLog(@"Word text: %@ (confidence: %@\n\n", wordText, word[@"confidence"]);
        NSLog(@"Word bounding box: %@\n", word[@"boundingBox"]);
        [paragraphText appendString:wordText];
      }
      NSLog(@"\nParagraph: \n%@\n", paragraphText);
      NSLog(@"Paragraph bounding box: %@\n", paragraph[@"boundingBox"]);
      NSLog(@"Paragraph Confidence: %@\n", paragraph[@"confidence"]);
      [blockText appendString:paragraphText];
    }
    [pageText appendString:blockText];
  }
}
,

Чтобы вызывать Google Cloud API из своего приложения, вам необходимо создать промежуточный REST API, который обрабатывает авторизацию и защищает секретные значения, такие как ключи API. Затем вам нужно написать код в своем мобильном приложении для аутентификации и связи с этой промежуточной службой.

Одним из способов создания этого REST API является использование проверки подлинности и функций Firebase, что дает вам управляемый бессерверный шлюз к облачным API Google, который обрабатывает аутентификацию и может быть вызван из вашего мобильного приложения с предварительно созданными SDK.

В этом руководстве показано, как использовать этот метод для вызова API Cloud Vision из вашего приложения. Этот метод позволит всем аутентифицированным пользователям получать доступ к платным услугам Cloud Vision через ваш облачный проект, поэтому подумайте, достаточно ли этого механизма аутентификации для вашего варианта использования, прежде чем продолжить.

Прежде чем вы начнете

Настройте свой проект

Если вы еще не добавили Firebase в свое приложение, сделайте это, следуя инструкциям в руководстве по началу работы .

Используйте диспетчер пакетов Swift для установки и управления зависимостями Firebase.

  1. В Xcode при открытом проекте приложения перейдите в File > Add Packages .
  2. При появлении запроса добавьте репозиторий SDK Firebase для платформ Apple:
  3.   https://github.com/firebase/firebase-ios-sdk
  4. Выберите библиотеку Firebase ML.
  5. Когда закончите, Xcode автоматически начнет разрешать и загружать ваши зависимости в фоновом режиме.

Затем выполните некоторые настройки в приложении:

  1. В вашем приложении импортируйте Firebase:

    Быстрый

    import FirebaseMLModelDownloader

    Цель-C

    @import FirebaseMLModelDownloader;

Еще несколько шагов настройки, и мы готовы к работе:

  1. Если вы еще не включили облачные API для своего проекта, сделайте это сейчас:

    1. Откройте страницу API Firebase ML в консоли Firebase.
    2. Если вы еще не обновили свой проект до тарифного плана Blaze, нажмите «Обновить» , чтобы сделать это. (Вам будет предложено обновиться, только если ваш проект не входит в план Blaze.)

      Только проекты уровня Blaze могут использовать облачные API.

    3. Если облачные API еще не включены, щелкните Включить облачные API .
  2. Настройте существующие ключи Firebase API, чтобы запретить доступ к Cloud Vision API:
    1. Откройте страницу учетных данных облачной консоли.
    2. Для каждого ключа API в списке откройте режим редактирования и в разделе «Ограничения ключей» добавьте в список все доступные API, кроме Cloud Vision API.

Разверните вызываемую функцию

Затем разверните облачную функцию, которую вы будете использовать для соединения вашего приложения и API Cloud Vision. Репозиторий functions-samples содержит пример, который вы можете использовать.

По умолчанию при доступе к Cloud Vision API через эту функцию только прошедшие проверку подлинности пользователи вашего приложения получат доступ к Cloud Vision API. Вы можете изменить функцию для различных требований.

Чтобы развернуть функцию:

  1. Клонируйте или загрузите репозиторий functions-samples и перейдите в каталог Node-1st-gen/vision-annotate-image :
    git clone https://github.com/firebase/functions-samples
    cd Node-1st-gen/vision-annotate-image
    
  2. Установить зависимости:
    cd functions
    npm install
    cd ..
    
  3. Если у вас нет Firebase CLI, установите его .
  4. Инициализируйте проект Firebase в каталоге vision-annotate-image . При появлении запроса выберите свой проект в списке.
    firebase init
  5. Разверните функцию:
    firebase deploy --only functions:annotateImage

Добавьте аутентификацию Firebase в свое приложение

Вызываемая функция, развернутая выше, отклонит любой запрос от пользователей вашего приложения, не прошедших проверку подлинности. Если вы еще этого не сделали, вам нужно будет добавить Firebase Auth в свое приложение.

Добавьте необходимые зависимости в ваше приложение

Используйте диспетчер пакетов Swift для установки библиотеки Cloud Functions for Firebase.

Теперь вы готовы начать распознавать текст на изображениях.

1. Подготовьте входное изображение

Чтобы вызвать Cloud Vision, изображение должно быть отформатировано как строка в кодировке base64. Чтобы обработать UIImage :

Быстрый

guard let imageData = uiImage.jpegData(compressionQuality: 1.0f) else { return }
let base64encodedImage = imageData.base64EncodedString()

Цель-C

NSData *imageData = UIImageJPEGRepresentation(uiImage, 1.0f);
NSString *base64encodedImage =
  [imageData base64EncodedStringWithOptions:NSDataBase64Encoding76CharacterLineLength];

2. Вызвать вызываемую функцию для распознавания текста

Чтобы распознать ориентиры на изображении, вызовите вызываемую функцию, передав запрос JSON Cloud Vision .

  1. Сначала инициализируйте экземпляр Cloud Functions:

    Быстрый

    lazy var functions = Functions.functions()
    

    Цель-C

    @property(strong, nonatomic) FIRFunctions *functions;
    
  2. Создайте запрос. API Cloud Vision поддерживает два типа обнаружения текста: TEXT_DETECTION и DOCUMENT_TEXT_DETECTION . См. документы Cloud Vision OCR , чтобы узнать о различиях между двумя вариантами использования.

    Быстрый

    let requestData = [
      "image": ["content": base64encodedImage],
      "features": ["type": "TEXT_DETECTION"],
      "imageContext": ["languageHints": ["en"]]
    ]
    

    Цель-C

    NSDictionary *requestData = @{
      @"image": @{@"content": base64encodedImage},
      @"features": @{@"type": @"TEXT_DETECTION"},
      @"imageContext": @{@"languageHints": @[@"en"]}
    };
    
  3. Наконец, вызовите функцию:

    Быстрый

    functions.httpsCallable("annotateImage").call(requestData) { (result, error) in
      if let error = error as NSError? {
        if error.domain == FunctionsErrorDomain {
          let code = FunctionsErrorCode(rawValue: error.code)
          let message = error.localizedDescription
          let details = error.userInfo[FunctionsErrorDetailsKey]
        }
        // ...
      }
      // Function completed successfully
    }
    

    Цель-C

    [[_functions HTTPSCallableWithName:@"annotateImage"]
                              callWithObject:requestData
                                  completion:^(FIRHTTPSCallableResult * _Nullable result, NSError * _Nullable error) {
            if (error) {
              if (error.domain == FIRFunctionsErrorDomain) {
                FIRFunctionsErrorCode code = error.code;
                NSString *message = error.localizedDescription;
                NSObject *details = error.userInfo[FIRFunctionsErrorDetailsKey];
              }
              // ...
            }
            // Function completed succesfully
            // Get information about labeled objects
    
          }];
    

3. Извлечение текста из блоков распознанного текста

Если операция распознавания текста завершится успешно, ответ BatchAnnotateImagesResponse в формате JSON будет возвращен в результате выполнения задачи. Текстовые аннотации можно найти в объекте fullTextAnnotation .

Вы можете получить распознанный текст в виде строки в text поле. Например:

Быстрый

guard let annotation = (result?.data as? [String: Any])?["fullTextAnnotation"] as? [String: Any] else { return }
print("%nComplete annotation:")
let text = annotation["text"] as? String ?? ""
print("%n\(text)")

Цель-C

NSDictionary *annotation = result.data[@"fullTextAnnotation"];
if (!annotation) { return; }
NSLog(@"\nComplete annotation:");
NSLog(@"\n%@", annotation[@"text"]);

Вы также можете получить информацию, относящуюся к областям изображения. Для каждого block , paragraph , word и symbol вы можете получить текст, распознаваемый в регионе, и ограничивающие координаты региона. Например:

Быстрый

guard let pages = annotation["pages"] as? [[String: Any]] else { return }
for page in pages {
var pageText = ""
guard let blocks = page["blocks"] as? [[String: Any]] else { continue }
for block in blocks {
    var blockText = ""
    guard let paragraphs = block["paragraphs"] as? [[String: Any]] else { continue }
    for paragraph in paragraphs {
    var paragraphText = ""
    guard let words = paragraph["words"] as? [[String: Any]] else { continue }
    for word in words {
        var wordText = ""
        guard let symbols = word["symbols"] as? [[String: Any]] else { continue }
        for symbol in symbols {
        let text = symbol["text"] as? String ?? ""
        let confidence = symbol["confidence"] as? Float ?? 0.0
        wordText += text
        print("Symbol text: \(text) (confidence: \(confidence)%n")
        }
        let confidence = word["confidence"] as? Float ?? 0.0
        print("Word text: \(wordText) (confidence: \(confidence)%n%n")
        let boundingBox = word["boundingBox"] as? [Float] ?? [0.0, 0.0, 0.0, 0.0]
        print("Word bounding box: \(boundingBox.description)%n")
        paragraphText += wordText
    }
    print("%nParagraph: %n\(paragraphText)%n")
    let boundingBox = paragraph["boundingBox"] as? [Float] ?? [0.0, 0.0, 0.0, 0.0]
    print("Paragraph bounding box: \(boundingBox)%n")
    let confidence = paragraph["confidence"] as? Float ?? 0.0
    print("Paragraph Confidence: \(confidence)%n")
    blockText += paragraphText
    }
    pageText += blockText
}

Цель-C

for (NSDictionary *page in annotation[@"pages"]) {
  NSMutableString *pageText = [NSMutableString new];
  for (NSDictionary *block in page[@"blocks"]) {
    NSMutableString *blockText = [NSMutableString new];
    for (NSDictionary *paragraph in block[@"paragraphs"]) {
      NSMutableString *paragraphText = [NSMutableString new];
      for (NSDictionary *word in paragraph[@"words"]) {
        NSMutableString *wordText = [NSMutableString new];
        for (NSDictionary *symbol in word[@"symbols"]) {
          NSString *text = symbol[@"text"];
          [wordText appendString:text];
          NSLog(@"Symbol text: %@ (confidence: %@\n", text, symbol[@"confidence"]);
        }
        NSLog(@"Word text: %@ (confidence: %@\n\n", wordText, word[@"confidence"]);
        NSLog(@"Word bounding box: %@\n", word[@"boundingBox"]);
        [paragraphText appendString:wordText];
      }
      NSLog(@"\nParagraph: \n%@\n", paragraphText);
      NSLog(@"Paragraph bounding box: %@\n", paragraph[@"boundingBox"]);
      NSLog(@"Paragraph Confidence: %@\n", paragraph[@"confidence"]);
      [blockText appendString:paragraphText];
    }
    [pageText appendString:blockText];
  }
}