Join us for Firebase Summit on November 10, 2021. Tune in to learn how Firebase can help you accelerate app development, release with confidence, and scale with ease. Register

Безопасное распознавание текста в изображениях с помощью Cloud Vision с использованием Firebase Auth и функций на iOS

Чтобы вызвать Google Cloud API из вашего приложения, вам необходимо создать промежуточный REST API, который обрабатывает авторизацию и защищает секретные значения, такие как ключи API. Затем вам нужно написать код в своем мобильном приложении для аутентификации и связи с этой промежуточной службой.

Один из способов создания этого REST API - использовать Firebase Authentication and Functions, что дает вам управляемый бессерверный шлюз к Google Cloud API, который обрабатывает аутентификацию и может быть вызван из вашего мобильного приложения с предварительно созданными SDK.

В этом руководстве показано, как использовать этот метод для вызова API Cloud Vision из вашего приложения. Этот метод позволит всем аутентифицированным пользователям получать доступ к платным сервисам Cloud Vision через ваш облачный проект, поэтому прежде чем продолжить, подумайте, достаточно ли этого механизма аутентификации для вашего варианта использования.

Прежде чем вы начнете

Сконфигурируйте свой проект

  1. Если вы еще не добавили Firebase в ваше приложение, сделать это, следуя инструкциям , приведенным в руководстве Приступая к работе .
  2. Включите Firebase в вашей Podfile: После установки или обновления Бобы вашего проекта, не забудьте открыть свой проект Xcode , используя его .xcworkspace .
  3. В своем приложении импортируйте Firebase:

    Быстрый

    import Firebase

    Цель-C

    @import Firebase;
  4. Если вы еще не включили облачные API для своего проекта, сделайте это сейчас:

    1. Откройте страницу Firebase ML APIs консоли Firebase.
    2. Если вы еще не модернизировал свой проект в плане ценовой Blaze, нажмите кнопку Обновить , чтобы сделать это. (Вам будет предложено выполнить обновление, только если ваш проект не входит в план Blaze.)

      Только проекты уровня Blaze могут использовать облачные API.

    3. Если API - интерфейсы на основе облака еще не включен, нажмите Включить API для облачных вычислений.
  5. Настройте существующие ключи Firebase API, чтобы запретить доступ к Cloud Vision API:
    1. Откройте Credentials страницу консоли Cloud.
    2. Для каждого ключа API в списке, откройте редактирование вид, и в разделе Основные Ограничения, добавить все доступные API , кроме Cloud API Видения к списку.

Разверните вызываемую функцию

Затем разверните облачную функцию, которую вы будете использовать для соединения вашего приложения и Cloud Vision API. functions-samples хранилище содержит пример , который вы можете использовать.

По умолчанию доступ к Cloud Vision API через эту функцию разрешает только аутентифицированным пользователям вашего приложения доступ к Cloud Vision API. Вы можете изменить функцию для различных требований.

Чтобы развернуть функцию:

  1. Клон или загрузить функции-образцы репо и изменения в vision-annotate-image каталога:
    git clone https://github.com/firebase/functions-samples
    cd vision-annotate-image
    
  2. Установка зависимостей:
    cd functions
    npm install
    cd ..
    
  3. Если вы не имеете Firebase CLI, установите его .
  4. Инициализировать проект Firebase в vision-annotate-image каталога. При появлении запроса выберите свой проект в списке.
    firebase init
  5. Развертывание функции:
    firebase deploy --only functions:annotateImage

Добавьте Firebase Auth в свое приложение

Вызываемая функция, развернутая выше, отклонит любой запрос от неаутентифицированных пользователей вашего приложения. Если вы еще не сделали этого, вам нужно будет добавить Firebase Auth к вашему приложению.

Добавьте необходимые зависимости в ваше приложение

  1. Добавьте зависимости для функций библиотеки Firebase вашей Podfile:
    pod 'Firebase/Functions'
  2. Установка зависимостей:
    pod install

Теперь вы готовы начать распознавать текст на изображениях.

1. Подготовьте входное изображение.

Чтобы вызвать Cloud Vision, изображение должно быть отформатировано как строка в кодировке base64. Для обработки UIImage :

Быстрый

guard let imageData = uiImage.jpegData(compressionQuality: 1.0f) else { return }
let base64encodedImage = imageData.base64EncodedString()

Цель-C

NSData *imageData = UIImageJPEGRepresentation(uiImage, 1.0f);
NSString *base64encodedImage =
  [imageData base64EncodedStringWithOptions:NSDataBase64Encoding76CharacterLineLength];

2. Вызов вызываемой функции для распознавания текста.

Признать ориентиры в образе, вызовите вызываемую функцию , проходящую в запрос JSON Cloud видения .

  1. Сначала инициализируйте экземпляр облачных функций:

    Быстрый

    lazy var functions = Functions.functions()
    

    Цель-C

    @property(strong, nonatomic) FIRFunctions *functions;
    
  2. Создайте заявку. Облако Зрение API поддерживает два Типы обнаружения текста: TEXT_DETECTION и DOCUMENT_TEXT_DETECTION . Смотрите Облако Вижна OCR Docs разницы между этими двумя случаями использования.

    Быстрый

    let requestData = [
      "image": ["content": base64encodedImage],
      "features": ["type": "TEXT_DETECTION"],
      "imageContext": ["languageHints": ["en"]]
    ]
    

    Цель-C

    NSDictionary *requestData = @{
      @"image": @{@"content": base64encodedImage},
      @"features": @{@"type": @"TEXT_DETECTION"},
      @"imageContext": @{@"languageHints": @[@"en"]}
    };
    
  3. Наконец, вызовите функцию:

    Быстрый

    functions.httpsCallable("annotateImage").call(requestData) { (result, error) in
      if let error = error as NSError? {
        if error.domain == FunctionsErrorDomain {
          let code = FunctionsErrorCode(rawValue: error.code)
          let message = error.localizedDescription
          let details = error.userInfo[FunctionsErrorDetailsKey]
        }
        // ...
      }
      // Function completed succesfully
    }
    

    Цель-C

    [[_functions HTTPSCallableWithName:@"annotateImage"]
                              callWithObject:requestData
                                  completion:^(FIRHTTPSCallableResult * _Nullable result, NSError * _Nullable error) {
            if (error) {
              if (error.domain == FIRFunctionsErrorDomain) {
                FIRFunctionsErrorCode code = error.code;
                NSString *message = error.localizedDescription;
                NSObject *details = error.userInfo[FIRFunctionsErrorDetailsKey];
              }
              // ...
            }
            // Function completed succesfully
            // Get information about labeled objects
    
          }];
    

3. Извлечь текст из блоков распознанного текста.

Если операция распознавания текста завершается успешно, ответ JSON из BatchAnnotateImagesResponse будет возвращен в результате этой задачи. Текстовые аннотации могут быть найдены в fullTextAnnotation объекте.

Вы можете получить распознанный текст в виде строки в text поле. Например:

Быстрый

guard let annotation = (result?.data as? [String: Any])?["fullTextAnnotation"] as? [String: Any] else { return }
print("%nComplete annotation:")
let text = annotation["text"] as? String ?? ""
print("%n\(text)")

Цель-C

NSDictionary *annotation = result.data[@"fullTextAnnotation"];
if (!annotation) { return; }
NSLog(@"\nComplete annotation:");
NSLog(@"\n%@", annotation[@"text"]);

Вы также можете получить информацию, относящуюся к регионам изображения. Для каждого block , paragraph , word , и symbol , вы можете получить текст , признанный в регионе и ограничивающую координату области. Например:

Быстрый

guard let pages = annotation["pages"] as? [[String: Any]] else { return }
for page in pages {
var pageText = ""
guard let blocks = page["blocks"] as? [[String: Any]] else { continue }
for block in blocks {
    var blockText = ""
    guard let paragraphs = block["paragraphs"] as? [[String: Any]] else { continue }
    for paragraph in paragraphs {
    var paragraphText = ""
    guard let words = paragraph["words"] as? [[String: Any]] else { continue }
    for word in words {
        var wordText = ""
        guard let symbols = word["symbols"] as? [[String: Any]] else { continue }
        for symbol in symbols {
        let text = symbol["text"] as? String ?? ""
        let confidence = symbol["confidence"] as? Float ?? 0.0
        wordText += text
        print("Symbol text: \(text) (confidence: \(confidence)%n")
        }
        let confidence = word["confidence"] as? Float ?? 0.0
        print("Word text: \(wordText) (confidence: \(confidence)%n%n")
        let boundingBox = word["boundingBox"] as? [Float] ?? [0.0, 0.0, 0.0, 0.0]
        print("Word bounding box: \(boundingBox.description)%n")
        paragraphText += wordText
    }
    print("%nParagraph: %n\(paragraphText)%n")
    let boundingBox = paragraph["boundingBox"] as? [Float] ?? [0.0, 0.0, 0.0, 0.0]
    print("Paragraph bounding box: \(boundingBox)%n")
    let confidence = paragraph["confidence"] as? Float ?? 0.0
    print("Paragraph Confidence: \(confidence)%n")
    blockText += paragraphText
    }
    pageText += blockText
}

Цель-C

for (NSDictionary *page in annotation[@"pages"]) {
  NSMutableString *pageText = [NSMutableString new];
  for (NSDictionary *block in page[@"blocks"]) {
    NSMutableString *blockText = [NSMutableString new];
    for (NSDictionary *paragraph in block[@"paragraphs"]) {
      NSMutableString *paragraphText = [NSMutableString new];
      for (NSDictionary *word in paragraph[@"words"]) {
        NSMutableString *wordText = [NSMutableString new];
        for (NSDictionary *symbol in word[@"symbols"]) {
          NSString *text = symbol[@"text"];
          [wordText appendString:text];
          NSLog(@"Symbol text: %@ (confidence: %@\n", text, symbol[@"confidence"]);
        }
        NSLog(@"Word text: %@ (confidence: %@\n\n", wordText, word[@"confidence"]);
        NSLog(@"Word bounding box: %@\n", word[@"boundingBox"]);
        [paragraphText appendString:wordText];
      }
      NSLog(@"\nParagraph: \n%@\n", paragraphText);
      NSLog(@"Paragraph bounding box: %@\n", paragraph[@"boundingBox"]);
      NSLog(@"Paragraph Confidence: %@\n", paragraph[@"confidence"]);
      [blockText appendString:paragraphText];
    }
    [pageText appendString:blockText];
  }
}