Firebase is back at Google I/O on May 20-21! Register now.

Ta strona została przetłumaczona przez Cloud Translation API.

Rozpoznawanie tekstu w obrazach za pomocą Firebase ML w iOS
bookmark_border Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Możesz użyć Firebase ML, aby rozpoznać tekst na obrazach. Firebase ML zawiera zarówno interfejs API ogólnego przeznaczenia do rozpoznawania tekstu na obrazach, na przykład tekstu na znaku drogowym, jak i interfejs API zoptymalizowany do rozpoznawania tekstu w dokumentach.

Zanim zaczniesz

przewodniku dla początkujących

Do instalacji zależności Firebase i zarządzania nimi możesz używać menedżera pakietów Swift.

Po otwarciu projektu aplikacji w Xcode wybierz Plik > Dodaj pakiety.
Gdy pojawi się prośba, dodaj repozytorium pakietu SDK Firebase na platformy Apple:

  https://github.com/firebase/firebase-ios-sdk.git

Wybierz bibliotekę Firebase ML.
Dodaj flagę -ObjC do sekcji Inne flagi linkera w ustawieniach kompilacji docelowej.
Gdy to zrobisz, Xcode automatycznie zacznie wyszukiwać i pobierać zależności w tle.

Następnie skonfiguruj aplikację:

W aplikacji zaimportuj Firebase:

SwiftObjective-C

import FirebaseMLModelDownloader

@import FirebaseMLModelDownloader;

Jeśli interfejsy API oparte na chmurze nie są jeszcze włączone w Twoim projekcie, zrób to teraz:
1. Otwórz stronę Firebase ML Interfejsy API w konsoli Firebase.
2. Jeśli nie przeszedłeś(-aś) jeszcze na abonament Blaze z modelem płatności „pay-as-you-go”, kliknij Przejdź na wyższy abonament. (Prośba o przejście na wyższy abonament pojawi się tylko wtedy, gdy Twój projekt nie jest objęty abonamentem Blaze).
  
  Interfejsów API w chmurze mogą używać tylko projekty korzystające z abonamentu Blaze.
3. Jeśli interfejsy API oparte na chmurze nie są jeszcze włączone, kliknij Włącz interfejsy API oparte na chmurze.
Zanim wdrożysz w wersji produkcyjnej aplikację korzystającą z interfejsu Cloud API, wykonaj dodatkowe czynności, aby zapobiec nieautoryzowanemu dostępowi do interfejsu API i zmniejszyć jego skutki.

Możesz teraz zacząć rozpoznawać tekst na obrazach.

Wskazówki dotyczące obrazów

Aby usługa Firebase ML mogła dokładnie rozpoznawać tekst, obrazy wejściowe muszą zawierać tekst reprezentowany przez wystarczającą ilość danych pikseli. W przypadku tekstu łacińskiego każdy znak powinien mieć wymiary co najmniej 16 x 16 pikseli. W przypadku tekstu w języku chińskim, japońskim lub koreańskim każdy znak powinien mieć wymiary 24 x 24 piksele. W przypadku wszystkich języków znaki większe niż 24 x 24 piksele nie zapewniają ogólnie lepszej dokładności.

Na przykład obraz o wymiarach 640 x 480 może się dobrze sprawdzić do zeskanowania wizytówki, która zajmuje całą szerokość obrazu. Aby zeskanować dokument wydrukowany na papierze w formacie Letter, może być wymagany obraz o rozmiarze 720 × 1280 pikseli.
Złe skupienie obrazu może obniżyć dokładność rozpoznawania tekstu. Jeśli nie uzyskujesz zadowalających wyników, poproś użytkownika o ponowne zrobienie zdjęcia.

Rozpoznawanie tekstu w obrazach

Aby rozpoznać tekst na obrazie, uruchom rozpoznawanie tekstu w sposób opisany poniżej.

1. Uruchom rozpoznawanie tekstu

Przekaż obraz jako UIImage lub CMSampleBufferRef do metody process(_:completion:) w komponencie VisionTextRecognizer:

Uzyskaj instancję VisionTextRecognizer, wywołując funkcję cloudTextRecognizer:

SwiftObjective-C

let vision = Vision.vision()
let textRecognizer = vision.cloudTextRecognizer()

// Or, to provide language hints to assist with language detection:
// See https://cloud.google.com/vision/docs/languages for supported languages
let options = VisionCloudTextRecognizerOptions()
options.languageHints = ["en", "hi"]
let textRecognizer = vision.cloudTextRecognizer(options: options)

FIRVision *vision = [FIRVision vision];
FIRVisionTextRecognizer *textRecognizer = [vision cloudTextRecognizer];

// Or, to provide language hints to assist with language detection:
// See https://cloud.google.com/vision/docs/languages for supported languages
FIRVisionCloudTextRecognizerOptions *options =
        [[FIRVisionCloudTextRecognizerOptions alloc] init];
options.languageHints = @[@"en", @"hi"];
FIRVisionTextRecognizer *textRecognizer = [vision cloudTextRecognizerWithOptions:options];

Aby wywołać Cloud Vision, obraz musi mieć format ciągu tekstowego z kodowaniem Base64. Aby przetworzyć UIImage:

SwiftObjective-C

guard let imageData = uiImage.jpegData(compressionQuality: 1.0) else { return }
let base64encodedImage = imageData.base64EncodedString()

NSData *imageData = UIImageJPEGRepresentation(uiImage, 1.0f);
NSString *base64encodedImage =
  [imageData base64EncodedStringWithOptions:NSDataBase64Encoding76CharacterLineLength];

Następnie przekaż obraz metodzie process(_:completion:):

SwiftObjective-C

textRecognizer.process(visionImage) { result, error in
  guard error == nil, let result = result else {
    // ...
    return
  }

  // Recognized text
}

[textRecognizer processImage:image
                  completion:^(FIRVisionText *_Nullable result,
                               NSError *_Nullable error) {
  if (error != nil || result == nil) {
    // ...
    return;
  }

  // Recognized text
}];

2. Wyodrębnianie tekstu z bloków rozpoznanego tekstu

Jeśli operacja rozpoznawania tekstu się powiedzie, zwróci obiekt VisionText. Obiekt VisionText zawiera cały tekst rozpoznany na obrazie oraz co najmniej VisionTextBlockobiekty.

Każdy element VisionTextBlock reprezentuje prostokątny blok tekstu, który zawiera co najmniej 0 obiektów VisionTextLine. Każdy obiekt VisionTextLine zawiera co najmniej 1 obiekt VisionTextElement, który reprezentuje słowa i elementy podobne do słów (np. daty, liczby itp.).

W przypadku każdego obiektu VisionTextBlock, VisionTextLine i VisionTextElement możesz uzyskać tekst rozpoznany w regionie oraz współrzędne ograniczające tego regionu.

Przykład:

SwiftObjective-C

let resultText = result.text
for block in result.blocks {
    let blockText = block.text
    let blockConfidence = block.confidence
    let blockLanguages = block.recognizedLanguages
    let blockCornerPoints = block.cornerPoints
    let blockFrame = block.frame
    for line in block.lines {
        let lineText = line.text
        let lineConfidence = line.confidence
        let lineLanguages = line.recognizedLanguages
        let lineCornerPoints = line.cornerPoints
        let lineFrame = line.frame
        for element in line.elements {
            let elementText = element.text
            let elementConfidence = element.confidence
            let elementLanguages = element.recognizedLanguages
            let elementCornerPoints = element.cornerPoints
            let elementFrame = element.frame
        }
    }
}

NSString *resultText = result.text;
for (FIRVisionTextBlock *block in result.blocks) {
  NSString *blockText = block.text;
  NSNumber *blockConfidence = block.confidence;
  NSArray<FIRVisionTextRecognizedLanguage *> *blockLanguages = block.recognizedLanguages;
  NSArray<NSValue *> *blockCornerPoints = block.cornerPoints;
  CGRect blockFrame = block.frame;
  for (FIRVisionTextLine *line in block.lines) {
    NSString *lineText = line.text;
    NSNumber *lineConfidence = line.confidence;
    NSArray<FIRVisionTextRecognizedLanguage *> *lineLanguages = line.recognizedLanguages;
    NSArray<NSValue *> *lineCornerPoints = line.cornerPoints;
    CGRect lineFrame = line.frame;
    for (FIRVisionTextElement *element in line.elements) {
      NSString *elementText = element.text;
      NSNumber *elementConfidence = element.confidence;
      NSArray<FIRVisionTextRecognizedLanguage *> *elementLanguages = element.recognizedLanguages;
      NSArray<NSValue *> *elementCornerPoints = element.cornerPoints;
      CGRect elementFrame = element.frame;
    }
  }
}

Dalsze kroki

Zanim wdrożysz w wersji produkcyjnej aplikację, która korzysta z Cloud API, wykonaj dodatkowe czynności, aby zapobiec nieautoryzowanemu dostępowi do interfejsu API i zmniejszyć jego skutki.

Rozpoznawanie tekstu na obrazach dokumentów

Aby rozpoznać tekst dokumentu, skonfiguruj i uruchom rozpoznawacza tekstu w dokumencie zgodnie z opisem poniżej.

Opisywany poniżej interfejs API do rozpoznawania tekstu w dokumentach zapewnia wygodniejsze działanie w przypadku obrazów dokumentów. Jeśli jednak wolisz interfejs udostępniany przez interfejs API Sparse Text, możesz zamiast tego skanować dokumenty, konfigurując narzędzie do rozpoznawania tekstu w chmurze tak, aby używało modelu gęstego tekstu.

Aby użyć interfejsu API rozpoznawania tekstu w dokumentach:

1. Uruchom rozpoznawanie tekstu

Przekaż obraz jako UIImage lub CMSampleBufferRef do metody process(_:completion:) w komponencie VisionDocumentTextRecognizer:

Uzyskaj instancję VisionDocumentTextRecognizer, wywołując funkcję cloudDocumentTextRecognizer:

SwiftObjective-C

let vision = Vision.vision()
let textRecognizer = vision.cloudDocumentTextRecognizer()

// Or, to provide language hints to assist with language detection:
// See https://cloud.google.com/vision/docs/languages for supported languages
let options = VisionCloudDocumentTextRecognizerOptions()
options.languageHints = ["en", "hi"]
let textRecognizer = vision.cloudDocumentTextRecognizer(options: options)

FIRVision *vision = [FIRVision vision];
FIRVisionDocumentTextRecognizer *textRecognizer = [vision cloudDocumentTextRecognizer];

// Or, to provide language hints to assist with language detection:
// See https://cloud.google.com/vision/docs/languages for supported languages
FIRVisionCloudDocumentTextRecognizerOptions *options =
        [[FIRVisionCloudDocumentTextRecognizerOptions alloc] init];
options.languageHints = @[@"en", @"hi"];
FIRVisionDocumentTextRecognizer *textRecognizer = [vision cloudDocumentTextRecognizerWithOptions:options];

Aby wywołać Cloud Vision, obraz musi mieć format ciągu tekstowego z kodowaniem Base64. Aby przetworzyć UIImage:

SwiftObjective-C

guard let imageData = uiImage.jpegData(compressionQuality: 1.0) else { return }
let base64encodedImage = imageData.base64EncodedString()

NSData *imageData = UIImageJPEGRepresentation(uiImage, 1.0f);
NSString *base64encodedImage =
  [imageData base64EncodedStringWithOptions:NSDataBase64Encoding76CharacterLineLength];

Następnie przekaż obraz metodzie process(_:completion:):

SwiftObjective-C

textRecognizer.process(visionImage) { result, error in
  guard error == nil, let result = result else {
    // ...
    return
  }

  // Recognized text
}

[textRecognizer processImage:image
                  completion:^(FIRVisionDocumentText *_Nullable result,
                               NSError *_Nullable error) {
  if (error != nil || result == nil) {
    // ...
    return;
  }

    // Recognized text
}];

2. Wyodrębnianie tekstu z bloków rozpoznanego tekstu

Jeśli operacja rozpoznawania tekstu się powiedzie, zwróci obiekt VisionDocumentText. Obiekt VisionDocumentText zawiera pełny tekst rozpoznany na obrazie oraz hierarchię obiektów, które odzwierciedlają strukturę rozpoznanego dokumentu:

W przypadku każdego obiektu VisionDocumentTextBlock, VisionDocumentTextParagraph, VisionDocumentTextWord i VisionDocumentTextSymbol możesz uzyskać tekst rozpoznany w regionie oraz współrzędne graniczne tego regionu.

Przykład:

SwiftObjective-C

let resultText = result.text
for block in result.blocks {
    let blockText = block.text
    let blockConfidence = block.confidence
    let blockRecognizedLanguages = block.recognizedLanguages
    let blockBreak = block.recognizedBreak
    let blockCornerPoints = block.cornerPoints
    let blockFrame = block.frame
    for paragraph in block.paragraphs {
        let paragraphText = paragraph.text
        let paragraphConfidence = paragraph.confidence
        let paragraphRecognizedLanguages = paragraph.recognizedLanguages
        let paragraphBreak = paragraph.recognizedBreak
        let paragraphCornerPoints = paragraph.cornerPoints
        let paragraphFrame = paragraph.frame
        for word in paragraph.words {
            let wordText = word.text
            let wordConfidence = word.confidence
            let wordRecognizedLanguages = word.recognizedLanguages
            let wordBreak = word.recognizedBreak
            let wordCornerPoints = word.cornerPoints
            let wordFrame = word.frame
            for symbol in word.symbols {
                let symbolText = symbol.text
                let symbolConfidence = symbol.confidence
                let symbolRecognizedLanguages = symbol.recognizedLanguages
                let symbolBreak = symbol.recognizedBreak
                let symbolCornerPoints = symbol.cornerPoints
                let symbolFrame = symbol.frame
            }
        }
    }
}

NSString *resultText = result.text;
for (FIRVisionDocumentTextBlock *block in result.blocks) {
  NSString *blockText = block.text;
  NSNumber *blockConfidence = block.confidence;
  NSArray<FIRVisionTextRecognizedLanguage *> *blockRecognizedLanguages = block.recognizedLanguages;
  FIRVisionTextRecognizedBreak *blockBreak = block.recognizedBreak;
  CGRect blockFrame = block.frame;
  for (FIRVisionDocumentTextParagraph *paragraph in block.paragraphs) {
    NSString *paragraphText = paragraph.text;
    NSNumber *paragraphConfidence = paragraph.confidence;
    NSArray<FIRVisionTextRecognizedLanguage *> *paragraphRecognizedLanguages = paragraph.recognizedLanguages;
    FIRVisionTextRecognizedBreak *paragraphBreak = paragraph.recognizedBreak;
    CGRect paragraphFrame = paragraph.frame;
    for (FIRVisionDocumentTextWord *word in paragraph.words) {
      NSString *wordText = word.text;
      NSNumber *wordConfidence = word.confidence;
      NSArray<FIRVisionTextRecognizedLanguage *> *wordRecognizedLanguages = word.recognizedLanguages;
      FIRVisionTextRecognizedBreak *wordBreak = word.recognizedBreak;
      CGRect wordFrame = word.frame;
      for (FIRVisionDocumentTextSymbol *symbol in word.symbols) {
        NSString *symbolText = symbol.text;
        NSNumber *symbolConfidence = symbol.confidence;
        NSArray<FIRVisionTextRecognizedLanguage *> *symbolRecognizedLanguages = symbol.recognizedLanguages;
        FIRVisionTextRecognizedBreak *symbolBreak = symbol.recognizedBreak;
        CGRect symbolFrame = symbol.frame;
      }
    }
  }
}

Dalsze kroki

Zanim wdrożysz w wersji produkcyjnej aplikację, która korzysta z Cloud API, wykonaj dodatkowe czynności, aby zapobiec nieautoryzowanemu dostępowi do interfejsu API i zmniejszyć jego skutki.

Rozpoznawanie tekstu w obrazach za pomocą Firebase ML w iOS bookmark_borderbookmark Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Zanim zaczniesz

Wskazówki dotyczące obrazów

Rozpoznawanie tekstu w obrazach

1. Uruchom rozpoznawanie tekstu

2. Wyodrębnianie tekstu z bloków rozpoznanego tekstu

Dalsze kroki

Rozpoznawanie tekstu na obrazach dokumentów

1. Uruchom rozpoznawanie tekstu

2. Wyodrębnianie tekstu z bloków rozpoznanego tekstu

Dalsze kroki

Rozpoznawanie tekstu w obrazach za pomocą Firebase ML w iOS
bookmark_border Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.