Catch up on highlights from Firebase at Google I/O 2023. Learn more

จดจำข้อความในรูปภาพด้วย Firebase ML บน iOS

คุณสามารถใช้ Firebase ML เพื่อจดจำข้อความในรูปภาพได้ Firebase ML มีทั้ง API สำหรับวัตถุประสงค์ทั่วไปที่เหมาะสำหรับการจดจำข้อความในรูปภาพ เช่น ข้อความของป้ายชื่อถนน และ API ที่ปรับให้เหมาะสำหรับการจดจำข้อความในเอกสาร

ก่อนที่คุณจะเริ่มต้น

    หากคุณยังไม่ได้เพิ่ม Firebase ลงในแอป ให้ทำตามขั้นตอนใน คู่มือเริ่มต้นใช้งาน

    ใช้ Swift Package Manager เพื่อติดตั้งและจัดการการอ้างอิง Firebase

    1. ใน Xcode เมื่อโปรเจ็กต์แอปของคุณเปิดอยู่ ให้ไปที่ File > Add Packages
    2. เมื่อได้รับแจ้ง ให้เพิ่มที่เก็บ Firebase Apple platforms SDK:
    3.   https://github.com/firebase/firebase-ios-sdk
    4. เลือกไลบรารี Firebase ML
    5. เมื่อเสร็จแล้ว Xcode จะเริ่มแก้ไขและดาวน์โหลดการอ้างอิงของคุณโดยอัตโนมัติในเบื้องหลัง

    ถัดไป ทำการตั้งค่าในแอป:

    1. ในแอปของคุณ ให้นำเข้า Firebase:

      สวิฟต์

      import FirebaseMLModelDownloader

      วัตถุประสงค์-C

      @import FirebaseMLModelDownloader;
  1. หากคุณยังไม่ได้เปิดใช้ API บนคลาวด์สำหรับโครงการของคุณ ให้ดำเนินการทันที:

    1. เปิด หน้า Firebase ML API ของคอนโซล Firebase
    2. หากคุณยังไม่ได้อัปเกรดโครงการเป็นแผนราคา Blaze ให้คลิก อัปเกรด เพื่อดำเนินการดังกล่าว (คุณจะได้รับแจ้งให้อัปเกรดเฉพาะในกรณีที่โปรเจ็กต์ของคุณไม่ได้อยู่ในแผน Blaze)

      โปรเจ็กต์ระดับ Blaze เท่านั้นที่ใช้ API บนคลาวด์ได้

    3. หากยังไม่ได้เปิดใช้ API บนคลาวด์ ให้คลิก เปิดใช้ API บนคลาวด์

ตอนนี้คุณพร้อมที่จะเริ่มจดจำข้อความในรูปภาพแล้ว

แนวทางการป้อนรูปภาพ

  • เพื่อให้ Firebase ML จดจำข้อความได้อย่างแม่นยำ รูปภาพที่ป้อนต้องมีข้อความที่แสดงด้วยข้อมูลพิกเซลที่เพียงพอ ตามหลักการแล้ว สำหรับข้อความละติน อักขระแต่ละตัวควรมีขนาดอย่างน้อย 16x16 พิกเซล สำหรับข้อความภาษาจีน ญี่ปุ่น และเกาหลี อักขระแต่ละตัวควรมีขนาด 24x24 พิกเซล สำหรับทุกภาษา โดยทั่วไปแล้วจะไม่มีประโยชน์ด้านความแม่นยำสำหรับอักขระที่มีขนาดใหญ่กว่า 24x24 พิกเซล

    ตัวอย่างเช่น รูปภาพขนาด 640x480 อาจทำงานได้ดีในการสแกนนามบัตรที่ใช้พื้นที่เต็มความกว้างของรูปภาพ หากต้องการสแกนเอกสารที่พิมพ์บนกระดาษขนาด Letter อาจต้องใช้รูปภาพขนาด 720x1280 พิกเซล

  • การโฟกัสรูปภาพที่ไม่ดีอาจทำให้ความแม่นยำในการจดจำข้อความเสียหายได้ หากคุณไม่ได้รับผลลัพธ์ที่ยอมรับได้ ให้ลองขอให้ผู้ใช้จับภาพอีกครั้ง


จดจำข้อความในภาพ

ในการจดจำข้อความในรูปภาพ ให้เรียกใช้ตัวจำแนกข้อความตามที่อธิบายด้านล่าง

1. เรียกใช้ตัวจำแนกข้อความ

ส่งรูปภาพเป็น UIImage หรือ CMSampleBufferRef ไปยังเมธอดของ VisionTextRecognizer process(_:completion:) :

  1. รับอินสแตนซ์ของ VisionTextRecognizer โดยเรียก cloudTextRecognizer :

    สวิฟต์

    let vision = Vision.vision()
    let textRecognizer = vision.cloudTextRecognizer()
    
    // Or, to provide language hints to assist with language detection:
    // See https://cloud.google.com/vision/docs/languages for supported languages
    let options = VisionCloudTextRecognizerOptions()
    options.languageHints = ["en", "hi"]
    let textRecognizer = vision.cloudTextRecognizer(options: options)
    

    วัตถุประสงค์-C

    FIRVision *vision = [FIRVision vision];
    FIRVisionTextRecognizer *textRecognizer = [vision cloudTextRecognizer];
    
    // Or, to provide language hints to assist with language detection:
    // See https://cloud.google.com/vision/docs/languages for supported languages
    FIRVisionCloudTextRecognizerOptions *options =
            [[FIRVisionCloudTextRecognizerOptions alloc] init];
    options.languageHints = @[@"en", @"hi"];
    FIRVisionTextRecognizer *textRecognizer = [vision cloudTextRecognizerWithOptions:options];
    
  2. ในการเรียกใช้ Cloud Vision รูปภาพจะต้องจัดรูปแบบเป็นสตริงที่เข้ารหัสแบบ Base64 ในการประมวลผล UIImage :

    สวิฟต์

    guard let imageData = uiImage.jpegData(compressionQuality: 1.0f) else { return }
    let base64encodedImage = imageData.base64EncodedString()

    วัตถุประสงค์-C

    NSData *imageData = UIImageJPEGRepresentation(uiImage, 1.0f);
    NSString *base64encodedImage =
      [imageData base64EncodedStringWithOptions:NSDataBase64Encoding76CharacterLineLength];
  3. จากนั้นส่งภาพไปยังเมธอด process(_:completion:) :

    สวิฟต์

    textRecognizer.process(visionImage) { result, error in
      guard error == nil, let result = result else {
        // ...
        return
      }
    
      // Recognized text
    }
    

    วัตถุประสงค์-C

    [textRecognizer processImage:image
                      completion:^(FIRVisionText *_Nullable result,
                                   NSError *_Nullable error) {
      if (error != nil || result == nil) {
        // ...
        return;
      }
    
      // Recognized text
    }];
    

2. แยกข้อความออกจากบล็อกของข้อความที่รู้จัก

หากการดำเนินการจดจำข้อความสำเร็จ ระบบจะส่งกลับวัตถุ VisionText อ็อบเจ็กต์ VisionText ประกอบด้วยข้อความแบบเต็มที่รู้จักในรูปภาพ และอ็อบเจ็กต์ VisionTextBlock เป็นศูนย์หรือมากกว่า

VisionTextBlock แต่ละอันแสดงถึงกลุ่มข้อความสี่เหลี่ยมซึ่งมีวัตถุ VisionTextLine เป็นศูนย์หรือมากกว่า แต่ละออบเจ็กต์ VisionTextLine มีออบเจ็กต์ VisionTextElement เป็นศูนย์หรือมากกว่า ซึ่งแทนคำและเอนทิตีที่คล้ายคำ (วันที่ ตัวเลข และอื่นๆ)

สำหรับแต่ละออบเจ็กต์ VisionTextBlock , VisionTextLine และ VisionTextElement คุณจะได้รับข้อความที่รู้จักในภูมิภาคและพิกัดขอบเขตของภูมิภาค

ตัวอย่างเช่น:

สวิฟต์

let resultText = result.text
for block in result.blocks {
    let blockText = block.text
    let blockConfidence = block.confidence
    let blockLanguages = block.recognizedLanguages
    let blockCornerPoints = block.cornerPoints
    let blockFrame = block.frame
    for line in block.lines {
        let lineText = line.text
        let lineConfidence = line.confidence
        let lineLanguages = line.recognizedLanguages
        let lineCornerPoints = line.cornerPoints
        let lineFrame = line.frame
        for element in line.elements {
            let elementText = element.text
            let elementConfidence = element.confidence
            let elementLanguages = element.recognizedLanguages
            let elementCornerPoints = element.cornerPoints
            let elementFrame = element.frame
        }
    }
}

วัตถุประสงค์-C

NSString *resultText = result.text;
for (FIRVisionTextBlock *block in result.blocks) {
  NSString *blockText = block.text;
  NSNumber *blockConfidence = block.confidence;
  NSArray<FIRVisionTextRecognizedLanguage *> *blockLanguages = block.recognizedLanguages;
  NSArray<NSValue *> *blockCornerPoints = block.cornerPoints;
  CGRect blockFrame = block.frame;
  for (FIRVisionTextLine *line in block.lines) {
    NSString *lineText = line.text;
    NSNumber *lineConfidence = line.confidence;
    NSArray<FIRVisionTextRecognizedLanguage *> *lineLanguages = line.recognizedLanguages;
    NSArray<NSValue *> *lineCornerPoints = line.cornerPoints;
    CGRect lineFrame = line.frame;
    for (FIRVisionTextElement *element in line.elements) {
      NSString *elementText = element.text;
      NSNumber *elementConfidence = element.confidence;
      NSArray<FIRVisionTextRecognizedLanguage *> *elementLanguages = element.recognizedLanguages;
      NSArray<NSValue *> *elementCornerPoints = element.cornerPoints;
      CGRect elementFrame = element.frame;
    }
  }
}

ขั้นตอนถัดไป


จดจำข้อความในรูปภาพของเอกสาร

ในการจดจำข้อความของเอกสาร ให้กำหนดค่าและเรียกใช้ตัวจำแนกข้อความของเอกสารตามที่อธิบายด้านล่าง

API การรู้จำข้อความในเอกสารที่อธิบายไว้ด้านล่าง มีอินเทอร์เฟซที่ตั้งใจให้สะดวกยิ่งขึ้นสำหรับการทำงานกับรูปภาพของเอกสาร อย่างไรก็ตาม หากคุณต้องการอินเทอร์เฟซที่จัดเตรียมโดย API ข้อความกระจัดกระจาย คุณสามารถใช้อินเทอร์เฟซนี้แทนเพื่อสแกนเอกสารโดยกำหนดค่าตัวจำแนกข้อความบนคลาวด์ให้ ใช้โมเดลข้อความหนาแน่น

หากต้องการใช้ API การรู้จำข้อความในเอกสาร:

1. เรียกใช้ตัวจำแนกข้อความ

ส่งรูปภาพเป็น UIImage หรือ CMSampleBufferRef ไปยังเมธอด VisionDocumentTextRecognizer ของ process(_:completion:) :

  1. รับตัวอย่างของ VisionDocumentTextRecognizer โดยเรียก cloudDocumentTextRecognizer :

    สวิฟต์

    let vision = Vision.vision()
    let textRecognizer = vision.cloudDocumentTextRecognizer()
    
    // Or, to provide language hints to assist with language detection:
    // See https://cloud.google.com/vision/docs/languages for supported languages
    let options = VisionCloudDocumentTextRecognizerOptions()
    options.languageHints = ["en", "hi"]
    let textRecognizer = vision.cloudDocumentTextRecognizer(options: options)
    

    วัตถุประสงค์-C

    FIRVision *vision = [FIRVision vision];
    FIRVisionDocumentTextRecognizer *textRecognizer = [vision cloudDocumentTextRecognizer];
    
    // Or, to provide language hints to assist with language detection:
    // See https://cloud.google.com/vision/docs/languages for supported languages
    FIRVisionCloudDocumentTextRecognizerOptions *options =
            [[FIRVisionCloudDocumentTextRecognizerOptions alloc] init];
    options.languageHints = @[@"en", @"hi"];
    FIRVisionDocumentTextRecognizer *textRecognizer = [vision cloudDocumentTextRecognizerWithOptions:options];
    
  2. ในการเรียกใช้ Cloud Vision รูปภาพจะต้องจัดรูปแบบเป็นสตริงที่เข้ารหัสแบบ Base64 ในการประมวลผล UIImage :

    สวิฟต์

    guard let imageData = uiImage.jpegData(compressionQuality: 1.0f) else { return }
    let base64encodedImage = imageData.base64EncodedString()

    วัตถุประสงค์-C

    NSData *imageData = UIImageJPEGRepresentation(uiImage, 1.0f);
    NSString *base64encodedImage =
      [imageData base64EncodedStringWithOptions:NSDataBase64Encoding76CharacterLineLength];
  3. จากนั้นส่งภาพไปยังเมธอด process(_:completion:) :

    สวิฟต์

    textRecognizer.process(visionImage) { result, error in
      guard error == nil, let result = result else {
        // ...
        return
      }
    
      // Recognized text
    }
    

    วัตถุประสงค์-C

    [textRecognizer processImage:image
                      completion:^(FIRVisionDocumentText *_Nullable result,
                                   NSError *_Nullable error) {
      if (error != nil || result == nil) {
        // ...
        return;
      }
    
        // Recognized text
    }];
    

2. แยกข้อความออกจากบล็อกของข้อความที่รู้จัก

หากการดำเนินการจดจำข้อความสำเร็จ ระบบจะส่งกลับวัตถุ VisionDocumentText วัตถุ VisionDocumentText ประกอบด้วยข้อความเต็มรูปแบบที่รู้จักในรูปภาพและลำดับชั้นของวัตถุที่สะท้อนถึงโครงสร้างของเอกสารที่รู้จัก:

สำหรับแต่ละออบเจ็กต์ VisionDocumentTextBlock , VisionDocumentTextParagraph , VisionDocumentTextWord และ VisionDocumentTextSymbol คุณสามารถรับข้อความที่รู้จักในภูมิภาคและพิกัดขอบเขตของภูมิภาค

ตัวอย่างเช่น:

สวิฟต์

let resultText = result.text
for block in result.blocks {
    let blockText = block.text
    let blockConfidence = block.confidence
    let blockRecognizedLanguages = block.recognizedLanguages
    let blockBreak = block.recognizedBreak
    let blockCornerPoints = block.cornerPoints
    let blockFrame = block.frame
    for paragraph in block.paragraphs {
        let paragraphText = paragraph.text
        let paragraphConfidence = paragraph.confidence
        let paragraphRecognizedLanguages = paragraph.recognizedLanguages
        let paragraphBreak = paragraph.recognizedBreak
        let paragraphCornerPoints = paragraph.cornerPoints
        let paragraphFrame = paragraph.frame
        for word in paragraph.words {
            let wordText = word.text
            let wordConfidence = word.confidence
            let wordRecognizedLanguages = word.recognizedLanguages
            let wordBreak = word.recognizedBreak
            let wordCornerPoints = word.cornerPoints
            let wordFrame = word.frame
            for symbol in word.symbols {
                let symbolText = symbol.text
                let symbolConfidence = symbol.confidence
                let symbolRecognizedLanguages = symbol.recognizedLanguages
                let symbolBreak = symbol.recognizedBreak
                let symbolCornerPoints = symbol.cornerPoints
                let symbolFrame = symbol.frame
            }
        }
    }
}

วัตถุประสงค์-C

NSString *resultText = result.text;
for (FIRVisionDocumentTextBlock *block in result.blocks) {
  NSString *blockText = block.text;
  NSNumber *blockConfidence = block.confidence;
  NSArray<FIRVisionTextRecognizedLanguage *> *blockRecognizedLanguages = block.recognizedLanguages;
  FIRVisionTextRecognizedBreak *blockBreak = block.recognizedBreak;
  CGRect blockFrame = block.frame;
  for (FIRVisionDocumentTextParagraph *paragraph in block.paragraphs) {
    NSString *paragraphText = paragraph.text;
    NSNumber *paragraphConfidence = paragraph.confidence;
    NSArray<FIRVisionTextRecognizedLanguage *> *paragraphRecognizedLanguages = paragraph.recognizedLanguages;
    FIRVisionTextRecognizedBreak *paragraphBreak = paragraph.recognizedBreak;
    CGRect paragraphFrame = paragraph.frame;
    for (FIRVisionDocumentTextWord *word in paragraph.words) {
      NSString *wordText = word.text;
      NSNumber *wordConfidence = word.confidence;
      NSArray<FIRVisionTextRecognizedLanguage *> *wordRecognizedLanguages = word.recognizedLanguages;
      FIRVisionTextRecognizedBreak *wordBreak = word.recognizedBreak;
      CGRect wordFrame = word.frame;
      for (FIRVisionDocumentTextSymbol *symbol in word.symbols) {
        NSString *symbolText = symbol.text;
        NSNumber *symbolConfidence = symbol.confidence;
        NSArray<FIRVisionTextRecognizedLanguage *> *symbolRecognizedLanguages = symbol.recognizedLanguages;
        FIRVisionTextRecognizedBreak *symbolBreak = symbol.recognizedBreak;
        CGRect symbolFrame = symbol.frame;
      }
    }
  }
}

ขั้นตอนถัดไป