Catch up on everything announced at Firebase Summit, and learn how Firebase can help you accelerate app development and run your app with confidence. Learn More

จดจำข้อความในรูปภาพได้อย่างปลอดภัยด้วย Cloud Vision โดยใช้ Firebase Auth และฟังก์ชั่นบนแพลตฟอร์ม Apple

จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

ในการเรียก Google Cloud API จากแอป คุณต้องสร้าง REST API ระดับกลางที่จัดการการให้สิทธิ์และปกป้องค่าลับ เช่น คีย์ API จากนั้นคุณต้องเขียนโค้ดในแอปบนอุปกรณ์เคลื่อนที่เพื่อตรวจสอบสิทธิ์และสื่อสารกับบริการระดับกลางนี้

วิธีหนึ่งในการสร้าง REST API นี้คือการใช้ Firebase Authentication and Functions ซึ่งให้เกตเวย์แบบไร้เซิร์ฟเวอร์ที่มีการจัดการแก่คุณไปยัง Google Cloud API ที่จัดการการตรวจสอบสิทธิ์และสามารถเรียกได้จากแอปมือถือของคุณด้วย SDK ที่สร้างไว้ล่วงหน้า

คู่มือนี้สาธิตวิธีใช้เทคนิคนี้เพื่อเรียก Cloud Vision API จากแอปของคุณ วิธีนี้จะอนุญาตให้ผู้ใช้ที่ผ่านการตรวจสอบสิทธิ์ทั้งหมดเข้าถึงบริการที่เรียกเก็บเงินของ Cloud Vision ผ่านโครงการคลาวด์ของคุณ ดังนั้นให้พิจารณาว่ากลไกการตรวจสอบสิทธิ์นี้เพียงพอสำหรับกรณีการใช้งานของคุณหรือไม่ก่อนที่จะดำเนินการต่อ

ก่อนที่คุณจะเริ่มต้น

กำหนดค่าโครงการของคุณ

หากคุณยังไม่ได้เพิ่ม Firebase ลงในแอป ให้ทำตามขั้นตอนใน คู่มือเริ่มต้นใช้ งาน

ใช้ Swift Package Manager เพื่อติดตั้งและจัดการการอ้างอิง Firebase

  1. ใน Xcode เมื่อโปรเจ็กต์แอปของคุณเปิดอยู่ ให้ไปที่ File > Add Packages
  2. เมื่อได้รับแจ้ง ให้เพิ่มที่เก็บ Firebase Apple platforms SDK:
  3.   https://github.com/firebase/firebase-ios-sdk
  4. เลือกไลบรารี Firebase ML
  5. เมื่อเสร็จแล้ว Xcode จะเริ่มแก้ไขและดาวน์โหลดการอ้างอิงของคุณโดยอัตโนมัติในเบื้องหลัง

ถัดไป ทำการตั้งค่าในแอป:

  1. ในแอปของคุณ ให้นำเข้า Firebase:

    สวิฟต์

    import FirebaseMLModelDownloader

    วัตถุประสงค์-C

    @import FirebaseMLModelDownloader;

ขั้นตอนการกำหนดค่าอีกสองสามขั้นตอน และเราพร้อมแล้ว:

  1. หากคุณยังไม่ได้เปิดใช้ API บนคลาวด์สำหรับโครงการของคุณ ให้ดำเนินการทันที:

    1. เปิดหน้า Firebase ML API ของคอนโซล Firebase
    2. หากคุณยังไม่ได้อัปเกรดโครงการเป็นแผนราคา Blaze ให้คลิก อัปเกรด เพื่อดำเนินการดังกล่าว (คุณจะได้รับแจ้งให้อัปเกรดเฉพาะในกรณีที่โปรเจ็กต์ของคุณไม่ได้อยู่ในแผน Blaze)

      โปรเจ็กต์ระดับ Blaze เท่านั้นที่ใช้ API บนคลาวด์ได้

    3. หากยังไม่ได้เปิดใช้ API บนคลาวด์ ให้คลิก เปิดใช้ API บนคลาวด์
  2. กำหนดค่าคีย์ Firebase API ที่มีอยู่เพื่อปิดการเข้าถึง Cloud Vision API:
    1. เปิดหน้า ข้อมูลรับรอง ของ Cloud Console
    2. สำหรับแต่ละคีย์ API ในรายการ ให้เปิดมุมมองการแก้ไข และในส่วนการจำกัดคีย์ ให้เพิ่ม API ที่มีอยู่ ทั้งหมดยกเว้น Cloud Vision API ลงในรายการ

ปรับใช้ฟังก์ชันที่เรียกได้

จากนั้น ปรับใช้ Cloud Function ที่คุณจะใช้เพื่อเชื่อมโยงแอปของคุณกับ Cloud Vision API ที่เก็บ functions-samples มีตัวอย่างที่คุณสามารถใช้ได้

ตามค่าเริ่มต้น การเข้าถึง Cloud Vision API ผ่านฟังก์ชันนี้จะอนุญาตเฉพาะผู้ใช้ที่ตรวจสอบสิทธิ์ของแอปของคุณเท่านั้นที่เข้าถึง Cloud Vision API ได้ คุณสามารถปรับเปลี่ยนฟังก์ชันสำหรับความต้องการที่แตกต่างกันได้

ในการปรับใช้ฟังก์ชัน:

  1. โคลนหรือดาวน์โหลดที่ เก็บตัวอย่างฟังก์ชั่น และเปลี่ยนเป็นไดเร็กทอรีการ vision-annotate-image :
    git clone https://github.com/firebase/functions-samples
    cd vision-annotate-image
    
  2. ติดตั้งการอ้างอิง:
    cd functions
    npm install
    cd ..
    
  3. หากคุณไม่มี Firebase CLI ให้ ติดตั้ง
  4. เริ่มต้นโปรเจ็กต์ Firebase ในไดเร็กทอรี vision-annotate-image เมื่อได้รับแจ้ง ให้เลือกโครงการของคุณในรายการ
    firebase init
  5. ปรับใช้ฟังก์ชัน:
    firebase deploy --only functions:annotateImage

เพิ่ม Firebase Auth ในแอปของคุณ

ฟังก์ชันที่เรียกใช้ได้ที่ด้านบนจะปฏิเสธคำขอใดๆ จากผู้ใช้แอปของคุณที่ไม่ได้ตรวจสอบสิทธิ์ หากคุณยังไม่ได้ดำเนินการ คุณจะต้อง เพิ่ม Firebase Auth ในแอปของคุณ

เพิ่มการพึ่งพาที่จำเป็นในแอปของคุณ

ใช้ Swift Package Manager เพื่อติดตั้ง Cloud Functions สำหรับไลบรารี Firebase

ตอนนี้คุณพร้อมที่จะเริ่มจดจำข้อความในรูปภาพแล้ว

1. เตรียมภาพอินพุต

ในการเรียกใช้ Cloud Vision รูปภาพจะต้องจัดรูปแบบเป็นสตริงที่เข้ารหัสแบบ Base64 ในการประมวลผล UIImage :

สวิฟต์

guard let imageData = uiImage.jpegData(compressionQuality: 1.0f) else { return }
let base64encodedImage = imageData.base64EncodedString()

วัตถุประสงค์-C

NSData *imageData = UIImageJPEGRepresentation(uiImage, 1.0f);
NSString *base64encodedImage =
  [imageData base64EncodedStringWithOptions:NSDataBase64Encoding76CharacterLineLength];

2. เรียกใช้ฟังก์ชันที่เรียกได้เพื่อจดจำข้อความ

ในการจดจำจุดสังเกตในรูปภาพ ให้เรียกใช้ฟังก์ชันที่เรียกได้ผ่าน คำขอ JSON Cloud Vision

  1. ขั้นแรก ให้เริ่มต้นอินสแตนซ์ของ Cloud Functions:

    สวิฟต์

    lazy var functions = Functions.functions()
    

    วัตถุประสงค์-C

    @property(strong, nonatomic) FIRFunctions *functions;
    
  2. สร้างคำขอ Cloud Vision API รองรับการตรวจจับข้อความสอง ประเภท : TEXT_DETECTION และ DOCUMENT_TEXT_DETECTION ดูเอกสาร Cloud Vision OCR สำหรับความแตกต่างระหว่างกรณีการใช้งานทั้งสอง

    สวิฟต์

    let requestData = [
      "image": ["content": base64encodedImage],
      "features": ["type": "TEXT_DETECTION"],
      "imageContext": ["languageHints": ["en"]]
    ]
    

    วัตถุประสงค์-C

    NSDictionary *requestData = @{
      @"image": @{@"content": base64encodedImage},
      @"features": @{@"type": @"TEXT_DETECTION"},
      @"imageContext": @{@"languageHints": @[@"en"]}
    };
    
  3. สุดท้าย เรียกใช้ฟังก์ชัน:

    สวิฟต์

    functions.httpsCallable("annotateImage").call(requestData) { (result, error) in
      if let error = error as NSError? {
        if error.domain == FunctionsErrorDomain {
          let code = FunctionsErrorCode(rawValue: error.code)
          let message = error.localizedDescription
          let details = error.userInfo[FunctionsErrorDetailsKey]
        }
        // ...
      }
      // Function completed succesfully
    }
    

    วัตถุประสงค์-C

    [[_functions HTTPSCallableWithName:@"annotateImage"]
                              callWithObject:requestData
                                  completion:^(FIRHTTPSCallableResult * _Nullable result, NSError * _Nullable error) {
            if (error) {
              if (error.domain == FIRFunctionsErrorDomain) {
                FIRFunctionsErrorCode code = error.code;
                NSString *message = error.localizedDescription;
                NSObject *details = error.userInfo[FIRFunctionsErrorDetailsKey];
              }
              // ...
            }
            // Function completed succesfully
            // Get information about labeled objects
    
          }];
    

3. แยกข้อความออกจากบล็อกของข้อความที่รู้จัก

หากการดำเนินการจดจำข้อความสำเร็จ การตอบกลับ JSON ของ BatchAnnotateImagesResponse จะถูกส่งกลับในผลลัพธ์ของงาน คำอธิบายประกอบข้อความสามารถพบได้ในวัตถุ fullTextAnnotation

คุณสามารถรับข้อความที่รู้จักเป็นสตริงในช่อง text ตัวอย่างเช่น:

สวิฟต์

guard let annotation = (result?.data as? [String: Any])?["fullTextAnnotation"] as? [String: Any] else { return }
print("%nComplete annotation:")
let text = annotation["text"] as? String ?? ""
print("%n\(text)")

วัตถุประสงค์-C

NSDictionary *annotation = result.data[@"fullTextAnnotation"];
if (!annotation) { return; }
NSLog(@"\nComplete annotation:");
NSLog(@"\n%@", annotation[@"text"]);

คุณยังสามารถรับข้อมูลเฉพาะสำหรับภูมิภาคของรูปภาพได้อีกด้วย สำหรับแต่ละ block paragraph word และ symbol คุณจะได้รับข้อความที่รู้จักในพื้นที่และพิกัดขอบเขตของพื้นที่ ตัวอย่างเช่น:

สวิฟต์

guard let pages = annotation["pages"] as? [[String: Any]] else { return }
for page in pages {
var pageText = ""
guard let blocks = page["blocks"] as? [[String: Any]] else { continue }
for block in blocks {
    var blockText = ""
    guard let paragraphs = block["paragraphs"] as? [[String: Any]] else { continue }
    for paragraph in paragraphs {
    var paragraphText = ""
    guard let words = paragraph["words"] as? [[String: Any]] else { continue }
    for word in words {
        var wordText = ""
        guard let symbols = word["symbols"] as? [[String: Any]] else { continue }
        for symbol in symbols {
        let text = symbol["text"] as? String ?? ""
        let confidence = symbol["confidence"] as? Float ?? 0.0
        wordText += text
        print("Symbol text: \(text) (confidence: \(confidence)%n")
        }
        let confidence = word["confidence"] as? Float ?? 0.0
        print("Word text: \(wordText) (confidence: \(confidence)%n%n")
        let boundingBox = word["boundingBox"] as? [Float] ?? [0.0, 0.0, 0.0, 0.0]
        print("Word bounding box: \(boundingBox.description)%n")
        paragraphText += wordText
    }
    print("%nParagraph: %n\(paragraphText)%n")
    let boundingBox = paragraph["boundingBox"] as? [Float] ?? [0.0, 0.0, 0.0, 0.0]
    print("Paragraph bounding box: \(boundingBox)%n")
    let confidence = paragraph["confidence"] as? Float ?? 0.0
    print("Paragraph Confidence: \(confidence)%n")
    blockText += paragraphText
    }
    pageText += blockText
}

วัตถุประสงค์-C

for (NSDictionary *page in annotation[@"pages"]) {
  NSMutableString *pageText = [NSMutableString new];
  for (NSDictionary *block in page[@"blocks"]) {
    NSMutableString *blockText = [NSMutableString new];
    for (NSDictionary *paragraph in block[@"paragraphs"]) {
      NSMutableString *paragraphText = [NSMutableString new];
      for (NSDictionary *word in paragraph[@"words"]) {
        NSMutableString *wordText = [NSMutableString new];
        for (NSDictionary *symbol in word[@"symbols"]) {
          NSString *text = symbol[@"text"];
          [wordText appendString:text];
          NSLog(@"Symbol text: %@ (confidence: %@\n", text, symbol[@"confidence"]);
        }
        NSLog(@"Word text: %@ (confidence: %@\n\n", wordText, word[@"confidence"]);
        NSLog(@"Word bounding box: %@\n", word[@"boundingBox"]);
        [paragraphText appendString:wordText];
      }
      NSLog(@"\nParagraph: \n%@\n", paragraphText);
      NSLog(@"Paragraph bounding box: %@\n", paragraph[@"boundingBox"]);
      NSLog(@"Paragraph Confidence: %@\n", paragraph[@"confidence"]);
      [blockText appendString:paragraphText];
    }
    [pageText appendString:blockText];
  }
}