Catch up on everthing we announced at this year's Firebase Summit. Learn more

זיהוי טקסט בתמונות באופן מאובטח באמצעות Vision Cloud באמצעות Firebase Auth and Functions ב- Android

כדי לקרוא ל- Google Cloud API מהאפליקציה שלך, עליך ליצור ממשק API ביניים של REST המטפל בהרשאה ומגן על ערכים סודיים כגון מפתחות API. לאחר מכן עליך לכתוב קוד באפליקציית הנייד שלך כדי לאמת ולתקשר עם שירות ביניים זה.

אחת הדרכים ליצור את ה- REST API הזה היא באמצעות אימות ופונקציות Firebase, שנותן לך שער מנוהל ללא שרת לממשקי API של Google Cloud שמטפל באימות וניתן להתקשר אליו מהאפליקציה שלך לנייד באמצעות SDK שנבנו מראש.

מדריך זה מדגים כיצד להשתמש בטכניקה זו כדי לקרוא ל- Cloud Vision API מהאפליקציה שלך. שיטה זו תאפשר לכל המשתמשים המאומתים לגשת לשירותי חיוב של Cloud Vision באמצעות פרויקט הענן שלך, לכן שקול אם מנגנון אימות זה מספיק למקרה השימוש שלך לפני שתמשיך.

לפני שאתה מתחיל

הגדר את הפרויקט שלך

  1. אם לא עשית זאת עדיין, להוסיף Firebase לפרויקט Android שלך .
  2. אם עדיין לא הפעלת ממשקי API מבוססי ענן עבור הפרויקט שלך, עשה זאת כעת:

    1. פתח את דף APIs ML Firebase של קונסולת Firebase.
    2. אם לא כבר שדרג פרויקט לתכנית תמחור Blaze, לחץ שדרג לעשות זאת. (תתבקש לשדרג רק אם הפרויקט שלך אינו בתכנית Blaze.)

      רק פרויקטים ברמת Blaze יכולים להשתמש בממשקי API מבוססי ענן.

    3. אם APIs מבוסס ענן אינו כבר מופעל, לחץ אפשר ממשקים מבוססי ענן.
  3. הגדר את מפתחות ה- API הקיימים שלך ב- Firebase כדי לאפשר גישה ל- API של Cloud Vision:
    1. פתח את האישורים בדף של קונסולת הענן.
    2. עבור כל מפתח API ברשימה, לפתוח את תצוגת העריכה, וכן בסעיף הגבלות מפתח, להוסיף את כל ממשקי API זמין למעט API חזון קלאוד לרשימה.

לפרוס את הפונקציה שניתן להתקשר אליה

לאחר מכן, פרס את פונקציית הענן שבה תשתמש כדי לגשר על האפליקציה שלך ועל ה- Cloud Vision API. functions-samples למאגר מכיל דוגמה אתה יכול להשתמש.

כברירת מחדל, גישה ל- Cloud Vision API באמצעות פונקציה זו תאפשר רק למשתמשים מאומתים של האפליקציה שלך גישה ל- Cloud Vision API. אתה יכול לשנות את הפונקציה לדרישות שונות.

כדי לפרוס את הפונקציה:

  1. Clone או להוריד את הפונקציות-דגימות ריפו ושינוי אל vision-annotate-image בספרייה:
    git clone https://github.com/firebase/functions-samples
    cd vision-annotate-image
    
  2. התקן תלות:
    cd functions
    npm install
    cd ..
    
  3. אם אין לך את Firebase CLI, להתקין אותו .
  4. אתחל פרויקט Firebase ב vision-annotate-image הספרייה. כשתתבקש, בחר את הפרויקט שלך ברשימה.
    firebase init
  5. לפרוס את הפונקציה:
    firebase deploy --only functions:annotateImage

הוסף את Firebase Auth לאפליקציה שלך

הפונקציה הניתנת להתקשרות שנפרסה למעלה תדחה כל בקשה של משתמשים לא מאומתים באפליקציה שלך. אם עדיין לא עשה זאת, תצטרך להוסיף Firebase מחבר באפליקציה.

הוסף תלות נחוצה לאפליקציה שלך

  • מוסיפים את התלות עבור פונקציות Firebase ו gson אנדרואיד ספריות למודול שלך (ברמת היישום) קובץ Gradle (בדרך כלל אפליקציה / build.gradle):
    implementation 'com.google.firebase:firebase-functions:20.0.1'
    implementation 'com.google.code.gson:gson:2.8.6'
    
  • עכשיו אתה מוכן להתחיל לזהות טקסט בתמונות.

    1. הכינו את תמונת הקלט

    כדי להתקשר ל- Cloud Vision, יש לעצב את התמונה כמחרוזת המקודדת base64. כדי לעבד תמונה מתוך קובץ URI שנשמר:
    1. קבל את התמונה כקובץ Bitmap אובייקט:

      ג'אווה

      Bitmap bitmap = MediaStore.Images.Media.getBitmap(getContentResolver(), uri);

      קוטלין+KTX

      var bitmap: Bitmap = MediaStore.Images.Media.getBitmap(contentResolver, uri)
    2. לחלופין, הקטן את התמונה כדי לחסוך ברוחב הפס. ראה גדלי תמונה מומלצת חזון קלאוד.

      ג'אווה

      private Bitmap scaleBitmapDown(Bitmap bitmap, int maxDimension) {
          int originalWidth = bitmap.getWidth();
          int originalHeight = bitmap.getHeight();
          int resizedWidth = maxDimension;
          int resizedHeight = maxDimension;
      
          if (originalHeight > originalWidth) {
              resizedHeight = maxDimension;
              resizedWidth = (int) (resizedHeight * (float) originalWidth / (float) originalHeight);
          } else if (originalWidth > originalHeight) {
              resizedWidth = maxDimension;
              resizedHeight = (int) (resizedWidth * (float) originalHeight / (float) originalWidth);
          } else if (originalHeight == originalWidth) {
              resizedHeight = maxDimension;
              resizedWidth = maxDimension;
          }
          return Bitmap.createScaledBitmap(bitmap, resizedWidth, resizedHeight, false);
      }

      קוטלין+KTX

      private fun scaleBitmapDown(bitmap: Bitmap, maxDimension: Int): Bitmap {
          val originalWidth = bitmap.width
          val originalHeight = bitmap.height
          var resizedWidth = maxDimension
          var resizedHeight = maxDimension
          if (originalHeight > originalWidth) {
              resizedHeight = maxDimension
              resizedWidth =
                      (resizedHeight * originalWidth.toFloat() / originalHeight.toFloat()).toInt()
          } else if (originalWidth > originalHeight) {
              resizedWidth = maxDimension
              resizedHeight =
                      (resizedWidth * originalHeight.toFloat() / originalWidth.toFloat()).toInt()
          } else if (originalHeight == originalWidth) {
              resizedHeight = maxDimension
              resizedWidth = maxDimension
          }
          return Bitmap.createScaledBitmap(bitmap, resizedWidth, resizedHeight, false)
      }

      ג'אווה

      // Scale down bitmap size
      bitmap = scaleBitmapDown(bitmap, 640);

      קוטלין+KTX

      // Scale down bitmap size
      bitmap = scaleBitmapDown(bitmap, 640)
    3. המרת אובייקט מפת הסיביות למחרוזת מקודדת base64:

      ג'אווה

      // Convert bitmap to base64 encoded string
      ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();
      bitmap.compress(Bitmap.CompressFormat.JPEG, 100, byteArrayOutputStream);
      byte[] imageBytes = byteArrayOutputStream.toByteArray();
      String base64encoded = Base64.encodeToString(imageBytes, Base64.NO_WRAP);

      קוטלין+KTX

      // Convert bitmap to base64 encoded string
      val byteArrayOutputStream = ByteArrayOutputStream()
      bitmap.compress(Bitmap.CompressFormat.JPEG, 100, byteArrayOutputStream)
      val imageBytes: ByteArray = byteArrayOutputStream.toByteArray()
      val base64encoded = Base64.encodeToString(imageBytes, Base64.NO_WRAP)
    4. הדימוי המיוצג על ידי Bitmap האובייקט חייב להיות זקוף, ללא רוטציה נוספת הנדרשת.

    2. הפעל את הפונקציה שניתן להתקשר לזיהוי טקסט

    לזיהוי טקסט בתמונה, להפעיל את הפונקציה callable, העברת בקשה JSON חזון קלאוד .

    1. ראשית, אתחל מופע של פונקציות ענן:

      ג'אווה

      private FirebaseFunctions mFunctions;
      // ...
      mFunctions = FirebaseFunctions.getInstance();
      

      קוטלין+KTX

      private lateinit var functions: FirebaseFunctions
      // ...
      functions = Firebase.functions
      
    2. הגדר שיטה להפעלת הפונקציה:

      ג'אווה

      private Task<JsonElement> annotateImage(String requestJson) {
          return mFunctions
                  .getHttpsCallable("annotateImage")
                  .call(requestJson)
                  .continueWith(new Continuation<HttpsCallableResult, JsonElement>() {
                      @Override
                      public JsonElement then(@NonNull Task<HttpsCallableResult> task) {
                          // This continuation runs on either success or failure, but if the task
                          // has failed then getResult() will throw an Exception which will be
                          // propagated down.
                          return JsonParser.parseString(new Gson().toJson(task.getResult().getData()));
                      }
                  });
      }
      

      קוטלין+KTX

      private fun annotateImage(requestJson: String): Task<JsonElement> {
          return functions
                  .getHttpsCallable("annotateImage")
                  .call(requestJson)
                  .continueWith { task ->
                      // This continuation runs on either success or failure, but if the task
                      // has failed then result will throw an Exception which will be
                      // propagated down.
                      val result = task.result?.data
                      JsonParser.parseString(Gson().toJson(result))
                  }
      }
      
    3. צור את בקשת JSON. ה- API של חזון קלאוד תומך בשני סוגים של זיהוי טקסט: TEXT_DETECTION ו DOCUMENT_TEXT_DETECTION . עיין חזון קלאוד OCR Docs עבור ההבדל בין שני המקרים השימוש.

      ג'אווה

      // Create json request to cloud vision
      JsonObject request = new JsonObject();
      // Add image to request
      JsonObject image = new JsonObject();
      image.add("content", new JsonPrimitive(base64encoded));
      request.add("image", image);
      //Add features to the request
      JsonObject feature = new JsonObject();
      feature.add("type", new JsonPrimitive("TEXT_DETECTION"));
      // Alternatively, for DOCUMENT_TEXT_DETECTION:
      //feature.add("type", new JsonPrimitive("DOCUMENT_TEXT_DETECTION"));
      JsonArray features = new JsonArray();
      features.add(feature);
      request.add("features", features);
      

      קוטלין+KTX

      // Create json request to cloud vision
      val request = JsonObject()
      // Add image to request
      val image = JsonObject()
      image.add("content", JsonPrimitive(base64encoded))
      request.add("image", image)
      //Add features to the request
      val feature = JsonObject()
      feature.add("type", JsonPrimitive("TEXT_DETECTION"))
      // Alternatively, for DOCUMENT_TEXT_DETECTION:
      // feature.add("type", JsonPrimitive("DOCUMENT_TEXT_DETECTION"))
      val features = JsonArray()
      features.add(feature)
      request.add("features", features)
      

      לחלופין, לספק רמזים בשפה לסייע באמצעות זיהוי שפה (ראה שפות נתמכות ):

      ג'אווה

      JsonObject imageContext = new JsonObject();
      JsonArray languageHints = new JsonArray();
      languageHints.add("en");
      imageContext.add("languageHints", languageHints);
      request.add("imageContext", imageContext);
      

      קוטלין+KTX

      val imageContext = JsonObject()
      val languageHints = JsonArray()
      languageHints.add("en")
      imageContext.add("languageHints", languageHints)
      request.add("imageContext", imageContext)
      
    4. לבסוף, הפעל את הפונקציה:

      ג'אווה

      annotateImage(request.toString())
              .addOnCompleteListener(new OnCompleteListener<JsonElement>() {
                  @Override
                  public void onComplete(@NonNull Task<JsonElement> task) {
                      if (!task.isSuccessful()) {
                          // Task failed with an exception
                          // ...
                      } else {
                          // Task completed successfully
                          // ...
                      }
                  }
              });
      

      קוטלין+KTX

      annotateImage(request.toString())
              .addOnCompleteListener { task ->
                  if (!task.isSuccessful) {
                      // Task failed with an exception
                      // ...
                  } else {
                      // Task completed successfully
                      // ...
                  }
              }
      

    3. חלץ טקסט מגושי טקסט מוכרים

    אם פעולת זיהוי טקסט מצליחה, תגובת JSON של BatchAnnotateImagesResponse תוחזר התוצאה של המשימה. כיתובי הטקסט ניתן למצוא fullTextAnnotation האובייקט.

    אתה יכול לקבל את הטקסט המזוהה כמחרוזת של text השדה. לדוגמה:

    ג'אווה

    JsonObject annotation = task.getResult().getAsJsonArray().get(0).getAsJsonObject().get("fullTextAnnotation").getAsJsonObject();
    System.out.format("%nComplete annotation:%n");
    System.out.format("%s%n", annotation.get("text").getAsString());
    

    קוטלין+KTX

    val annotation = task.result!!.asJsonArray[0].asJsonObject["fullTextAnnotation"].asJsonObject
    System.out.format("%nComplete annotation:")
    System.out.format("%n%s", annotation["text"].asString)
    

    תוכל גם לקבל מידע ספציפי לאזורי התמונה. עבור כול block , paragraph , word , ואת symbol , אתה יכול לקבל את הטקסט מזוהה באזור ואת הציון התוחם של האזור. לדוגמה:

    ג'אווה

    for (JsonElement page : annotation.get("pages").getAsJsonArray()) {
        StringBuilder pageText = new StringBuilder();
        for (JsonElement block : page.getAsJsonObject().get("blocks").getAsJsonArray()) {
            StringBuilder blockText = new StringBuilder();
            for (JsonElement para : block.getAsJsonObject().get("paragraphs").getAsJsonArray()) {
                StringBuilder paraText = new StringBuilder();
                for (JsonElement word : para.getAsJsonObject().get("words").getAsJsonArray()) {
                    StringBuilder wordText = new StringBuilder();
                    for (JsonElement symbol : word.getAsJsonObject().get("symbols").getAsJsonArray()) {
                        wordText.append(symbol.getAsJsonObject().get("text").getAsString());
                        System.out.format("Symbol text: %s (confidence: %f)%n", symbol.getAsJsonObject().get("text").getAsString(), symbol.getAsJsonObject().get("confidence").getAsFloat());
                    }
                    System.out.format("Word text: %s (confidence: %f)%n%n", wordText.toString(), word.getAsJsonObject().get("confidence").getAsFloat());
                    System.out.format("Word bounding box: %s%n", word.getAsJsonObject().get("boundingBox"));
                    paraText.append(wordText.toString()).append(" ");
                }
                System.out.format("%nParagraph:%n%s%n", paraText);
                System.out.format("Paragraph bounding box: %s%n", para.getAsJsonObject().get("boundingBox"));
                System.out.format("Paragraph Confidence: %f%n", para.getAsJsonObject().get("confidence").getAsFloat());
                blockText.append(paraText);
            }
            pageText.append(blockText);
        }
    }
    

    קוטלין+KTX

    for (page in annotation["pages"].asJsonArray) {
        var pageText = ""
        for (block in page.asJsonObject["blocks"].asJsonArray) {
            var blockText = ""
            for (para in block.asJsonObject["paragraphs"].asJsonArray) {
                var paraText = ""
                for (word in para.asJsonObject["words"].asJsonArray) {
                    var wordText = ""
                    for (symbol in word.asJsonObject["symbols"].asJsonArray) {
                        wordText += symbol.asJsonObject["text"].asString
                        System.out.format("Symbol text: %s (confidence: %f)%n",
                            symbol.asJsonObject["text"].asString, symbol.asJsonObject["confidence"].asFloat)
                    }
                    System.out.format("Word text: %s (confidence: %f)%n%n", wordText,
                        word.asJsonObject["confidence"].asFloat)
                    System.out.format("Word bounding box: %s%n", word.asJsonObject["boundingBox"])
                    paraText = String.format("%s%s ", paraText, wordText)
                }
                System.out.format("%nParagraph: %n%s%n", paraText)
                System.out.format("Paragraph bounding box: %s%n", para.asJsonObject["boundingBox"])
                System.out.format("Paragraph Confidence: %f%n", para.asJsonObject["confidence"].asFloat)
                blockText += paraText
            }
            pageText += blockText
        }
    }