זיהוי פנים באמצעות ML Kit ב-Android

אפשר להשתמש ב-ML Kit כדי לזהות פנים בתמונות ובסרטונים.

לפני שמתחילים

  1. אם עדיין לא עשיתם זאת, מוסיפים את Firebase לפרויקט Android.
  2. מוסיפים את יחסי התלות של ספריות ML Kit ל-Android לקובץ Gradle של המודול (ברמת האפליקציה) (בדרך כלל app/build.gradle):
    apply plugin: 'com.android.application'
    apply plugin: 'com.google.gms.google-services'
    
    dependencies {
      // ...
    
      implementation 'com.google.firebase:firebase-ml-vision:24.0.3'
      // If you want to detect face contours (landmark detection and classification
      // don't require this additional model):
      implementation 'com.google.firebase:firebase-ml-vision-face-model:20.0.1'
    }
  3. אופציונלי אבל מומלץ: מגדירים את האפליקציה כך שתוריד את מודל ה-ML למכשיר באופן אוטומטי אחרי שתתקינו את האפליקציה מחנות Play.

    כדי לעשות את זה, צריך להוסיף את ההצהרה הבאה להצהרה של האפליקציה קובץ AndroidManifest.xml:

    <application ...>
      ...
      <meta-data
          android:name="com.google.firebase.ml.vision.DEPENDENCIES"
          android:value="face" />
      <!-- To use multiple models: android:value="face,model2,model3" -->
    </application>
    אם לא תפעילו הורדות של מודלים בזמן ההתקנה, המודל הורדתם בפעם הראשונה שתפעילו את הגלאי. בקשות שאתם שולחים לפני שההורדה הושלמה לא יניבו תוצאות.

הנחיות להוספת תמונה

כדי ש-ML Kit יזהה פנים בצורה מדויקת, תמונות הקלט חייבות להכיל פנים שמיוצגים על ידי מספיק נתוני פיקסלים. באופן כללי, כל פנים שרוצים לזיהוי תמונה, צריכים להיות לפחות 100x100 פיקסלים. אם רוצים לזהות את קווי המתאר של הפנים, ל-ML Kit נדרש קלט ברזולוציה גבוהה יותר: כל פנים צריכה להיות לפחות 200x200 פיקסלים.

אם אתם מזהים פנים באפליקציה בזמן אמת, כדאי גם להביא בחשבון את המימדים הכוללים של תמונות הקלט. ניתן להשתמש בתמונות קטנות יותר מעובדות מהר יותר, כדי לצמצם את זמן האחזור, לצלם תמונות ברזולוציה נמוכה יותר (תוך התחשבות בדרישות הדיוק שצוינו למעלה), ולוודא הפנים של מושא הצילום תופסות כמה שיותר מהתמונה. ראו גם טיפים לשיפור הביצועים בזמן אמת.

מיקוד תמונה לא טוב עלול לפגוע בדיוק. אם לא מתקבלות תוצאות מקובלות, נסו לבקש מהמשתמש לצלם מחדש את התמונה.

הכיוון של הפנים ביחס למצלמה יכול להשפיע גם על ש-ML Kit מזהה. צפייה זיהוי פנים מושגים.

1. הגדרת גלאי הפנים

לפני שמפעילים זיהוי פנים בתמונה, אם רוצים לשנות את הגדרות ברירת המחדל של הכלי לזיהוי פנים, צריך לציין את ההגדרות האלה באמצעות אובייקט FirebaseVisionFaceDetectorOptions. אפשר לשנות את ההגדרות הבאות:

הגדרות
מצב ביצועים FAST (ברירת המחדל) | ACCURATE

להעדיף מהירות או דיוק בזיהוי פנים.

זיהוי ציוני דרך NO_LANDMARKS (ברירת מחדל) | ALL_LANDMARKS

האם לנסות לזהות "סימני דרך" לפנים: עיניים, אוזניים, אף, הלחיים, הפה וכו'.

זיהוי קווי מתאר NO_CONTOURS (ברירת מחדל) | ALL_CONTOURS

הגדרה שקובעת אם לזהות את קווי המתאר של תווי הפנים. קווי מתאר הם לזהות רק את הפנים הבולטות ביותר בתמונה.

סיווג פנים NO_CLASSIFICATIONS (ברירת המחדל) | ALL_CLASSIFICATIONS

האם לסווג את הפנים לקטגוריות כמו 'חיוך' ו'עיניים פקוחות'.

גודל פנים מינימלי float (ברירת מחדל: 0.1f)

הגודל המינימלי, ביחס לתמונה, של הפנים לזיהוי.

הפעלת מעקב אחר הפנים false (ברירת מחדל) | true

האם להקצות או לא להקצות מזהה, שיכול לשמש כדי לעקוב פנים בין תמונות.

חשוב לזכור שכאשר התכונה 'זיהוי קווי מתאר' מופעלת, מזוהה רק פנים אחד, ולכן מעקב אחר הפנים לא מניב תוצאות שימושיות. בשביל זה סיבה, וכדי לשפר את מהירות הזיהוי, אל תפעילו שני קווי מתאר זיהוי פנים ומעקב אחר הפנים.

לדוגמה:

Java

// High-accuracy landmark detection and face classification
FirebaseVisionFaceDetectorOptions highAccuracyOpts =
        new FirebaseVisionFaceDetectorOptions.Builder()
                .setPerformanceMode(FirebaseVisionFaceDetectorOptions.ACCURATE)
                .setLandmarkMode(FirebaseVisionFaceDetectorOptions.ALL_LANDMARKS)
                .setClassificationMode(FirebaseVisionFaceDetectorOptions.ALL_CLASSIFICATIONS)
                .build();

// Real-time contour detection of multiple faces
FirebaseVisionFaceDetectorOptions realTimeOpts =
        new FirebaseVisionFaceDetectorOptions.Builder()
                .setContourMode(FirebaseVisionFaceDetectorOptions.ALL_CONTOURS)
                .build();

Kotlin+KTX

// High-accuracy landmark detection and face classification
val highAccuracyOpts = FirebaseVisionFaceDetectorOptions.Builder()
        .setPerformanceMode(FirebaseVisionFaceDetectorOptions.ACCURATE)
        .setLandmarkMode(FirebaseVisionFaceDetectorOptions.ALL_LANDMARKS)
        .setClassificationMode(FirebaseVisionFaceDetectorOptions.ALL_CLASSIFICATIONS)
        .build()

// Real-time contour detection of multiple faces
val realTimeOpts = FirebaseVisionFaceDetectorOptions.Builder()
        .setContourMode(FirebaseVisionFaceDetectorOptions.ALL_CONTOURS)
        .build()

2. הפעלת הכלי לזיהוי פנים

כדי לזהות פנים בתמונה, יוצרים אובייקט FirebaseVisionImage מ-Bitmap, מ-media.Image, מ-ByteBuffer, ממערך בייטים או מקובץ במכשיר. לאחר מכן מעבירים את האובייקט FirebaseVisionImage אל השיטה detectInImage של FirebaseVisionFaceDetector.

כדי לבצע זיהוי פנים, עליך להשתמש בתמונה עם מידות של לפחות 480x360 פיקסלים. אם אתם מזהים פנים בזמן אמת, אתם יכולים לצלם פריימים ברזולוציה המינימלית הזו, יעזרו לכם לצמצם את זמן האחזור.

  1. יוצרים אובייקט FirebaseVisionImage מהתמונה.

    • כדי ליצור אובייקט FirebaseVisionImage מתוך media.Image אובייקט, למשל בזמן צילום תמונה מתוך של המכשיר, מעבירים את האובייקט media.Image ל-FirebaseVisionImage.fromMediaImage().

      אם משתמשים ספריית CameraX, OnImageCapturedListener ImageAnalysis.Analyzer מחלקות מחשבים את ערך הסבב בשבילך, צריך רק להמיר את הסבב ROTATION_ קבועים לפני הקריאה FirebaseVisionImage.fromMediaImage():

      Java

      private class YourAnalyzer implements ImageAnalysis.Analyzer {
      
          private int degreesToFirebaseRotation(int degrees) {
              switch (degrees) {
                  case 0:
                      return FirebaseVisionImageMetadata.ROTATION_0;
                  case 90:
                      return FirebaseVisionImageMetadata.ROTATION_90;
                  case 180:
                      return FirebaseVisionImageMetadata.ROTATION_180;
                  case 270:
                      return FirebaseVisionImageMetadata.ROTATION_270;
                  default:
                      throw new IllegalArgumentException(
                              "Rotation must be 0, 90, 180, or 270.");
              }
          }
      
          @Override
          public void analyze(ImageProxy imageProxy, int degrees) {
              if (imageProxy == null || imageProxy.getImage() == null) {
                  return;
              }
              Image mediaImage = imageProxy.getImage();
              int rotation = degreesToFirebaseRotation(degrees);
              FirebaseVisionImage image =
                      FirebaseVisionImage.fromMediaImage(mediaImage, rotation);
              // Pass image to an ML Kit Vision API
              // ...
          }
      }

      Kotlin+KTX

      private class YourImageAnalyzer : ImageAnalysis.Analyzer {
          private fun degreesToFirebaseRotation(degrees: Int): Int = when(degrees) {
              0 -> FirebaseVisionImageMetadata.ROTATION_0
              90 -> FirebaseVisionImageMetadata.ROTATION_90
              180 -> FirebaseVisionImageMetadata.ROTATION_180
              270 -> FirebaseVisionImageMetadata.ROTATION_270
              else -> throw Exception("Rotation must be 0, 90, 180, or 270.")
          }
      
          override fun analyze(imageProxy: ImageProxy?, degrees: Int) {
              val mediaImage = imageProxy?.image
              val imageRotation = degreesToFirebaseRotation(degrees)
              if (mediaImage != null) {
                  val image = FirebaseVisionImage.fromMediaImage(mediaImage, imageRotation)
                  // Pass image to an ML Kit Vision API
                  // ...
              }
          }
      }

      אם לא משתמשים בספריית מצלמה שמאפשרת סיבוב תמונה, הוא יכול לחשב אותו על סמך סיבוב המכשיר וכיוון המצלמה החיישן במכשיר:

      Java

      private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
      static {
          ORIENTATIONS.append(Surface.ROTATION_0, 90);
          ORIENTATIONS.append(Surface.ROTATION_90, 0);
          ORIENTATIONS.append(Surface.ROTATION_180, 270);
          ORIENTATIONS.append(Surface.ROTATION_270, 180);
      }
      
      /**
       * Get the angle by which an image must be rotated given the device's current
       * orientation.
       */
      @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
      private int getRotationCompensation(String cameraId, Activity activity, Context context)
              throws CameraAccessException {
          // Get the device's current rotation relative to its "native" orientation.
          // Then, from the ORIENTATIONS table, look up the angle the image must be
          // rotated to compensate for the device's rotation.
          int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
          int rotationCompensation = ORIENTATIONS.get(deviceRotation);
      
          // On most devices, the sensor orientation is 90 degrees, but for some
          // devices it is 270 degrees. For devices with a sensor orientation of
          // 270, rotate the image an additional 180 ((270 + 270) % 360) degrees.
          CameraManager cameraManager = (CameraManager) context.getSystemService(CAMERA_SERVICE);
          int sensorOrientation = cameraManager
                  .getCameraCharacteristics(cameraId)
                  .get(CameraCharacteristics.SENSOR_ORIENTATION);
          rotationCompensation = (rotationCompensation + sensorOrientation + 270) % 360;
      
          // Return the corresponding FirebaseVisionImageMetadata rotation value.
          int result;
          switch (rotationCompensation) {
              case 0:
                  result = FirebaseVisionImageMetadata.ROTATION_0;
                  break;
              case 90:
                  result = FirebaseVisionImageMetadata.ROTATION_90;
                  break;
              case 180:
                  result = FirebaseVisionImageMetadata.ROTATION_180;
                  break;
              case 270:
                  result = FirebaseVisionImageMetadata.ROTATION_270;
                  break;
              default:
                  result = FirebaseVisionImageMetadata.ROTATION_0;
                  Log.e(TAG, "Bad rotation value: " + rotationCompensation);
          }
          return result;
      }

      Kotlin+KTX

      private val ORIENTATIONS = SparseIntArray()
      
      init {
          ORIENTATIONS.append(Surface.ROTATION_0, 90)
          ORIENTATIONS.append(Surface.ROTATION_90, 0)
          ORIENTATIONS.append(Surface.ROTATION_180, 270)
          ORIENTATIONS.append(Surface.ROTATION_270, 180)
      }
      /**
       * Get the angle by which an image must be rotated given the device's current
       * orientation.
       */
      @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
      @Throws(CameraAccessException::class)
      private fun getRotationCompensation(cameraId: String, activity: Activity, context: Context): Int {
          // Get the device's current rotation relative to its "native" orientation.
          // Then, from the ORIENTATIONS table, look up the angle the image must be
          // rotated to compensate for the device's rotation.
          val deviceRotation = activity.windowManager.defaultDisplay.rotation
          var rotationCompensation = ORIENTATIONS.get(deviceRotation)
      
          // On most devices, the sensor orientation is 90 degrees, but for some
          // devices it is 270 degrees. For devices with a sensor orientation of
          // 270, rotate the image an additional 180 ((270 + 270) % 360) degrees.
          val cameraManager = context.getSystemService(CAMERA_SERVICE) as CameraManager
          val sensorOrientation = cameraManager
                  .getCameraCharacteristics(cameraId)
                  .get(CameraCharacteristics.SENSOR_ORIENTATION)!!
          rotationCompensation = (rotationCompensation + sensorOrientation + 270) % 360
      
          // Return the corresponding FirebaseVisionImageMetadata rotation value.
          val result: Int
          when (rotationCompensation) {
              0 -> result = FirebaseVisionImageMetadata.ROTATION_0
              90 -> result = FirebaseVisionImageMetadata.ROTATION_90
              180 -> result = FirebaseVisionImageMetadata.ROTATION_180
              270 -> result = FirebaseVisionImageMetadata.ROTATION_270
              else -> {
                  result = FirebaseVisionImageMetadata.ROTATION_0
                  Log.e(TAG, "Bad rotation value: $rotationCompensation")
              }
          }
          return result
      }

      לאחר מכן, מעבירים את האובייקט media.Image ל-FirebaseVisionImage.fromMediaImage():

      Java

      FirebaseVisionImage image = FirebaseVisionImage.fromMediaImage(mediaImage, rotation);

      Kotlin+KTX

      val image = FirebaseVisionImage.fromMediaImage(mediaImage, rotation)
    • כדי ליצור אובייקט FirebaseVisionImage מ-URI של קובץ, מעבירים את ההקשר של האפליקציה ואת ה-URI של הקובץ FirebaseVisionImage.fromFilePath(). זה שימושי כאשר משתמשים ב-Intent ACTION_GET_CONTENT כדי לבקש מהמשתמש לבחור תמונה מאפליקציית הגלריה.

      Java

      FirebaseVisionImage image;
      try {
          image = FirebaseVisionImage.fromFilePath(context, uri);
      } catch (IOException e) {
          e.printStackTrace();
      }

      Kotlin+KTX

      val image: FirebaseVisionImage
      try {
          image = FirebaseVisionImage.fromFilePath(context, uri)
      } catch (e: IOException) {
          e.printStackTrace()
      }
    • כדי ליצור אובייקט FirebaseVisionImage מתוך ByteBuffer או מערך בייטים, מחשבים קודם את התמונה של סיבוב הנתונים כפי שמתואר למעלה עבור קלט media.Image.

      לאחר מכן, יוצרים אובייקט FirebaseVisionImageMetadata שמכיל את הגובה, הרוחב, פורמט קידוד הצבע של התמונה וסבב:

      Java

      FirebaseVisionImageMetadata metadata = new FirebaseVisionImageMetadata.Builder()
              .setWidth(480)   // 480x360 is typically sufficient for
              .setHeight(360)  // image recognition
              .setFormat(FirebaseVisionImageMetadata.IMAGE_FORMAT_NV21)
              .setRotation(rotation)
              .build();

      Kotlin+KTX

      val metadata = FirebaseVisionImageMetadata.Builder()
              .setWidth(480) // 480x360 is typically sufficient for
              .setHeight(360) // image recognition
              .setFormat(FirebaseVisionImageMetadata.IMAGE_FORMAT_NV21)
              .setRotation(rotation)
              .build()

      משתמשים במאגר הנתונים הזמני או במערך ובאובייקט המטא-נתונים כדי ליצור אובייקט FirebaseVisionImage:

      Java

      FirebaseVisionImage image = FirebaseVisionImage.fromByteBuffer(buffer, metadata);
      // Or: FirebaseVisionImage image = FirebaseVisionImage.fromByteArray(byteArray, metadata);

      Kotlin+KTX

      val image = FirebaseVisionImage.fromByteBuffer(buffer, metadata)
      // Or: val image = FirebaseVisionImage.fromByteArray(byteArray, metadata)
    • כדי ליצור אובייקט FirebaseVisionImage מאובייקט Bitmap:

      Java

      FirebaseVisionImage image = FirebaseVisionImage.fromBitmap(bitmap);

      Kotlin+KTX

      val image = FirebaseVisionImage.fromBitmap(bitmap)
      התמונה שמיוצגת על ידי האובייקט Bitmap חייבת להיות זקוף, ללא צורך בסיבוב נוסף.
  2. מקבלים מופע של FirebaseVisionFaceDetector:

    Java

    FirebaseVisionFaceDetector detector = FirebaseVision.getInstance()
            .getVisionFaceDetector(options);

    Kotlin+KTX

    val detector = FirebaseVision.getInstance()
            .getVisionFaceDetector(options)
  3. לבסוף, מעבירים את התמונה ל-method detectInImage:

    Java

    Task<List<FirebaseVisionFace>> result =
            detector.detectInImage(image)
                    .addOnSuccessListener(
                            new OnSuccessListener<List<FirebaseVisionFace>>() {
                                @Override
                                public void onSuccess(List<FirebaseVisionFace> faces) {
                                    // Task completed successfully
                                    // ...
                                }
                            })
                    .addOnFailureListener(
                            new OnFailureListener() {
                                @Override
                                public void onFailure(@NonNull Exception e) {
                                    // Task failed with an exception
                                    // ...
                                }
                            });

    Kotlin+KTX

    val result = detector.detectInImage(image)
            .addOnSuccessListener { faces ->
                // Task completed successfully
                // ...
            }
            .addOnFailureListener { e ->
                // Task failed with an exception
                // ...
            }

3. קבלת מידע על פנים שזוהו

אם פעולת זיהוי הפנים מצליחה, רשימה של FirebaseVisionFace אובייקטים יועברו להצלחה ל-הקשיב. כל אובייקט FirebaseVisionFace מייצג פנים שזוהו בתמונה. עבור כל פנים ניתן לקבל את הקואורדינטות התוחמות בקלט וגם כל מידע אחר שהגדרתם עבורו את גלאי הפנים למצוא. לדוגמה:

Java

for (FirebaseVisionFace face : faces) {
    Rect bounds = face.getBoundingBox();
    float rotY = face.getHeadEulerAngleY();  // Head is rotated to the right rotY degrees
    float rotZ = face.getHeadEulerAngleZ();  // Head is tilted sideways rotZ degrees

    // If landmark detection was enabled (mouth, ears, eyes, cheeks, and
    // nose available):
    FirebaseVisionFaceLandmark leftEar = face.getLandmark(FirebaseVisionFaceLandmark.LEFT_EAR);
    if (leftEar != null) {
        FirebaseVisionPoint leftEarPos = leftEar.getPosition();
    }

    // If contour detection was enabled:
    List<FirebaseVisionPoint> leftEyeContour =
            face.getContour(FirebaseVisionFaceContour.LEFT_EYE).getPoints();
    List<FirebaseVisionPoint> upperLipBottomContour =
            face.getContour(FirebaseVisionFaceContour.UPPER_LIP_BOTTOM).getPoints();

    // If classification was enabled:
    if (face.getSmilingProbability() != FirebaseVisionFace.UNCOMPUTED_PROBABILITY) {
        float smileProb = face.getSmilingProbability();
    }
    if (face.getRightEyeOpenProbability() != FirebaseVisionFace.UNCOMPUTED_PROBABILITY) {
        float rightEyeOpenProb = face.getRightEyeOpenProbability();
    }

    // If face tracking was enabled:
    if (face.getTrackingId() != FirebaseVisionFace.INVALID_ID) {
        int id = face.getTrackingId();
    }
}

Kotlin+KTX

for (face in faces) {
    val bounds = face.boundingBox
    val rotY = face.headEulerAngleY // Head is rotated to the right rotY degrees
    val rotZ = face.headEulerAngleZ // Head is tilted sideways rotZ degrees

    // If landmark detection was enabled (mouth, ears, eyes, cheeks, and
    // nose available):
    val leftEar = face.getLandmark(FirebaseVisionFaceLandmark.LEFT_EAR)
    leftEar?.let {
        val leftEarPos = leftEar.position
    }

    // If contour detection was enabled:
    val leftEyeContour = face.getContour(FirebaseVisionFaceContour.LEFT_EYE).points
    val upperLipBottomContour = face.getContour(FirebaseVisionFaceContour.UPPER_LIP_BOTTOM).points

    // If classification was enabled:
    if (face.smilingProbability != FirebaseVisionFace.UNCOMPUTED_PROBABILITY) {
        val smileProb = face.smilingProbability
    }
    if (face.rightEyeOpenProbability != FirebaseVisionFace.UNCOMPUTED_PROBABILITY) {
        val rightEyeOpenProb = face.rightEyeOpenProbability
    }

    // If face tracking was enabled:
    if (face.trackingId != FirebaseVisionFace.INVALID_ID) {
        val id = face.trackingId
    }
}

דוגמה לקווי מתאר של פנים

כשזיהוי קווי הפנים מופעל, מקבלים רשימה של נקודות עבור שכל תכונת פנים שזוהתה. הנקודות האלה מייצגות את הצורה של התכונה. הצגת הפנים סקירה כללית של מושגי זיהוי לקבלת פרטים על קווי המתאר שמיוצגים על ידיכם.

בתמונה הבאה אפשר לראות איך הנקודות האלה ממפות לפנים (כדי להגדיל את התמונה, לוחצים עליה):

זיהוי פנים בזמן אמת

כדי להשתמש בזיהוי פנים באפליקציה בזמן אמת, צריך לפעול לפי השלבים הבאים כדי להשיג את קצבי הפריימים הטובים ביותר:

  • מגדירים את גלאי הפנים כך שישתמש בזיהוי קווי המתאר של הפנים או בסיווג ובזיהוי ציוני דרך, אבל לא בשניהם:

    זיהוי קווי מתאר
    זיהוי ציוני דרך
    סיווג
    זיהוי וסיווג של ציוני דרך
    זיהוי קווי מתאר וזיהוי של ציוני דרך
    זיהוי וסיווג של קווי מתאר
    זיהוי קווי מתאר, זיהוי של ציוני דרך וסיווג

  • מפעילים את מצב FAST (הוא מופעל כברירת מחדל).

  • כדאי לצלם תמונות ברזולוציה נמוכה יותר. עם זאת, חשוב לזכור גם את הדרישות לגבי מידות התמונות ב-API הזה.

  • ויסות נתונים (throttle) קריאות לגלאי. אם פריים חדש בסרטון הופך בזמן שהגלאי פועל, משחררים את הפריים.
  • אם אתם משתמשים בפלט של הגלאי כדי להוסיף שכבת-על של גרפיקה לתמונה הקלט, קודם צריך לקבל את התוצאה מ-ML Kit, ואז לבצע עיבוד (רנדור) של התמונה ולהוסיף את שכבת-העל בשלב אחד. כך תוכלו לבצע עיבוד (רנדור) למשטח התצוגה רק פעם אחת לכל מסגרת קלט.
  • אם אתם משתמשים ב-Camera2 API, כדאי לצלם תמונות בפורמט ImageFormat.YUV_420_888.

    אם משתמשים בגרסה הישנה של ממשק ה-API של המצלמה, מצלמים תמונות ב פורמט של ImageFormat.NV21.