Firebase Summit で発表されたすべての情報をご覧ください。Firebase を使用してアプリ開発を加速し、自信を持ってアプリを実行する方法を紹介しています。詳細

AndroidのMLキットを使用してオブジェクトを検出および追跡する

コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ML Kit を使用して、ビデオのフレーム全体でオブジェクトを検出および追跡できます。

ML Kit 画像を渡すと、ML Kit は画像ごとに、検出された最大 5 つのオブジェクトと画像内の位置のリストを返します。ビデオ ストリーム内のオブジェクトを検出する場合、すべてのオブジェクトには ID があり、これを使用して画像間でオブジェクトを追跡できます。必要に応じて、大まかなオブジェクト分類を有効にすることもできます。これは、大まかなカテゴリの説明でオブジェクトにラベルを付けます。

あなたが始める前に

  1. まだ行っていない場合は、 Firebase を Android プロジェクトに追加します
  2. ML Kit Android ライブラリの依存関係をモジュール (アプリレベル) の Gradle ファイル (通常はapp/build.gradle ) に追加します:
    apply plugin: 'com.android.application'
    apply plugin: 'com.google.gms.google-services'
    
    dependencies {
      // ...
    
      implementation 'com.google.firebase:firebase-ml-vision:24.0.3'
      implementation 'com.google.firebase:firebase-ml-vision-object-detection-model:19.0.6'
    }
    

1.オブジェクト検出器を構成する

オブジェクトの検出と追跡を開始するには、まずFirebaseVisionObjectDetectorのインスタンスを作成し、必要に応じてデフォルトから変更する検出器の設定を指定します。

  1. FirebaseVisionObjectDetectorOptionsオブジェクトを使用して、ユース ケースのオブジェクト ディテクタを構成します。次の設定を変更できます。

    物体検出器の設定
    検出モードSTREAM_MODE (デフォルト) | SINGLE_IMAGE_MODE

    STREAM_MODE (デフォルト) では、オブジェクト検出器は低レイテンシーで実行されますが、検出器の最初の数回の呼​​び出しで不完全な結果 (指定されていない境界ボックスやカテゴリ ラベルなど) が生成される可能性があります。また、 STREAM_MODEでは、ディテクタは追跡 ID をオブジェクトに割り当てます。これを使用して、フレーム全体でオブジェクトを追跡できます。このモードは、オブジェクトを追跡する場合、またはビデオ ストリームをリアルタイムで処理する場合など、低遅延が重要な場合に使用します。

    SINGLE_IMAGE_MODEでは、オブジェクト検出器は、結果を返す前に、検出されたオブジェクトの境界ボックスと (分類を有効にした場合) カテゴリ ラベルが使用可能になるまで待機します。結果として、検出の待ち時間が長くなる可能性があります。また、 SINGLE_IMAGE_MODEでは、トラッキング ID は割り当てられません。待ち時間が重要ではなく、部分的な結果を処理したくない場合は、このモードを使用します。

    複数のオブジェクトを検出して追跡するfalse (デフォルト) | true

    最大 5 つのオブジェクトを検出して追跡するか、最も目立つオブジェクトのみを検出して追跡するか (既定)。

    オブジェクトを分類するfalse (デフォルト) | true

    検出されたオブジェクトを大まかなカテゴリに分類するかどうか。有効にすると、物体検出器は物体を次のカテゴリに分類します: ファッション グッズ、食品、家庭用品、場所、植物、不明。

    オブジェクトの検出と追跡の API は、次の 2 つのコア ユース ケース向けに最適化されています。

    • カメラのビューファインダーで最も目立つオブジェクトのライブ検出と追跡
    • 静止画像からの複数物体の検出

    これらのユースケース用に API を設定するには:

    Java

    // Live detection and tracking
    FirebaseVisionObjectDetectorOptions options =
            new FirebaseVisionObjectDetectorOptions.Builder()
                    .setDetectorMode(FirebaseVisionObjectDetectorOptions.STREAM_MODE)
                    .enableClassification()  // Optional
                    .build();
    
    // Multiple object detection in static images
    FirebaseVisionObjectDetectorOptions options =
            new FirebaseVisionObjectDetectorOptions.Builder()
                    .setDetectorMode(FirebaseVisionObjectDetectorOptions.SINGLE_IMAGE_MODE)
                    .enableMultipleObjects()
                    .enableClassification()  // Optional
                    .build();
    

    Kotlin+KTX

    // Live detection and tracking
    val options = FirebaseVisionObjectDetectorOptions.Builder()
            .setDetectorMode(FirebaseVisionObjectDetectorOptions.STREAM_MODE)
            .enableClassification()  // Optional
            .build()
    
    // Multiple object detection in static images
    val options = FirebaseVisionObjectDetectorOptions.Builder()
            .setDetectorMode(FirebaseVisionObjectDetectorOptions.SINGLE_IMAGE_MODE)
            .enableMultipleObjects()
            .enableClassification()  // Optional
            .build()
    
  2. FirebaseVisionObjectDetectorのインスタンスを取得します。

    Java

    FirebaseVisionObjectDetector objectDetector =
            FirebaseVision.getInstance().getOnDeviceObjectDetector();
    
    // Or, to change the default settings:
    FirebaseVisionObjectDetector objectDetector =
            FirebaseVision.getInstance().getOnDeviceObjectDetector(options);
    

    Kotlin+KTX

    val objectDetector = FirebaseVision.getInstance().getOnDeviceObjectDetector()
    
    // Or, to change the default settings:
    val objectDetector = FirebaseVision.getInstance().getOnDeviceObjectDetector(options)
    

2.オブジェクト検出器を実行します

オブジェクトを検出して追跡するには、画像をFirebaseVisionObjectDetectorインスタンスのprocessImage()メソッドに渡します。

シーケンス内のビデオまたは画像の各フレームに対して、次の操作を行います。

  1. 画像からFirebaseVisionImageオブジェクトを作成します。

    • デバイスのカメラから画像をキャプチャする場合など、 media.ImageオブジェクトからFirebaseVisionImageオブジェクトを作成するには、 media.Imageオブジェクトと画像の回転をFirebaseVisionImage.fromMediaImage()に渡します。

      CameraXライブラリを使用する場合、 OnImageCapturedListenerクラスとImageAnalysis.Analyzerクラスが回転値を計算するため、 FirebaseVisionImage.fromMediaImage()を呼び出す前に、回転を ML Kit のROTATION_定数の 1 つに変換するだけで済みます。

      Java

      private class YourAnalyzer implements ImageAnalysis.Analyzer {
      
          private int degreesToFirebaseRotation(int degrees) {
              switch (degrees) {
                  case 0:
                      return FirebaseVisionImageMetadata.ROTATION_0;
                  case 90:
                      return FirebaseVisionImageMetadata.ROTATION_90;
                  case 180:
                      return FirebaseVisionImageMetadata.ROTATION_180;
                  case 270:
                      return FirebaseVisionImageMetadata.ROTATION_270;
                  default:
                      throw new IllegalArgumentException(
                              "Rotation must be 0, 90, 180, or 270.");
              }
          }
      
          @Override
          public void analyze(ImageProxy imageProxy, int degrees) {
              if (imageProxy == null || imageProxy.getImage() == null) {
                  return;
              }
              Image mediaImage = imageProxy.getImage();
              int rotation = degreesToFirebaseRotation(degrees);
              FirebaseVisionImage image =
                      FirebaseVisionImage.fromMediaImage(mediaImage, rotation);
              // Pass image to an ML Kit Vision API
              // ...
          }
      }
      

      Kotlin+KTX

      private class YourImageAnalyzer : ImageAnalysis.Analyzer {
          private fun degreesToFirebaseRotation(degrees: Int): Int = when(degrees) {
              0 -> FirebaseVisionImageMetadata.ROTATION_0
              90 -> FirebaseVisionImageMetadata.ROTATION_90
              180 -> FirebaseVisionImageMetadata.ROTATION_180
              270 -> FirebaseVisionImageMetadata.ROTATION_270
              else -> throw Exception("Rotation must be 0, 90, 180, or 270.")
          }
      
          override fun analyze(imageProxy: ImageProxy?, degrees: Int) {
              val mediaImage = imageProxy?.image
              val imageRotation = degreesToFirebaseRotation(degrees)
              if (mediaImage != null) {
                  val image = FirebaseVisionImage.fromMediaImage(mediaImage, imageRotation)
                  // Pass image to an ML Kit Vision API
                  // ...
              }
          }
      }
      

      画像の回転を提供するカメラ ライブラリを使用しない場合は、デバイスの回転とデバイス内のカメラ センサーの向きから計算できます。

      Java

      private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
      static {
          ORIENTATIONS.append(Surface.ROTATION_0, 90);
          ORIENTATIONS.append(Surface.ROTATION_90, 0);
          ORIENTATIONS.append(Surface.ROTATION_180, 270);
          ORIENTATIONS.append(Surface.ROTATION_270, 180);
      }
      
      /**
       * Get the angle by which an image must be rotated given the device's current
       * orientation.
       */
      @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
      private int getRotationCompensation(String cameraId, Activity activity, Context context)
              throws CameraAccessException {
          // Get the device's current rotation relative to its "native" orientation.
          // Then, from the ORIENTATIONS table, look up the angle the image must be
          // rotated to compensate for the device's rotation.
          int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
          int rotationCompensation = ORIENTATIONS.get(deviceRotation);
      
          // On most devices, the sensor orientation is 90 degrees, but for some
          // devices it is 270 degrees. For devices with a sensor orientation of
          // 270, rotate the image an additional 180 ((270 + 270) % 360) degrees.
          CameraManager cameraManager = (CameraManager) context.getSystemService(CAMERA_SERVICE);
          int sensorOrientation = cameraManager
                  .getCameraCharacteristics(cameraId)
                  .get(CameraCharacteristics.SENSOR_ORIENTATION);
          rotationCompensation = (rotationCompensation + sensorOrientation + 270) % 360;
      
          // Return the corresponding FirebaseVisionImageMetadata rotation value.
          int result;
          switch (rotationCompensation) {
              case 0:
                  result = FirebaseVisionImageMetadata.ROTATION_0;
                  break;
              case 90:
                  result = FirebaseVisionImageMetadata.ROTATION_90;
                  break;
              case 180:
                  result = FirebaseVisionImageMetadata.ROTATION_180;
                  break;
              case 270:
                  result = FirebaseVisionImageMetadata.ROTATION_270;
                  break;
              default:
                  result = FirebaseVisionImageMetadata.ROTATION_0;
                  Log.e(TAG, "Bad rotation value: " + rotationCompensation);
          }
          return result;
      }

      Kotlin+KTX

      private val ORIENTATIONS = SparseIntArray()
      
      init {
          ORIENTATIONS.append(Surface.ROTATION_0, 90)
          ORIENTATIONS.append(Surface.ROTATION_90, 0)
          ORIENTATIONS.append(Surface.ROTATION_180, 270)
          ORIENTATIONS.append(Surface.ROTATION_270, 180)
      }
      /**
       * Get the angle by which an image must be rotated given the device's current
       * orientation.
       */
      @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
      @Throws(CameraAccessException::class)
      private fun getRotationCompensation(cameraId: String, activity: Activity, context: Context): Int {
          // Get the device's current rotation relative to its "native" orientation.
          // Then, from the ORIENTATIONS table, look up the angle the image must be
          // rotated to compensate for the device's rotation.
          val deviceRotation = activity.windowManager.defaultDisplay.rotation
          var rotationCompensation = ORIENTATIONS.get(deviceRotation)
      
          // On most devices, the sensor orientation is 90 degrees, but for some
          // devices it is 270 degrees. For devices with a sensor orientation of
          // 270, rotate the image an additional 180 ((270 + 270) % 360) degrees.
          val cameraManager = context.getSystemService(CAMERA_SERVICE) as CameraManager
          val sensorOrientation = cameraManager
                  .getCameraCharacteristics(cameraId)
                  .get(CameraCharacteristics.SENSOR_ORIENTATION)!!
          rotationCompensation = (rotationCompensation + sensorOrientation + 270) % 360
      
          // Return the corresponding FirebaseVisionImageMetadata rotation value.
          val result: Int
          when (rotationCompensation) {
              0 -> result = FirebaseVisionImageMetadata.ROTATION_0
              90 -> result = FirebaseVisionImageMetadata.ROTATION_90
              180 -> result = FirebaseVisionImageMetadata.ROTATION_180
              270 -> result = FirebaseVisionImageMetadata.ROTATION_270
              else -> {
                  result = FirebaseVisionImageMetadata.ROTATION_0
                  Log.e(TAG, "Bad rotation value: $rotationCompensation")
              }
          }
          return result
      }

      次に、 media.Imageオブジェクトと回転値をFirebaseVisionImage.fromMediaImage()に渡します。

      Java

      FirebaseVisionImage image = FirebaseVisionImage.fromMediaImage(mediaImage, rotation);

      Kotlin+KTX

      val image = FirebaseVisionImage.fromMediaImage(mediaImage, rotation)
    • ファイル URI からFirebaseVisionImageオブジェクトを作成するには、アプリ コンテキストとファイル URI をFirebaseVisionImage.fromFilePath()に渡します。これは、 ACTION_GET_CONTENTインテントを使用して、ギャラリー アプリから画像を選択するようユーザーに促す場合に役立ちます。

      Java

      FirebaseVisionImage image;
      try {
          image = FirebaseVisionImage.fromFilePath(context, uri);
      } catch (IOException e) {
          e.printStackTrace();
      }

      Kotlin+KTX

      val image: FirebaseVisionImage
      try {
          image = FirebaseVisionImage.fromFilePath(context, uri)
      } catch (e: IOException) {
          e.printStackTrace()
      }
    • ByteBufferまたはバイト配列からFirebaseVisionImageオブジェクトを作成するには、まず、上記のmedia.Image入力の説明に従って画像の回転を計算します。

      次に、画像の高さ、幅、色のエンコード形式、および回転を含むFirebaseVisionImageMetadataオブジェクトを作成します。

      Java

      FirebaseVisionImageMetadata metadata = new FirebaseVisionImageMetadata.Builder()
              .setWidth(480)   // 480x360 is typically sufficient for
              .setHeight(360)  // image recognition
              .setFormat(FirebaseVisionImageMetadata.IMAGE_FORMAT_NV21)
              .setRotation(rotation)
              .build();

      Kotlin+KTX

      val metadata = FirebaseVisionImageMetadata.Builder()
              .setWidth(480) // 480x360 is typically sufficient for
              .setHeight(360) // image recognition
              .setFormat(FirebaseVisionImageMetadata.IMAGE_FORMAT_NV21)
              .setRotation(rotation)
              .build()

      バッファまたは配列とメタデータ オブジェクトを使用して、 FirebaseVisionImageオブジェクトを作成します。

      Java

      FirebaseVisionImage image = FirebaseVisionImage.fromByteBuffer(buffer, metadata);
      // Or: FirebaseVisionImage image = FirebaseVisionImage.fromByteArray(byteArray, metadata);

      Kotlin+KTX

      val image = FirebaseVisionImage.fromByteBuffer(buffer, metadata)
      // Or: val image = FirebaseVisionImage.fromByteArray(byteArray, metadata)
    • BitmapオブジェクトからFirebaseVisionImageオブジェクトを作成するには:

      Java

      FirebaseVisionImage image = FirebaseVisionImage.fromBitmap(bitmap);

      Kotlin+KTX

      val image = FirebaseVisionImage.fromBitmap(bitmap)
      Bitmapオブジェクトによって表されるイメージは、追加の回転は必要なく、直立している必要があります。
  2. 画像をprocessImage()メソッドに渡します。

    Java

    objectDetector.processImage(image)
            .addOnSuccessListener(
                    new OnSuccessListener<List<FirebaseVisionObject>>() {
                        @Override
                        public void onSuccess(List<FirebaseVisionObject> detectedObjects) {
                            // Task completed successfully
                            // ...
                        }
                    })
            .addOnFailureListener(
                    new OnFailureListener() {
                        @Override
                        public void onFailure(@NonNull Exception e) {
                            // Task failed with an exception
                            // ...
                        }
                    });
    

    Kotlin+KTX

    objectDetector.processImage(image)
            .addOnSuccessListener { detectedObjects ->
                // Task completed successfully
                // ...
            }
            .addOnFailureListener { e ->
                // Task failed with an exception
                // ...
            }
    
  3. processImage()の呼び出しが成功すると、 FirebaseVisionObjectのリストが成功リスナーに渡されます。

    FirebaseVisionObjectには、次のプロパティが含まれています。

    境界ボックス画像内のオブジェクトの位置を示すRect
    トラッキングID画像全体でオブジェクトを識別する整数。 SINGLE_IMAGE_MODE では null。
    カテゴリーオブジェクトの大まかなカテゴリ。オブジェクト検出器で分類が有効になっていない場合、これは常にFirebaseVisionObject.CATEGORY_UNKNOWNになります。
    自信オブジェクト分類の信頼値。オブジェクト検出器で分類が有効になっていない場合、またはオブジェクトが不明として分類されている場合、これはnullです。

    Java

    // The list of detected objects contains one item if multiple object detection wasn't enabled.
    for (FirebaseVisionObject obj : detectedObjects) {
        Integer id = obj.getTrackingId();
        Rect bounds = obj.getBoundingBox();
    
        // If classification was enabled:
        int category = obj.getClassificationCategory();
        Float confidence = obj.getClassificationConfidence();
    }
    

    Kotlin+KTX

    // The list of detected objects contains one item if multiple object detection wasn't enabled.
    for (obj in detectedObjects) {
        val id = obj.trackingId       // A number that identifies the object across images
        val bounds = obj.boundingBox  // The object's position in the image
    
        // If classification was enabled:
        val category = obj.classificationCategory
        val confidence = obj.classificationConfidence
    }
    

使いやすさとパフォーマンスの向上

最高のユーザー エクスペリエンスを実現するには、アプリで次のガイドラインに従ってください。

  • オブジェクト検出の成功は、オブジェクトの視覚的な複雑さに依存します。少数の視覚的特徴を持つオブジェクトは、検出するために画像の大部分を占める必要がある場合があります。検出するオブジェクトの種類に適した入力のキャプチャに関するガイダンスをユーザーに提供する必要があります。
  • 分類を使用するときに、サポートされているカテゴリに完全に分類されないオブジェクトを検出する場合は、不明なオブジェクトに対する特別な処理を実装します。

また、[ML Kit マテリアル デザイン ショーケース アプリ][showcase-link]{: .external } と、機械学習を利用した機能コレクションのマテリアル デザイン パターンも確認してください。

リアルタイム アプリケーションでストリーミング モードを使用する場合は、次のガイドラインに従って最高のフレームレートを実現してください。

  • ほとんどのデバイスは適切なフレームレートを生成できないため、ストリーミング モードで複数オブジェクトの検出を使用しないでください。

  • 必要ない場合は、分類を無効にします。

  • 検出器への呼び出しを抑制します。検出器の実行中に新しいビデオ フレームが利用可能になった場合は、フレームをドロップします。
  • 検出器の出力を使用して入力画像にグラフィックスをオーバーレイする場合は、まず ML Kit から結果を取得してから、画像とオーバーレイを 1 つのステップでレンダリングします。そうすることで、入力フレームごとに 1 回だけ表示面にレンダリングします。
  • Camera2 API を使用する場合は、 ImageFormat.YUV_420_888形式で画像をキャプチャします。

    古い Camera API を使用する場合は、 ImageFormat.NV21形式で画像をキャプチャします。