Bạn có thể dùng Bộ công cụ máy học để phát hiện và theo dõi các đối tượng trên nhiều khung hình của video.
Khi bạn truyền hình ảnh Bộ công cụ học máy, Bộ công cụ học máy sẽ trả về (cho mỗi hình ảnh) một danh sách gồm tối đa 5 đối tượng được phát hiện và vị trí của các đối tượng đó trong hình ảnh. Khi phát hiện các đối tượng trong luồng video, mỗi đối tượng đều có một mã nhận dạng mà bạn có thể dùng để theo dõi đối tượng trên các hình ảnh. Bạn cũng có thể bật tính năng phân loại đối tượng thô (không bắt buộc). Tính năng này sẽ gắn nhãn cho các đối tượng bằng nội dung mô tả danh mục chung.
Trước khi bắt đầu
- Nếu bạn chưa thực hiện, hãy thêm Firebase vào dự án Android.
- Thêm các phần phụ thuộc cho thư viện ML Kit Android vào tệp Gradle (ở cấp ứng dụng) trong mô-đun của bạn (thường là app/build.gradle):apply plugin: 'com.android.application' apply plugin: 'com.google.gms.google-services' dependencies { // ... implementation 'com.google.firebase:firebase-ml-vision:24.0.3' implementation 'com.google.firebase:firebase-ml-vision-object-detection-model:19.0.6' } 
1. Định cấu hình trình phát hiện đối tượng
Để bắt đầu phát hiện và theo dõi các đối tượng, trước tiên, hãy tạo một thực thể FirebaseVisionObjectDetector, không bắt buộc phải chỉ định mọi chế độ cài đặt của bộ nhận diện mà bạn muốn thay đổi so với chế độ cài đặt mặc định.
- Định cấu hình trình phát hiện đối tượng cho trường hợp sử dụng của bạn bằng đối tượng - FirebaseVisionObjectDetectorOptions. Bạn có thể thay đổi các chế độ cài đặt sau:- Cài đặt Trình phát hiện đối tượng - Chế độ phát hiện - STREAM_MODE(mặc định) |- SINGLE_IMAGE_MODE- Trong - STREAM_MODE(mặc định), trình phát hiện đối tượng chạy với độ trễ thấp, nhưng có thể tạo ra kết quả không đầy đủ (chẳng hạn như hộp giới hạn hoặc nhãn danh mục không xác định) trong vài lần gọi đầu tiên của trình phát hiện. Ngoài ra, trong- STREAM_MODE, bộ nhận diện sẽ chỉ định mã nhận dạng theo dõi cho các đối tượng mà bạn có thể dùng để theo dõi các đối tượng trên nhiều khung hình. Sử dụng chế độ này khi bạn muốn theo dõi các đối tượng hoặc khi độ trễ thấp là yếu tố quan trọng, chẳng hạn như khi xử lý luồng video theo thời gian thực.- Trong - SINGLE_IMAGE_MODE, trình phát hiện đối tượng sẽ đợi cho đến khi có sẵn khung hình chữ nhật và nhãn danh mục của một đối tượng được phát hiện (nếu bạn đã bật tính năng phân loại) trước khi trả về kết quả. Do đó, độ trễ phát hiện có thể cao hơn. Ngoài ra, trong- SINGLE_IMAGE_MODE, mã theo dõi không được chỉ định. Hãy sử dụng chế độ này nếu độ trễ không quan trọng và bạn không muốn xử lý kết quả một phần.- Phát hiện và theo dõi nhiều đối tượng - false(mặc định) |- true- Có phát hiện và theo dõi tối đa 5 đối tượng hay chỉ đối tượng nổi bật nhất (mặc định) hay không. - Phân loại đối tượng - false(mặc định) |- true- Có phân loại các đối tượng được phát hiện thành các danh mục thô hay không. Khi được bật, bộ nhận diện đối tượng sẽ phân loại đối tượng thành các danh mục sau: hàng thời trang, thực phẩm, đồ gia dụng, địa điểm, thực vật và không xác định. - API phát hiện và theo dõi đối tượng được tối ưu hoá cho 2 trường hợp sử dụng cốt lõi sau: - Phát hiện và theo dõi trực tiếp đối tượng nổi bật nhất trong khung ngắm của camera
- Phát hiện nhiều đối tượng trong một hình ảnh tĩnh
 - Cách định cấu hình API cho các trường hợp sử dụng này: - Java- // Live detection and tracking FirebaseVisionObjectDetectorOptions options = new FirebaseVisionObjectDetectorOptions.Builder() .setDetectorMode(FirebaseVisionObjectDetectorOptions.STREAM_MODE) .enableClassification() // Optional .build(); // Multiple object detection in static images FirebaseVisionObjectDetectorOptions options = new FirebaseVisionObjectDetectorOptions.Builder() .setDetectorMode(FirebaseVisionObjectDetectorOptions.SINGLE_IMAGE_MODE) .enableMultipleObjects() .enableClassification() // Optional .build();- Kotlin- // Live detection and tracking val options = FirebaseVisionObjectDetectorOptions.Builder() .setDetectorMode(FirebaseVisionObjectDetectorOptions.STREAM_MODE) .enableClassification() // Optional .build() // Multiple object detection in static images val options = FirebaseVisionObjectDetectorOptions.Builder() .setDetectorMode(FirebaseVisionObjectDetectorOptions.SINGLE_IMAGE_MODE) .enableMultipleObjects() .enableClassification() // Optional .build()
- Lấy một thực thể của - FirebaseVisionObjectDetector:- Java- FirebaseVisionObjectDetector objectDetector = FirebaseVision.getInstance().getOnDeviceObjectDetector(); // Or, to change the default settings: FirebaseVisionObjectDetector objectDetector = FirebaseVision.getInstance().getOnDeviceObjectDetector(options);- Kotlin- val objectDetector = FirebaseVision.getInstance().getOnDeviceObjectDetector() // Or, to change the default settings: val objectDetector = FirebaseVision.getInstance().getOnDeviceObjectDetector(options)
2. Chạy trình phát hiện đối tượng
Để phát hiện và theo dõi các đối tượng, hãy truyền hình ảnh đến phương thức processImage() của thực thể FirebaseVisionObjectDetector.
Đối với mỗi khung hình của video hoặc hình ảnh trong một chuỗi, hãy làm như sau:
- Tạo một đối tượng - FirebaseVisionImagetừ hình ảnh của bạn.- 
    Để tạo một đối tượng FirebaseVisionImagetừ một đối tượngmedia.Image, chẳng hạn như khi chụp ảnh bằng camera của thiết bị, hãy truyền đối tượngmedia.Imagevà độ xoay của hình ảnh đếnFirebaseVisionImage.fromMediaImage().Nếu sử dụng thư viện CameraX, các lớp OnImageCapturedListenervàImageAnalysis.Analyzersẽ tính toán giá trị xoay cho bạn, vì vậy, bạn chỉ cần chuyển đổi giá trị xoay thành một trong các hằng sốROTATION_của ML Kit trước khi gọiFirebaseVisionImage.fromMediaImage():Javaprivate class YourAnalyzer implements ImageAnalysis.Analyzer { private int degreesToFirebaseRotation(int degrees) { switch (degrees) { case 0: return FirebaseVisionImageMetadata.ROTATION_0; case 90: return FirebaseVisionImageMetadata.ROTATION_90; case 180: return FirebaseVisionImageMetadata.ROTATION_180; case 270: return FirebaseVisionImageMetadata.ROTATION_270; default: throw new IllegalArgumentException( "Rotation must be 0, 90, 180, or 270."); } } @Override public void analyze(ImageProxy imageProxy, int degrees) { if (imageProxy == null || imageProxy.getImage() == null) { return; } Image mediaImage = imageProxy.getImage(); int rotation = degreesToFirebaseRotation(degrees); FirebaseVisionImage image = FirebaseVisionImage.fromMediaImage(mediaImage, rotation); // Pass image to an ML Kit Vision API // ... } } Kotlinprivate class YourImageAnalyzer : ImageAnalysis.Analyzer { private fun degreesToFirebaseRotation(degrees: Int): Int = when(degrees) { 0 -> FirebaseVisionImageMetadata.ROTATION_0 90 -> FirebaseVisionImageMetadata.ROTATION_90 180 -> FirebaseVisionImageMetadata.ROTATION_180 270 -> FirebaseVisionImageMetadata.ROTATION_270 else -> throw Exception("Rotation must be 0, 90, 180, or 270.") } override fun analyze(imageProxy: ImageProxy?, degrees: Int) { val mediaImage = imageProxy?.image val imageRotation = degreesToFirebaseRotation(degrees) if (mediaImage != null) { val image = FirebaseVisionImage.fromMediaImage(mediaImage, imageRotation) // Pass image to an ML Kit Vision API // ... } } } Nếu không dùng thư viện máy ảnh cho phép bạn biết độ xoay của hình ảnh, bạn có thể tính toán độ xoay đó dựa trên độ xoay của thiết bị và hướng của cảm biến máy ảnh trong thiết bị: Javaprivate static final SparseIntArray ORIENTATIONS = new SparseIntArray(); static { ORIENTATIONS.append(Surface.ROTATION_0, 90); ORIENTATIONS.append(Surface.ROTATION_90, 0); ORIENTATIONS.append(Surface.ROTATION_180, 270); ORIENTATIONS.append(Surface.ROTATION_270, 180); } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) private int getRotationCompensation(String cameraId, Activity activity, Context context) throws CameraAccessException { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation(); int rotationCompensation = ORIENTATIONS.get(deviceRotation); // On most devices, the sensor orientation is 90 degrees, but for some // devices it is 270 degrees. For devices with a sensor orientation of // 270, rotate the image an additional 180 ((270 + 270) % 360) degrees. CameraManager cameraManager = (CameraManager) context.getSystemService(CAMERA_SERVICE); int sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION); rotationCompensation = (rotationCompensation + sensorOrientation + 270) % 360; // Return the corresponding FirebaseVisionImageMetadata rotation value. int result; switch (rotationCompensation) { case 0: result = FirebaseVisionImageMetadata.ROTATION_0; break; case 90: result = FirebaseVisionImageMetadata.ROTATION_90; break; case 180: result = FirebaseVisionImageMetadata.ROTATION_180; break; case 270: result = FirebaseVisionImageMetadata.ROTATION_270; break; default: result = FirebaseVisionImageMetadata.ROTATION_0; Log.e(TAG, "Bad rotation value: " + rotationCompensation); } return result; } Kotlinprivate val ORIENTATIONS = SparseIntArray() init { ORIENTATIONS.append(Surface.ROTATION_0, 90) ORIENTATIONS.append(Surface.ROTATION_90, 0) ORIENTATIONS.append(Surface.ROTATION_180, 270) ORIENTATIONS.append(Surface.ROTATION_270, 180) } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) @Throws(CameraAccessException::class) private fun getRotationCompensation(cameraId: String, activity: Activity, context: Context): Int { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. val deviceRotation = activity.windowManager.defaultDisplay.rotation var rotationCompensation = ORIENTATIONS.get(deviceRotation) // On most devices, the sensor orientation is 90 degrees, but for some // devices it is 270 degrees. For devices with a sensor orientation of // 270, rotate the image an additional 180 ((270 + 270) % 360) degrees. val cameraManager = context.getSystemService(CAMERA_SERVICE) as CameraManager val sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION)!! rotationCompensation = (rotationCompensation + sensorOrientation + 270) % 360 // Return the corresponding FirebaseVisionImageMetadata rotation value. val result: Int when (rotationCompensation) { 0 -> result = FirebaseVisionImageMetadata.ROTATION_0 90 -> result = FirebaseVisionImageMetadata.ROTATION_90 180 -> result = FirebaseVisionImageMetadata.ROTATION_180 270 -> result = FirebaseVisionImageMetadata.ROTATION_270 else -> { result = FirebaseVisionImageMetadata.ROTATION_0 Log.e(TAG, "Bad rotation value: $rotationCompensation") } } return result } Sau đó, truyền đối tượng media.Imagevà giá trị xoay đếnFirebaseVisionImage.fromMediaImage():JavaFirebaseVisionImage image = FirebaseVisionImage.fromMediaImage(mediaImage, rotation); Kotlinval image = FirebaseVisionImage.fromMediaImage(mediaImage, rotation) 
- Để tạo một đối tượng FirebaseVisionImagetừ một URI tệp, hãy truyền ngữ cảnh ứng dụng và URI tệp đếnFirebaseVisionImage.fromFilePath(). Điều này hữu ích khi bạn dùng ý địnhACTION_GET_CONTENTđể nhắc người dùng chọn một hình ảnh trong ứng dụng thư viện của họ.JavaFirebaseVisionImage image; try { image = FirebaseVisionImage.fromFilePath(context, uri); } catch (IOException e) { e.printStackTrace(); } Kotlinval image: FirebaseVisionImage try { image = FirebaseVisionImage.fromFilePath(context, uri) } catch (e: IOException) { e.printStackTrace() } 
- Để tạo một đối tượng FirebaseVisionImagetừByteBufferhoặc một mảng byte, trước tiên, hãy tính toán hướng xoay hình ảnh như mô tả ở trên cho dữ liệu đầu vàomedia.Image.Sau đó, hãy tạo một đối tượng FirebaseVisionImageMetadatachứa chiều cao, chiều rộng, định dạng mã hoá màu và hướng xoay của hình ảnh:JavaFirebaseVisionImageMetadata metadata = new FirebaseVisionImageMetadata.Builder() .setWidth(480) // 480x360 is typically sufficient for .setHeight(360) // image recognition .setFormat(FirebaseVisionImageMetadata.IMAGE_FORMAT_NV21) .setRotation(rotation) .build(); Kotlinval metadata = FirebaseVisionImageMetadata.Builder() .setWidth(480) // 480x360 is typically sufficient for .setHeight(360) // image recognition .setFormat(FirebaseVisionImageMetadata.IMAGE_FORMAT_NV21) .setRotation(rotation) .build() Sử dụng bộ đệm hoặc mảng và đối tượng siêu dữ liệu để tạo một đối tượng FirebaseVisionImage:JavaFirebaseVisionImage image = FirebaseVisionImage.fromByteBuffer(buffer, metadata); // Or: FirebaseVisionImage image = FirebaseVisionImage.fromByteArray(byteArray, metadata); Kotlinval image = FirebaseVisionImage.fromByteBuffer(buffer, metadata) // Or: val image = FirebaseVisionImage.fromByteArray(byteArray, metadata) 
- Cách tạo một đối tượng FirebaseVisionImagetừ một đối tượngBitmap:Hình ảnh do đối tượngJavaFirebaseVisionImage image = FirebaseVisionImage.fromBitmap(bitmap); Kotlinval image = FirebaseVisionImage.fromBitmap(bitmap) Bitmapbiểu thị phải thẳng đứng và không cần xoay thêm.
 
- 
    
- Truyền hình ảnh đến phương thức - processImage():- Java- objectDetector.processImage(image) .addOnSuccessListener( new OnSuccessListener<List<FirebaseVisionObject>>() { @Override public void onSuccess(List<FirebaseVisionObject> detectedObjects) { // Task completed successfully // ... } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Task failed with an exception // ... } });- Kotlin- objectDetector.processImage(image) .addOnSuccessListener { detectedObjects -> // Task completed successfully // ... } .addOnFailureListener { e -> // Task failed with an exception // ... }
- Nếu lệnh gọi đến - processImage()thành công, một danh sách- FirebaseVisionObjectsẽ được truyền đến trình nghe thành công.- Mỗi - FirebaseVisionObjectđều chứa các thuộc tính sau:- Hộp giới hạn - Một - Rectcho biết vị trí của đối tượng trong hình ảnh.- Mã theo dõi - Một số nguyên xác định đối tượng trên các hình ảnh. Giá trị rỗng trong SINGLE_IMAGE_MODE. - Danh mục - Danh mục thô của đối tượng. Nếu trình phát hiện đối tượng không bật tính năng phân loại, thì giá trị này sẽ luôn là - FirebaseVisionObject.CATEGORY_UNKNOWN.- Độ tin cậy - Giá trị độ tin cậy của việc phân loại đối tượng. Nếu trình phát hiện đối tượng không bật tính năng phân loại hoặc đối tượng được phân loại là không xác định, thì đây là - null.- Java- // The list of detected objects contains one item if multiple object detection wasn't enabled. for (FirebaseVisionObject obj : detectedObjects) { Integer id = obj.getTrackingId(); Rect bounds = obj.getBoundingBox(); // If classification was enabled: int category = obj.getClassificationCategory(); Float confidence = obj.getClassificationConfidence(); }- Kotlin- // The list of detected objects contains one item if multiple object detection wasn't enabled. for (obj in detectedObjects) { val id = obj.trackingId // A number that identifies the object across images val bounds = obj.boundingBox // The object's position in the image // If classification was enabled: val category = obj.classificationCategory val confidence = obj.classificationConfidence }
Cải thiện khả năng sử dụng và hiệu suất
Để mang lại trải nghiệm tốt nhất cho người dùng, hãy làm theo các nguyên tắc sau trong ứng dụng của bạn:
- Việc phát hiện đối tượng thành công phụ thuộc vào độ phức tạp về hình ảnh của đối tượng. Các đối tượng có ít đặc điểm trực quan có thể cần chiếm một phần lớn hơn trong hình ảnh để được phát hiện. Bạn nên hướng dẫn người dùng cách ghi lại dữ liệu đầu vào hoạt động tốt với loại đối tượng mà bạn muốn phát hiện.
- Khi sử dụng tính năng phân loại, nếu bạn muốn phát hiện các đối tượng không thuộc các danh mục được hỗ trợ, hãy triển khai quy trình xử lý đặc biệt cho các đối tượng không xác định.
Ngoài ra, hãy xem [ứng dụng minh hoạ Material Design của Bộ công cụ học máy][showcase-link]{: .external } và bộ sưu tập Các mẫu Material Design cho các tính năng dựa trên học máy.
Khi sử dụng chế độ truyền phát trực tiếp trong một ứng dụng theo thời gian thực, hãy làm theo các nguyên tắc sau để đạt được tốc độ khung hình tốt nhất:
- Đừng sử dụng tính năng phát hiện nhiều đối tượng ở chế độ truyền phát trực tiếp, vì hầu hết các thiết bị sẽ không thể tạo ra tốc độ khung hình phù hợp. 
- Tắt tính năng phân loại nếu bạn không cần. 
- Điều chỉnh tốc độ gọi đến máy dò. Nếu có khung hình video mới trong khi bộ phát hiện đang chạy, hãy thả khung hình đó.
- Nếu bạn đang sử dụng đầu ra của bộ nhận diện để phủ đồ hoạ lên hình ảnh đầu vào, trước tiên hãy lấy kết quả từ ML Kit, sau đó kết xuất hình ảnh và phủ trong một bước. Bằng cách này, bạn chỉ cần kết xuất vào bề mặt hiển thị một lần cho mỗi khung hình đầu vào.
- 
  Nếu bạn sử dụng API Camera2, hãy chụp ảnh ở định dạng ImageFormat.YUV_420_888.Nếu bạn sử dụng Camera API cũ, hãy chụp ảnh ở định dạng ImageFormat.NV21.