আইওএস-এ ML কিট দিয়ে বস্তুগুলি সনাক্ত করুন এবং ট্র্যাক করুন৷

আপনি ভিডিওর ফ্রেম জুড়ে বস্তু সনাক্ত এবং ট্র্যাক করতে ML কিট ব্যবহার করতে পারেন।

আপনি যখন ML কিট ছবি পাস করেন, ML কিট ফিরে আসে, প্রতিটি ছবির জন্য, পাঁচটি পর্যন্ত শনাক্ত করা বস্তুর তালিকা এবং ছবিতে তাদের অবস্থান। ভিডিও স্ট্রীমে অবজেক্ট সনাক্ত করার সময়, প্রতিটি বস্তুর একটি আইডি থাকে যা আপনি ইমেজ জুড়ে বস্তুটিকে ট্র্যাক করতে ব্যবহার করতে পারেন। আপনি ঐচ্ছিকভাবে মোটা বস্তুর শ্রেণীবিভাগও সক্ষম করতে পারেন, যা বিস্তৃত বিভাগের বিবরণ সহ অবজেক্টকে লেবেল করে।

তুমি শুরু করার আগে

  1. আপনি যদি ইতিমধ্যে আপনার অ্যাপে Firebase যোগ না করে থাকেন, তাহলে শুরু করার নির্দেশিকাতে দেওয়া ধাপগুলি অনুসরণ করে তা করুন৷
  2. আপনার পডফাইলে ML কিট লাইব্রেরিগুলি অন্তর্ভুক্ত করুন:
    pod 'Firebase/MLVision', '6.25.0'
    pod 'Firebase/MLVisionObjectDetection', '6.25.0'
    
    আপনি আপনার প্রকল্পের পডগুলি ইনস্টল বা আপডেট করার পরে, এটির .xcworkspace ব্যবহার করে আপনার Xcode প্রকল্পটি খুলতে ভুলবেন না।
  3. আপনার অ্যাপে, Firebase আমদানি করুন:

    সুইফট

    import Firebase

    উদ্দেশ্য গ

    @import Firebase;

1. অবজেক্ট ডিটেক্টর কনফিগার করুন

বস্তু সনাক্তকরণ এবং ট্র্যাকিং শুরু করতে, প্রথমে VisionObjectDetector এর একটি উদাহরণ তৈরি করুন, ঐচ্ছিকভাবে আপনি ডিফল্ট থেকে পরিবর্তন করতে চান এমন কোনো ডিটেক্টর সেটিংস নির্দিষ্ট করুন।

  1. একটি VisionObjectDetectorOptions অবজেক্টের সাথে আপনার ব্যবহারের ক্ষেত্রে অবজেক্ট ডিটেক্টর কনফিগার করুন। আপনি নিম্নলিখিত সেটিংস পরিবর্তন করতে পারেন:

    অবজেক্ট ডিটেক্টর সেটিংস
    সনাক্তকরণ মোড .stream (ডিফল্ট) | .singleImage

    স্ট্রীম মোডে (ডিফল্ট), অবজেক্ট ডিটেক্টর খুব কম লেটেন্সি দিয়ে চলে, কিন্তু ডিটেক্টরের প্রথম কয়েকটি ইনভোকেশনে অসম্পূর্ণ ফলাফল (যেমন অনির্দিষ্ট বাউন্ডিং বাক্স বা বিভাগ) তৈরি করতে পারে। এছাড়াও, স্ট্রিম মোডে, ডিটেক্টর অবজেক্টে ট্র্যাকিং আইডি বরাদ্দ করে, যা আপনি ফ্রেম জুড়ে অবজেক্ট ট্র্যাক করতে ব্যবহার করতে পারেন। আপনি যখন অবজেক্ট ট্র্যাক করতে চান, বা যখন কম লেটেন্সি গুরুত্বপূর্ণ, যেমন রিয়েল টাইমে ভিডিও স্ট্রীমগুলি প্রক্রিয়া করার সময় এই মোডটি ব্যবহার করুন৷

    একক ইমেজ মোডে, অবজেক্ট ডিটেক্টর অপেক্ষা করে যতক্ষণ না কোনো শনাক্ত করা বস্তুর বাউন্ডিং বক্স এবং (যদি আপনি শ্রেণীবিভাগ সক্রিয় করেন) ফলাফল ফেরত দেওয়ার আগে ক্যাটাগরি পাওয়া যায়। ফলস্বরূপ, সনাক্তকরণের বিলম্ব সম্ভাবনা বেশি। এছাড়াও, একক চিত্র মোডে, ট্র্যাকিং আইডি বরাদ্দ করা হয় না। যদি লেটেন্সি জটিল না হয় এবং আপনি আংশিক ফলাফলের সাথে মোকাবিলা করতে না চান তাহলে এই মোডটি ব্যবহার করুন৷

    একাধিক বস্তু সনাক্ত করুন এবং ট্র্যাক করুন false (ডিফল্ট) | true

    পাঁচটি অবজেক্ট বা শুধুমাত্র সবচেয়ে বিশিষ্ট বস্তু (ডিফল্ট) পর্যন্ত সনাক্ত ও ট্র্যাক করতে হবে কিনা।

    বস্তুর শ্রেণীবিভাগ করুন false (ডিফল্ট) | true

    সনাক্ত করা বস্তুগুলিকে মোটা শ্রেণীতে শ্রেণীবদ্ধ করা যায় কিনা। যখন সক্রিয় করা থাকে, অবজেক্ট ডিটেক্টর বস্তুগুলিকে নিম্নলিখিত শ্রেণীতে শ্রেণীবদ্ধ করে: ফ্যাশন সামগ্রী, খাদ্য, বাড়ির পণ্য, স্থান, গাছপালা এবং অজানা৷

    বস্তু সনাক্তকরণ এবং ট্র্যাকিং API এই দুটি মূল ব্যবহারের ক্ষেত্রে অপ্টিমাইজ করা হয়েছে:

    • ক্যামেরা ভিউফাইন্ডারে সবচেয়ে বিশিষ্ট বস্তুর লাইভ সনাক্তকরণ এবং ট্র্যাকিং
    • একটি স্ট্যাটিক ইমেজে একাধিক বস্তুর সনাক্তকরণ

    এই ব্যবহারের ক্ষেত্রে API কনফিগার করতে:

    সুইফট

    // Live detection and tracking
    let options = VisionObjectDetectorOptions()
    options.detectorMode = .stream
    options.shouldEnableMultipleObjects = false
    options.shouldEnableClassification = true  // Optional
    
    // Multiple object detection in static images
    let options = VisionObjectDetectorOptions()
    options.detectorMode = .singleImage
    options.shouldEnableMultipleObjects = true
    options.shouldEnableClassification = true  // Optional
    

    উদ্দেশ্য গ

    // Live detection and tracking
    FIRVisionObjectDetectorOptions *options = [[FIRVisionObjectDetectorOptions alloc] init];
    options.detectorMode = FIRVisionObjectDetectorModeStream;
    options.shouldEnableMultipleObjects = NO;
    options.shouldEnableClassification = YES;  // Optional
    
    // Multiple object detection in static images
    FIRVisionObjectDetectorOptions *options = [[FIRVisionObjectDetectorOptions alloc] init];
    options.detectorMode = FIRVisionObjectDetectorModeSingleImage;
    options.shouldEnableMultipleObjects = YES;
    options.shouldEnableClassification = YES;  // Optional
    
  2. FirebaseVisionObjectDetector এর একটি উদাহরণ পান:

    সুইফট

    let objectDetector = Vision.vision().objectDetector()
    
    // Or, to change the default settings:
    let objectDetector = Vision.vision().objectDetector(options: options)
    

    উদ্দেশ্য গ

    FIRVisionObjectDetector *objectDetector = [[FIRVision vision] objectDetector];
    
    // Or, to change the default settings:
    FIRVisionObjectDetector *objectDetector = [[FIRVision vision] objectDetectorWithOptions:options];
    

2. অবজেক্ট ডিটেক্টর চালান

বস্তু সনাক্ত করতে এবং ট্র্যাক করতে, প্রতিটি চিত্র বা ভিডিওর ফ্রেমের জন্য নিম্নলিখিতগুলি করুন৷ আপনি যদি স্ট্রিম মোড সক্ষম করেন, তাহলে আপনাকে অবশ্যই CMSampleBufferRef s থেকে VisionImage অবজেক্ট তৈরি করতে হবে।

  1. একটি UIImage বা একটি CMSampleBufferRef ব্যবহার করে একটি VisionImage অবজেক্ট তৈরি করুন।

    একটি UIImage ব্যবহার করতে:

    1. প্রয়োজনে, চিত্রটিকে ঘোরান যাতে এটির imageOrientation বৈশিষ্ট্য .up হয়।
    2. সঠিকভাবে ঘোরানো UIImage ব্যবহার করে একটি VisionImage অবজেক্ট তৈরি করুন। কোনো ঘূর্ণন মেটাডেটা নির্দিষ্ট করবেন না—ডিফল্ট মান, .topLeft , ব্যবহার করতে হবে।

      সুইফট

      let image = VisionImage(image: uiImage)

      উদ্দেশ্য গ

      FIRVisionImage *image = [[FIRVisionImage alloc] initWithImage:uiImage];

    একটি CMSampleBufferRef ব্যবহার করতে:

    1. একটি VisionImageMetadata অবজেক্ট তৈরি করুন যা CMSampleBufferRef বাফারে থাকা চিত্র ডেটার অভিযোজন নির্দিষ্ট করে।

      ইমেজ ওরিয়েন্টেশন পেতে:

      সুইফট

      func imageOrientation(
          deviceOrientation: UIDeviceOrientation,
          cameraPosition: AVCaptureDevice.Position
          ) -> VisionDetectorImageOrientation {
          switch deviceOrientation {
          case .portrait:
              return cameraPosition == .front ? .leftTop : .rightTop
          case .landscapeLeft:
              return cameraPosition == .front ? .bottomLeft : .topLeft
          case .portraitUpsideDown:
              return cameraPosition == .front ? .rightBottom : .leftBottom
          case .landscapeRight:
              return cameraPosition == .front ? .topRight : .bottomRight
          case .faceDown, .faceUp, .unknown:
              return .leftTop
          }
      }

      উদ্দেশ্য গ

      - (FIRVisionDetectorImageOrientation)
          imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation
                                 cameraPosition:(AVCaptureDevicePosition)cameraPosition {
        switch (deviceOrientation) {
          case UIDeviceOrientationPortrait:
            if (cameraPosition == AVCaptureDevicePositionFront) {
              return FIRVisionDetectorImageOrientationLeftTop;
            } else {
              return FIRVisionDetectorImageOrientationRightTop;
            }
          case UIDeviceOrientationLandscapeLeft:
            if (cameraPosition == AVCaptureDevicePositionFront) {
              return FIRVisionDetectorImageOrientationBottomLeft;
            } else {
              return FIRVisionDetectorImageOrientationTopLeft;
            }
          case UIDeviceOrientationPortraitUpsideDown:
            if (cameraPosition == AVCaptureDevicePositionFront) {
              return FIRVisionDetectorImageOrientationRightBottom;
            } else {
              return FIRVisionDetectorImageOrientationLeftBottom;
            }
          case UIDeviceOrientationLandscapeRight:
            if (cameraPosition == AVCaptureDevicePositionFront) {
              return FIRVisionDetectorImageOrientationTopRight;
            } else {
              return FIRVisionDetectorImageOrientationBottomRight;
            }
          default:
            return FIRVisionDetectorImageOrientationTopLeft;
        }
      }

      তারপর, মেটাডেটা অবজেক্ট তৈরি করুন:

      সুইফট

      let cameraPosition = AVCaptureDevice.Position.back  // Set to the capture device you used.
      let metadata = VisionImageMetadata()
      metadata.orientation = imageOrientation(
          deviceOrientation: UIDevice.current.orientation,
          cameraPosition: cameraPosition
      )

      উদ্দেশ্য গ

      FIRVisionImageMetadata *metadata = [[FIRVisionImageMetadata alloc] init];
      AVCaptureDevicePosition cameraPosition =
          AVCaptureDevicePositionBack;  // Set to the capture device you used.
      metadata.orientation =
          [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation
                                       cameraPosition:cameraPosition];
    2. CMSampleBufferRef অবজেক্ট এবং রোটেশন মেটাডেটা ব্যবহার করে একটি VisionImage অবজেক্ট তৈরি করুন:

      সুইফট

      let image = VisionImage(buffer: sampleBuffer)
      image.metadata = metadata

      উদ্দেশ্য গ

      FIRVisionImage *image = [[FIRVisionImage alloc] initWithBuffer:sampleBuffer];
      image.metadata = metadata;
  2. অবজেক্ট ডিটেক্টরের ইমেজ প্রসেসিং পদ্ধতির একটিতে VisionImage পাস করুন। আপনি হয় অ্যাসিঙ্ক্রোনাস process(image:) পদ্ধতি বা সিঙ্ক্রোনাস results() পদ্ধতি ব্যবহার করতে পারেন।

    অ্যাসিঙ্ক্রোনাসভাবে বস্তু সনাক্ত করতে:

    সুইফট

    objectDetector.process(image) { detectedObjects, error in
      guard error == nil else {
        // Error.
        return
      }
      guard let detectedObjects = detectedObjects, !detectedObjects.isEmpty else {
        // No objects detected.
        return
      }
    
      // Success. Get object info here.
      // ...
    }
    

    উদ্দেশ্য গ

    [objectDetector processImage:image
                      completion:^(NSArray<FIRVisionObject *> * _Nullable objects,
                                   NSError * _Nullable error) {
                        if (error == nil) {
                          return;
                        }
                        if (objects == nil | objects.count == 0) {
                          // No objects detected.
                          return;
                        }
    
                        // Success. Get object info here.
                        // ...
                      }];
    

    সিঙ্ক্রোনাসভাবে বস্তু সনাক্ত করতে:

    সুইফট

    var results: [VisionObject]? = nil
    do {
      results = try objectDetector.results(in: image)
    } catch let error {
      print("Failed to detect object with error: \(error.localizedDescription).")
      return
    }
    guard let detectedObjects = results, !detectedObjects.isEmpty else {
      print("Object detector returned no results.")
      return
    }
    
    // ...
    

    উদ্দেশ্য গ

    NSError *error;
    NSArray<FIRVisionObject *> *objects = [objectDetector resultsInImage:image
                                                                   error:&error];
    if (error == nil) {
      return;
    }
    if (objects == nil | objects.count == 0) {
      // No objects detected.
      return;
    }
    
    // Success. Get object info here.
    // ...
    
  3. ইমেজ প্রসেসরে কল সফল হলে, এটি হয় VisionObject s-এর একটি তালিকা সমাপ্তি হ্যান্ডলারের কাছে পাঠায় বা তালিকাটি ফেরত দেয়, আপনি অ্যাসিঙ্ক্রোনাস বা সিঙ্ক্রোনাস পদ্ধতিতে কল করেছেন কিনা তার উপর নির্ভর করে।

    প্রতিটি VisionObject নিম্নলিখিত বৈশিষ্ট্য ধারণ করে:

    frame একটি CGRect ছবিতে বস্তুর অবস্থান নির্দেশ করে।
    trackingID একটি পূর্ণসংখ্যা যা ইমেজ জুড়ে বস্তুকে সনাক্ত করে। একক চিত্র মোডে শূন্য৷
    classificationCategory বস্তুর মোটা বিভাগ। অবজেক্ট ডিটেক্টরের শ্রেণীবিভাগ সক্রিয় না থাকলে, এটি সর্বদা .unknown
    confidence বস্তুর শ্রেণীবিভাগের আস্থার মান। যদি অবজেক্ট ডিটেক্টরের শ্রেণীবিভাগ সক্রিয় না থাকে, বা বস্তুটিকে অজানা হিসাবে শ্রেণীবদ্ধ করা হয়, এটি nil

    সুইফট

    // detectedObjects contains one item if multiple object detection wasn't enabled.
    for obj in detectedObjects {
      let bounds = obj.frame
      let id = obj.trackingID
    
      // If classification was enabled:
      let category = obj.classificationCategory
      let confidence = obj.confidence
    }
    

    উদ্দেশ্য গ

    // The list of detected objects contains one item if multiple
    // object detection wasn't enabled.
    for (FIRVisionObject *obj in objects) {
      CGRect bounds = obj.frame;
      if (obj.trackingID) {
        NSInteger id = obj.trackingID.integerValue;
      }
    
      // If classification was enabled:
      FIRVisionObjectCategory category = obj.classificationCategory;
      float confidence = obj.confidence.floatValue;
    }
    

ব্যবহারযোগ্যতা এবং কর্মক্ষমতা উন্নত

সেরা ব্যবহারকারীর অভিজ্ঞতার জন্য, আপনার অ্যাপে এই নির্দেশিকাগুলি অনুসরণ করুন:

  • সফল বস্তু সনাক্তকরণ বস্তুর চাক্ষুষ জটিলতার উপর নির্ভর করে। অল্প সংখ্যক চাক্ষুষ বৈশিষ্ট্য সহ বস্তুগুলি সনাক্ত করার জন্য চিত্রের একটি বড় অংশ নিতে হতে পারে। আপনার ব্যবহারকারীদের ইনপুট ক্যাপচার করার নির্দেশিকা প্রদান করা উচিত যা আপনি যে ধরনের বস্তু সনাক্ত করতে চান তার সাথে ভাল কাজ করে।
  • শ্রেণীবিভাগ ব্যবহার করার সময়, আপনি যদি এমন বস্তুগুলি সনাক্ত করতে চান যা সমর্থিত বিভাগে পরিষ্কারভাবে পড়ে না, অজানা বস্তুর জন্য বিশেষ হ্যান্ডলিং প্রয়োগ করুন।

এছাড়াও, মেশিন লার্নিং-চালিত বৈশিষ্ট্য সংগ্রহের জন্য [ML Kit Material Design শোকেস অ্যাপ][শোকেস-লিঙ্ক]{: .external } এবং মেটেরিয়াল ডিজাইন প্যাটার্ন দেখুন।

একটি রিয়েল-টাইম অ্যাপ্লিকেশনে স্ট্রিমিং মোড ব্যবহার করার সময়, সেরা ফ্রেমরেটগুলি অর্জন করতে এই নির্দেশিকাগুলি অনুসরণ করুন:

  • স্ট্রিমিং মোডে একাধিক অবজেক্ট সনাক্তকরণ ব্যবহার করবেন না, কারণ বেশিরভাগ ডিভাইস পর্যাপ্ত ফ্রেমরেট তৈরি করতে সক্ষম হবে না।

  • আপনার যদি এটির প্রয়োজন না হয় তবে শ্রেণীবিভাগ অক্ষম করুন।

  • থ্রটল ডিটেক্টর কল. ডিটেক্টর চলাকালীন একটি নতুন ভিডিও ফ্রেম উপলব্ধ হলে, ফ্রেমটি ফেলে দিন।
  • আপনি যদি ইনপুট ইমেজে গ্রাফিক্স ওভারলে করার জন্য ডিটেক্টরের আউটপুট ব্যবহার করেন, তাহলে প্রথমে ML Kit থেকে ফলাফল পান, তারপর একটি একক ধাপে চিত্র এবং ওভারলে রেন্ডার করুন। এটি করার মাধ্যমে, আপনি প্রতিটি ইনপুট ফ্রেমের জন্য শুধুমাত্র একবার প্রদর্শন পৃষ্ঠে রেন্ডার করবেন। উদাহরণের জন্য শোকেস নমুনা অ্যাপে প্রিভিউওভারলেভিউ এবং FIRDetectionOverlayView ক্লাসগুলি দেখুন।