Ir para o console

Rotular imagens com o Kit de ML no iOS

Você pode usar o Kit de ML para rotular objetos reconhecidos em uma imagem, usando um modelo no dispositivo ou baseado na nuvem. Consulte a visão geral para saber mais sobre os benefícios de cada abordagem.

Consulte o guia de início rápido do Kit de ML no GitHub para ver um exemplo desta API em uso.

Antes de começar

  1. Se você ainda não adicionou o Firebase ao seu app, siga as etapas no guia de primeiros passos.
  2. Inclua as bibliotecas do Kit de ML no seu Podfile:
    pod 'Firebase/Core'
    pod 'Firebase/MLVision'

    # If using the on-device API: pod 'Firebase/MLVisionLabelModel'

    Depois de instalar ou atualizar os pods do seu projeto, abra o projeto do Xcode usando o .xcworkspace.
  3. Importe o Firebase para seu app:

    Swift

    import Firebase

    Objective-C

    @import Firebase;
  4. Se você quiser usar o modelo baseado em nuvem e ainda não tiver ativado as APIs baseadas em nuvem para seu projeto, siga estas etapas:

    1. Abra a página APIs do Kit de ML no Console do Firebase.
    2. Se você ainda não fez o upgrade do seu projeto para um plano Blaze, clique em Fazer upgrade. Você verá uma solicitação para o upgrade somente se o seu projeto não estiver no plano Blaze.

      Apenas projetos no nível Blaze podem usar APIs baseadas na nuvem.

    3. Caso as APIs baseadas na nuvem ainda não estejam ativadas, clique em Ativar APIs baseadas na nuvem.

    Se você quiser usar apenas o modelo no dispositivo, pule esta etapa.

Agora você já pode rotular imagens usando um modelo no dispositivo ou um modelo baseado na nuvem.

1. Preparar a imagem de entrada

Crie um objeto VisionImage usando UIImage ou CMSampleBufferRef.

Para usar uma UIImage:

  1. Se necessário, gire a imagem para que a propriedade imageOrientation seja definida como .up.
  2. Crie um objeto VisionImage usando a UIImage girada corretamente. Não especifique nenhum metadado de rotação. É preciso usar o valor padrão .topLeft.

    Swift

    let image = VisionImage(image: uiImage)

    Objective-C

    FIRVisionImage *image = [[FIRVisionImage alloc] initWithImage:uiImage];
    

Para usar um CMSampleBufferRef:

  1. Crie um objeto VisionImageMetadata que especifique a orientação dos dados de imagem contidos no buffer CMSampleBufferRef.

    Por exemplo, se você estiver usando dados de imagem capturados da câmera traseira do dispositivo:

    Swift

    let metadata = VisionImageMetadata()
    
    // Using back-facing camera
    let devicePosition: AVCaptureDevice.Position = .back
    
    let deviceOrientation = UIDevice.current.orientation
    switch deviceOrientation {
    case .portrait:
      metadata.orientation = devicePosition == .front ? .leftTop : .rightTop
    case .landscapeLeft:
      metadata.orientation = devicePosition == .front ? .bottomLeft : .topLeft
    case .portraitUpsideDown:
      metadata.orientation = devicePosition == .front ? .rightBottom : .leftBottom
    case .landscapeRight:
      metadata.orientation = devicePosition == .front ? .topRight : .bottomRight
    case .faceDown, .faceUp, .unknown:
      metadata.orientation = .leftTop
    }
    

    Objective-C

    // Calculate the image orientation
    FIRVisionDetectorImageOrientation orientation;
    
    // Using front-facing camera
    AVCaptureDevicePosition devicePosition = AVCaptureDevicePositionFront;
    
    UIDeviceOrientation deviceOrientation = UIDevice.currentDevice.orientation;
    switch (deviceOrientation) {
        case UIDeviceOrientationPortrait:
            if (devicePosition == AVCaptureDevicePositionFront) {
                orientation = FIRVisionDetectorImageOrientationLeftTop;
            } else {
                orientation = FIRVisionDetectorImageOrientationRightTop;
            }
            break;
        case UIDeviceOrientationLandscapeLeft:
            if (devicePosition == AVCaptureDevicePositionFront) {
                orientation = FIRVisionDetectorImageOrientationBottomLeft;
            } else {
                orientation = FIRVisionDetectorImageOrientationTopLeft;
            }
            break;
        case UIDeviceOrientationPortraitUpsideDown:
            if (devicePosition == AVCaptureDevicePositionFront) {
                orientation = FIRVisionDetectorImageOrientationRightBottom;
            } else {
                orientation = FIRVisionDetectorImageOrientationLeftBottom;
            }
            break;
        case UIDeviceOrientationLandscapeRight:
            if (devicePosition == AVCaptureDevicePositionFront) {
                orientation = FIRVisionDetectorImageOrientationTopRight;
            } else {
                orientation = FIRVisionDetectorImageOrientationBottomRight;
            }
            break;
        default:
            orientation = FIRVisionDetectorImageOrientationTopLeft;
            break;
    }
    
    FIRVisionImageMetadata *metadata = [[FIRVisionImageMetadata alloc] init];
    metadata.orientation = orientation;
    
  2. Crie um objeto VisionImage usando o CMSampleBufferRef e os metadados de rotação:

    Swift

    let image = VisionImage(buffer: bufferRef)
    image.metadata = metadata
    

    Objective-C

    FIRVisionImage *image = [[FIRVisionImage alloc] initWithBuffer:buffer];
    image.metadata = metadata;
    

2. Configurar e executar o rotulador de imagens

Para rotular objetos em uma imagem, passe o objeto VisionImage para o método processImage() de VisionImageLabeler.

  1. Primeiro, receba uma instância de VisionImageLabeler.

    Se você quiser usar o rotulador de imagens no dispositivo:

    Swift

    let labeler = Vision.vision().onDeviceImageLabeler()
    
    // Or, to set the minimum confidence required:
    // let options = VisionOnDeviceImageLabelerOptions()
    // options.confidenceThreshold = 0.7
    // let labeler = Vision.vision().onDeviceImageLabeler(options: options)
    

    Objective-C

    FIRVisionImageLabeler *labeler = [[FIRVision vision] onDeviceImageLabeler];
    
    // Or, to set the minimum confidence required:
    // FIRVisionOnDeviceImageLabelerOptions *options =
    //         [[FIRVisionOnDeviceImageLabelerOptions alloc] init];
    // options.confidenceThreshold = 0.7;
    // FIRVisionImageLabeler *labeler =
    //         [[FIRVision vision] onDeviceImageLabelerWithOptions:options];
    

    Se você quiser usar o rotulador de imagens na nuvem:

    Swift

    let labeler = Vision.vision().cloudImageLabeler()
    
    // Or, to set the minimum confidence required:
    // let options = VisionCloudImageLabelerOptions()
    // options.confidenceThreshold = 0.7
    // let labeler = Vision.vision().cloudImageLabeler(options: options)
    

    Objective-C

    FIRVisionImageLabeler *labeler = [[FIRVision vision] cloudImageLabeler];
    
    // Or, to set the minimum confidence required:
    // FIRVisionCloudImageLabelerOptions *options =
    //         [[FIRVisionCloudImageLabelerOptions alloc] init];
    // options.confidenceThreshold = 0.7;
    // FIRVisionImageLabeler *labeler =
    //         [[FIRVision vision] cloudImageLabelerWithOptions:options];
    
  2. Transmita a imagem para o método processImage():

    Swift

    labeler.process(image) { labels, error in
        guard error == nil, let labels = labels else { return }
    
        // Task succeeded.
        // ...
    }
    

    Objective-C

    [labeler processImage:image
               completion:^(NSArray<FIRVisionImageLabel *> *_Nullable labels,
                            NSError *_Nullable error) {
                   if (error != nil) { return; }
    
                   // Task succeeded.
                   // ...
               }];
    

3. Ver informações sobre os objetos rotulados

Se a rotulação de imagens for bem-sucedida, uma matriz de objetos VisionImageLabel será transmitida para o gerenciador de conclusão. É possível receber informações sobre um atributo reconhecido na imagem em cada objeto.

Por exemplo:

Swift

for label in labels {
    let labelText = label.text
    let entityId = label.entityID
    let confidence = label.confidence
}

Objective-C

for (FIRVisionImageLabel *label in labels) {
   NSString *labelText = label.text;
   NSString *entityId = label.entityID;
   NSNumber *confidence = label.confidence;
}

Dicas para melhorar o desempenho em tempo real

Caso você queira rotular imagens em um aplicativo em tempo real, siga estas diretrizes para ter as melhores taxas de quadros:

  • Limite as chamadas para o rotulador de imagens. Se um novo quadro de vídeo for disponibilizado enquanto o rotulador de imagens estiver em execução, descarte o quadro.

Próximas etapas

Antes de implantar em produção um aplicativo que usa uma API do Cloud, é preciso seguir mais algumas etapas para evitar e atenuar o efeito do acesso não autorizado à API.