Nhận dạng văn bản trong hình ảnh bằng Bộ công cụ học máy trên Android
bookmark_border Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Bạn có thể sử dụng Bộ công cụ học máy để nhận dạng văn bản trong hình ảnh. Bộ công cụ học máy có cả API đa năng phù hợp để nhận dạng văn bản trong hình ảnh, chẳng hạn như văn bản của biển báo đường phố và API được tối ưu hoá để nhận dạng văn bản của tài liệu. API đa năng có cả mô hình trên thiết bị và mô hình dựa trên đám mây. Tính năng nhận dạng văn bản trong tài liệu chỉ có sẵn dưới dạng mô hình dựa trên đám mây. Hãy xem phần tổng quan để so sánh mô hình trên đám mây và mô hình trên thiết bị.

Trước khi bắt đầu

Nếu bạn chưa thực hiện, hãy thêm Firebase vào dự án Android.

Thêm các phần phụ thuộc cho thư viện Android của Bộ công cụ học máy vào tệp Gradle (ở cấp ứng dụng) của mô-đun (thường là app/build.gradle):

apply plugin: 'com.android.application'
apply plugin: 'com.google.gms.google-services'

dependencies {
  // ...

  implementation 'com.google.firebase:firebase-ml-vision:24.0.3'
}

Không bắt buộc nhưng nên dùng: Nếu bạn sử dụng API trên thiết bị, hãy định cấu hình ứng dụng để tự động tải mô hình học máy xuống thiết bị sau khi cài đặt ứng dụng từ Cửa hàng Play.
Để thực hiện việc này, hãy thêm nội dung khai báo sau vào tệp AndroidManifest.xml của ứng dụng:
```
<application ...>
  ...
  <meta-data
      android:name="com.google.firebase.ml.vision.DEPENDENCIES"
      android:value="ocr" />
  
</application>
```
Nếu bạn không bật tính năng tải mô hình xuống tại thời điểm cài đặt, thì mô hình sẽ được tải xuống trong lần đầu tiên bạn chạy trình phát hiện trên thiết bị. Các yêu cầu bạn đưa ra trước khi quá trình tải xuống hoàn tất sẽ không có kết quả.
Nếu bạn muốn sử dụng mô hình trên đám mây và chưa bật API trên đám mây cho dự án của mình, hãy làm như sau:
1. Mở trang API Bộ công cụ học máy của bảng điều khiển Firebase.
2. Nếu bạn chưa nâng cấp dự án lên gói giá Blaze, hãy nhấp vào Nâng cấp để thực hiện việc này. (Bạn sẽ chỉ được nhắc nâng cấp nếu dự án của bạn không sử dụng gói Blaze.)
  
  Chỉ các dự án cấp Blaze mới có thể sử dụng API dựa trên đám mây.
3. Nếu bạn chưa bật API dựa trên đám mây, hãy nhấp vào Bật API dựa trên đám mây.
Trước khi triển khai một ứng dụng sử dụng API trên đám mây cho phiên bản chính thức, bạn nên thực hiện thêm một số bước để ngăn chặn và giảm thiểu tác động của việc truy cập trái phép vào API.

Nếu chỉ muốn sử dụng mô hình trên thiết bị, bạn có thể bỏ qua bước này.

Bây giờ, bạn đã có thể bắt đầu nhận dạng văn bản trong hình ảnh.

Nguyên tắc về hình ảnh đầu vào

Để Bộ công cụ học máy nhận dạng chính xác văn bản, hình ảnh đầu vào phải chứa văn bản được biểu thị bằng đủ dữ liệu pixel. Lý tưởng nhất là đối với văn bản La Mã, mỗi ký tự phải có kích thước tối thiểu là 16x16 pixel. Đối với văn bản tiếng Trung, tiếng Nhật và tiếng Hàn (chỉ được các API dựa trên đám mây hỗ trợ), mỗi ký tự phải có kích thước 24x24 pixel. Đối với tất cả ngôn ngữ, kích thước ký tự lớn hơn 24x24 pixel thường không mang lại lợi ích về độ chính xác.

Ví dụ: hình ảnh 640x480 có thể hoạt động tốt để quét danh thiếp chiếm toàn bộ chiều rộng của hình ảnh. Để quét tài liệu in trên giấy cỡ thư, bạn có thể phải có hình ảnh có kích thước 720x1280 pixel.
Độ nét hình ảnh kém có thể làm giảm độ chính xác của tính năng nhận dạng văn bản. Nếu bạn không nhận được kết quả chấp nhận được, hãy thử yêu cầu người dùng chụp lại hình ảnh.
Nếu đang nhận dạng văn bản trong một ứng dụng theo thời gian thực, bạn cũng nên cân nhắc các kích thước tổng thể của hình ảnh đầu vào. Hình ảnh nhỏ hơn có thể được xử lý nhanh hơn, vì vậy, để giảm độ trễ, hãy chụp hình ở độ phân giải thấp hơn (lưu ý các yêu cầu về độ chính xác ở trên) và đảm bảo văn bản chiếm nhiều không gian hình ảnh nhất có thể. Ngoài ra, hãy xem Mẹo cải thiện hiệu suất theo thời gian thực.

Nhận dạng văn bản trong hình ảnh

Để nhận dạng văn bản trong hình ảnh bằng cách sử dụng mô hình trên thiết bị hoặc trên đám mây, hãy chạy trình nhận dạng văn bản như mô tả dưới đây.

1. Chạy trình nhận dạng văn bản

Để nhận dạng văn bản trong hình ảnh, hãy tạo đối tượng FirebaseVisionImage từ Bitmap, media.Image, ByteBuffer, mảng byte hoặc tệp trên thiết bị. Sau đó, hãy truyền đối tượng FirebaseVisionImage vào phương thức processImage của FirebaseVisionTextRecognizer.

Tạo đối tượng FirebaseVisionImage từ hình ảnh của bạn.

Để tạo đối tượng FirebaseVisionImage từ đối tượng media.Image, chẳng hạn như khi chụp ảnh từ máy ảnh của thiết bị, hãy truyền đối tượng media.Image và độ xoay của hình ảnh đến FirebaseVisionImage.fromMediaImage().

Nếu sử dụng thư viện CameraX, các lớp OnImageCapturedListener và ImageAnalysis.Analyzer sẽ tính toán giá trị xoay cho bạn, vì vậy, bạn chỉ cần chuyển đổi giá trị xoay thành một trong các hằng số ROTATION_ của Bộ công cụ học máy trước khi gọi FirebaseVisionImage.fromMediaImage():

Nhận dạng văn bản trong hình ảnh bằng Bộ công cụ học máy trên Android bookmark_borderbookmark Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Trước khi bắt đầu

Nguyên tắc về hình ảnh đầu vào

Nhận dạng văn bản trong hình ảnh

1. Chạy trình nhận dạng văn bản

2. Trích xuất văn bản từ các khối văn bản được nhận dạng

Mẹo cải thiện hiệu suất theo thời gian thực

Các bước tiếp theo

Nhận dạng văn bản trong hình ảnh tài liệu

1. Chạy trình nhận dạng văn bản

2. Trích xuất văn bản từ các khối văn bản được nhận dạng

Các bước tiếp theo

Nhận dạng văn bản trong hình ảnh bằng Bộ công cụ học máy trên Android
bookmark_border Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.