Tìm hiểu Yolo v7 là gì cho bài toán Object Detection

Nhận dạng đối tượng là một vấn đề phổ biến trong thị giác máy tính. YOLO (You Only Look Once) là mô hình phát hiện đối tượng phổ biến được biết đến với tốc độ và độ chính xác. Bài viết này của Công Ty Quảng Cáo Marketing Online Limoseo thảo luận về Yolo v7 là gì và điều khiến YOLO v7 trở nên nổi bật và so sánh nó với các thuật toán phát hiện đối tượng khác.

Tìm hiểu Yolo v7 là gì cho bài toán Object Detection

1. Nhận dạng đối tượng là gì? 

Phát hiện đối tượng là một vấn đề về thị giác máy tính liên quan đến việc xác định cũng như là định vị các đối tượng trong hình ảnh hoặc video. Nó là một phần quan trọng của nhiều ứng dụng như camera giám sát thông minh, ô tô tự lái và người máy. Các thuật toán phát hiện đối tượng có thể được chia thành hai loại chính: phát hiện đối tượng một lần và phát hiện đối tượng hai lần.

1.1 Phát hiện đối tượng một lần

Tính năng phát hiện đối tượng trong một lần chụp sử dụng một lần truyền hình ảnh đầu vào để dự đoán sự hiện diện và vị trí của các đối tượng trong ảnh. Nó hiệu quả về mặt tính toán vì nó xử lý toàn bộ hình ảnh trong một lần.

Tuy nhiên, phát hiện đối tượng một lần thường kém chính xác hơn các phương pháp khác và không hiệu quả trong việc phát hiện các đối tượng nhỏ. Các thuật toán như vậy có thể được sử dụng để phát hiện đối tượng theo thời gian thực trong các môi trường hạn chế về tài nguyên.

YOLO là thuật toán phát hiện đối tượng một lần sử dụng mạng thần kinh tích chập (CNN) để xử lý hình ảnh.

1.2 Phát hiện đối tượng hai lần

Tính năng phát hiện đối tượng hai ảnh sử dụng hai lần truyền hình ảnh đầu vào để dự đoán sự hiện diện và vị trí của đối tượng. Lượt đi đầu tiên được sử dụng để tạo một tập hợp các đề xuất hoặc vị trí tiềm năng từ đối tượng. Lần vượt qua thứ hai được sử dụng để tinh chỉnh các đề xuất này và đưa ra dự đoán cuối cùng. Cách tiếp cận này chính xác hơn so với phát hiện đối tượng một lần, nhưng cũng tốn kém về mặt tính toán.

Nói chung, việc lựa chọn giữa phát hiện đối tượng đơn và phát hiện đối tượng kép tùy thuộc vào nhu cầu và ràng buộc cụ thể của ứng dụng của bạn.

Nói chung, phát hiện đối tượng một lần phù hợp hơn cho các ứng dụng thời gian thực, trong khi phát hiện đối tượng hai lần phù hợp hơn cho các ứng dụng cần độ chính xác.

Nhận dạng đối tượng là gì? 

2. YOLO là gì? 

2.1 Yolo là gì? Yolo v7 là gì? 

YOLO đề xuất sử dụng mạng thần kinh end-to-end để dự đoán xác suất đối tượng và hộp giới hạn đồng thời. Điều này khác với cách tiếp cận của các thuật toán phát hiện đối tượng trước đó, sử dụng lại các bộ phân loại để thực hiện phát hiện.

Yolo v7 là gì? Yolo v7 là phiên bản mới nhất của Yolo. 

Theo một cách tiếp cận cơ bản khác để phát hiện đối tượng, YOLO đã đạt được kết quả cao nhất vượt trội so với các thuật toán phát hiện đối tượng thời gian thực khác.

2.2 YOLO hoạt động như thế nào?

Thuật toán Yolo v7 lấy hình ảnh làm đầu vào và sử dụng mạng nơ ron tích chập sâu đơn giản để phát hiện các đối tượng trong ảnh. Kiến trúc của mô hình CNN là xương sống của YOLO được hiển thị bên dưới. 20 lớp tích chập đầu tiên của mô hình được huấn luyện trước trên ImageNet bằng cách chèn các lớp tổng hợp trung bình theo thời gian và các lớp được kết nối đầy đủ. Sau đó chuyển đổi mô hình được đào tạo trước này để thực hiện nhận dạng. Lớp được kết nối đầy đủ cuối cùng trong YOLO dự đoán cả xác suất của lớp và tọa độ hộp giới hạn.

YOLO chia hình ảnh đầu vào thành lưới S × S và một ô lưới sẽ phát hiện một đối tượng khi tâm của đối tượng chồng lên một ô lưới. Mỗi ô lưới dự đoán các hộp giới hạn B và giá trị độ tin cậy cho các hộp đó. Các giá trị độ tin cậy này phản ánh độ tin cậy của mô hình rằng hộp chứa đối tượng và mức độ chính xác mà mô hình tin rằng hộp được dự đoán.

YOLO dự đoán nhiều hộp giới hạn trên mỗi ô lưới. Tại thời điểm đào tạo, chúng ta cần một bộ dự đoán hộp giới hạn đại diện cho từng đối tượng. YOLO chỉ định các yếu tố dự đoán dựa trên IOU cao nhất hiện tại. Điều này đặc biệt cho bộ dự đoán hộp giới hạn. Mỗi công cụ dự đoán sẽ dự đoán kích thước, tỷ lệ khung hình hoặc loại của một đối tượng cụ thể tốt hơn, dẫn đến khả năng thu hồi tổng thể tốt hơn.

Một kỹ thuật quan trọng được sử dụng trong mô hình YOLO là NMS (Non-Maximum Suppression). NMS là một bước xử lý sau được sử dụng để cải thiện độ chính xác và hiệu quả của việc phát hiện đối tượng. Trong phát hiện đối tượng, người ta thường tạo nhiều hộp giới hạn cho các đối tượng trong một hình ảnh. Các hộp giới hạn này có thể chồng lên nhau hoặc ở những vị trí khác nhau, nhưng tất cả chúng đều đại diện cho cùng một đối tượng. Nó sử dụng NMS để xác định và loại bỏ các hộp giới hạn dư thừa hoặc không phù hợp và đề xuất các hộp giới hạn duy nhất cho từng đối tượng trong ảnh.

YOLO là gì? 

3. Có gì mới trong YOLO v7 

YOLO v7, phiên bản mới nhất của YOLO, có một số cải tiến so với phiên bản tiền nhiệm. Một trong những cải tiến quan trọng nhất là việc sử dụng tủ khóa neo. Hộp neo là tập hợp các hộp được xác định trước với các tỷ lệ khung hình khác nhau được sử dụng để nhận dạng các đối tượng có hình dạng khác nhau. YOLO v7 sử dụng 9 hộp neo. Điều này cho phép YOLO nhận dạng phạm vi hình dạng và kích thước đối tượng rộng hơn so với các phiên bản trước, giảm số lượng thông báo sai.

Cải tiến chính trong YOLO v7 là việc sử dụng chức năng mất mới có tên là Mất tiêu điểm. Các phiên bản trước của YOLO đã sử dụng chức năng giảm entropy chéo tiêu chuẩn, được biết là kém hiệu quả hơn trong việc phát hiện các đối tượng nhỏ. Mất tập trung giải quyết vấn đề này bằng cách giảm trọng lượng mất mát của các mẫu được phân loại tốt và tập trung vào các mẫu khó (đối tượng khó nhìn thấy). YOLO v7 có độ phân giải cao hơn các phiên bản trước. Nó xử lý hình ảnh ở độ phân giải 608 x 608 pixel, cao hơn độ phân giải 416 x 416 được sử dụng trong YOLO v3. Độ phân giải cao hơn này cho phép YOLO v7 phát hiện các đối tượng nhỏ hơn với độ chính xác cao hơn.

Một trong những ưu điểm chính nhất của YOLO v7 là tốc độ. Nó có thể xử lý hình ảnh ở tốc độ 155 khung hình/giây, nhanh hơn nhiều so với các thuật toán phát hiện đối tượng hiện đại khác. Ngay cả mô hình cơ sở ban đầu của YOLO cũng có thể xử lý tới 45 khung hình mỗi giây. Điều này làm cho nó phù hợp với các ứng dụng thời gian thực nhạy cảm, trong đó tốc độ xử lý cao hơn là rất quan trọng, chẳng hạn như xe giám sát và xe tự hành.

Về độ chính xác, YOLO v7 có thể so sánh với các thuật toán phát hiện đối tượng khác. Chúng tôi đạt được độ chính xác trung bình là 37,2% với IoU (Giao lộ khi hợp nhất) là 0,5 trên tập dữ liệu COCO được chia sẻ, có thể so sánh với các thuật toán phát hiện đối tượng tiên tiến nhất khác. Một so sánh hiệu suất định lượng được hiển thị dưới đây. Tuy nhiên, YOLO v7 kém chính xác hơn so với các công cụ phát hiện hai giai đoạn như Faster R-CNN và Mask R-CNN, đồng thời có xu hướng có độ chính xác trung bình cao hơn trên tập dữ liệu COCO nhưng yêu cầu thời gian suy luận lâu hơn.

4. Câu hỏi thường gặp

YOLO v7 là gì?

YOLO v7 là phiên bản thứ 7 của mô hình YOLO (You Only Look Once), một mô hình phát hiện đối tượng và nhận dạng đối tượng trong ảnh và video. YOLO v7 sử dụng mạng nơ-ron tích chập (CNN) để đồng thời dự đoán vị trí và phân loại các đối tượng trong ảnh một cách chính xác và nhanh chóng.

YOLO v7 có điểm nổi bật gì?

YOLO v7 có một số điểm nổi bật quan trọng. Nó cho phép phát hiện đối tượng và nhận dạng đối tượng theo thời gian thực, với tốc độ nhanh và hiệu suất cao. YOLO v7 sử dụng mạng nơ-ron tích chập sâu để học các đặc trưng của đối tượng, giúp nâng cao độ chính xác và độ phức tạp của nhiệm vụ. Hỗ trợ phát hiện và nhận dạng đa lớp đối tượng.

Ứng dụng của YOLO v7 là gì?

YOLO v7 có nhiều ứng dụng trong lĩnh vực thị giác máy tính và trí tuệ nhân tạo. Nó được sử dụng rộng rãi trong hệ thống giám sát an ninh để phát hiện và theo dõi đối tượng động trong video. YOLO v7 cũng được áp dụng trong các ứng dụng tự động hóa công nghiệp.

Như vậy, Công Ty Quảng Cáo Marketing Online Limoseo đã giới thiệu tới bạn đọc Yolo v7 là gì. Đừng quên like và share nếu bạn thấy bài viết này hữu ích và hãy để lại comment nếu còn điều gì cần được Limoseo giải đáp nhé.

Limoseo - Công ty Dịch vụ SEO & Thiết kế Website
Limoseo – Công ty Dịch vụ SEO & Thiết kế Website
Đánh giá