Image captioning là gì? Các kiến trúc của Image captioning

Image captioning là một ứng dụng thú vị và phát triển nhanh chóng của công nghệ học sâu trong những năm gần đây. Dựa trên một hình ảnh làm đầu vào, Image captioning tạo văn bản ngắn mô tả nội dung của hình ảnh. Kết hợp thị giác máy tính và NLP làm cho kỹ thuật này trở nên đặc biệt hơn. Vậy hãy cùng Công Ty Quảng Cáo Marketing Online Limoseo tìm hiểu kỹ hơn xem Image captioning là gì? Hoạt động như thế nào? Các kiến trúc của Image captioning?

MỤC LỤC

1. Image captioning là gì? Hoạt động như thế nào?
2. Các kiến trúc của Image captioning
3. Câu hỏi thường gặp

1. Image captioning là gì? Hoạt động như thế nào?

1.1 Bộ mã hóa chức năng hình ảnh

Thao tác này lấy một hình ảnh nguồn làm đầu vào và mã hóa các thuộc tính nội tại của nó. Kiến trúc CNN và phương pháp học chuyển thường được sử dụng ở đây. Có một số mô hình được đào tạo trước để phân loại hình ảnh, chẳng hạn như VGGNet, ResNet và Inception.

“Xương sống” của mô hình này là khối CNN, giúp trích xuất dần dần các đặc điểm khác nhau từ hình ảnh và tạo một bản tóm tắt nhỏ gọn để nắm bắt các yếu tố quan trọng nhất trong hình ảnh.

Trong một mô hình phân loại hình ảnh, các bản tóm tắt đối tượng (còn gọi là bản đồ đối tượng) được cung cấp cho bộ phân loại để dự đoán kết quả cuối cùng của lớp đối với các đối tượng chính trong ảnh.

Khi chúng tôi áp dụng mô hình này cho chú thích hình ảnh, chúng tôi quan tâm đến việc phác thảo các tính năng hình ảnh và không cần dự đoán phân loại. Do đó, các nhà phát triển thường giữ lại phần “xương sống” (các khối CNN) và loại bỏ các lớp phân loại.

1.2. Bộ giải mã trình tự

Điều này nhận một đại diện được mã hóa của hình ảnh và xuất ra một chuỗi mã thông báo mô tả hình ảnh.

Thông thường, đây là mô hình mạng lặp lại bao gồm các lớp bộ nhớ ngắn hạn dài (LSTM) được cung cấp bởi các lớp nhúng. Đầu vào của mô hình là một vectơ được mã hóa hình ảnh với mã thông báo duy nhất “Bắt đầu”. Từ đây, mô hình “giải mã” vector hình ảnh đầu vào và xuất ra một loạt mã thông báo. Quá trình này được thực hiện trong một vòng lặp và mã thông báo đầu ra được đưa trở lại mạng làm đầu vào cho lần lặp tiếp theo. Cuối cùng, mô hình trả về mã thông báo “Kết thúc” để hoàn thành trình tự.

1.3 Trình tạo câu

Dựa trên chuỗi mã thông báo trước đó, trình tạo câu sẽ trả về chú thích mô tả hình ảnh bằng ngôn ngữ được yêu cầu.

Nó bao gồm một lớp tuyến tính theo sau bởi một softmax. Điều này sẽ cung cấp cho bạn xác suất của từng từ vựng có trong ngôn ngữ đích và xác suất của từng vị trí trong chuỗi. Xác suất này là xác suất của một từ xuất hiện ở một vị trí nhất định trong câu. Sau đó, bạn có thể sử dụng việc tìm kiếm để tạo ra câu cuối cùng bằng cách chọn từ có thể xảy ra nhất ở mỗi vị trí.

Câu sau đó được xuất ra dưới dạng chú thích dự đoán.

Hầu như tất cả các kiến trúc chú thích đều sử dụng ba thành phần trên. Tuy nhiên, khuôn khổ này đã trải qua một số thay đổi và phát triển trong những năm qua. Như vậy, bạn đã biết Image captioning là gì và hoạt động như thế nào rồi.

Image captioning là gì? Hoạt động như thế nào?

2. Các kiến trúc của Image captioning

2.1 Kiến trúc: Bộ mã hóa/Giải mã

Kiến trúc học sâu phổ biến nhất cho chú thích đôi khi được gọi là “Inject”. Điều này kết nối trực tiếp bộ mã hóa tính năng hình ảnh với bộ sắp xếp thứ tự, tiếp theo là bộ tạo câu đã nói ở trên. Đây là kiến trúc đầu tiên của Image captioning api.

2.2 Kiến trúc: Đa phương thức

Kiến trúc Inject là kiến trúc ban đầu của chú thích và vẫn còn rất phổ biến. Tuy nhiên, người ta thấy rằng có thể thu được kết quả tốt hơn khi sử dụng một phương pháp khác, được gọi là kiến trúc “đa phương thức”.

Thay vì kết nối bộ mã hóa hình ảnh làm đầu vào với bộ sắp xếp thứ tự, hai thành phần này hoạt động độc lập. Nói cách khác, chúng tôi không bao giờ kết hợp hai định dạng hình ảnh và văn bản. Mạng CNN chỉ xử lý hình ảnh và mạng LSTM chỉ xử lý chuỗi mã thông báo được tạo.

Đầu ra của hai mạng này được kết hợp bởi một lớp đa phương thức (có thể là lớp tuyến tính và lớp softmax). Nó nhận nhiệm vụ diễn giải cả hai kết quả đầu ra, sau đó bộ tạo câu dự đoán nhận xét cuối cùng.

Một ưu điểm khác của phương pháp này là học chuyển giao có thể được sử dụng không chỉ cho bộ mã hóa hình ảnh mà còn cho bộ giải mã trình tự. Sequencer có thể sử dụng các mô hình ngôn ngữ được đào tạo trước.

2.3 Kiến trúc: Object detection backbone

Trước đó, chúng ta đã thảo luận về việc sử dụng “xương sống” mô hình phân loại hình ảnh được huấn luyện trước của bộ mã hóa. Loại mô hình này giúp xác định một mặt phẳng duy nhất cho toàn bộ hình ảnh.

Tuy nhiên, hầu hết các bức ảnh có thể chứa nhiều vùng quan trọng cần được phân loại. Thay vì phân loại hình ảnh, tại sao không sử dụng các mô hình phát hiện đối tượng được đào tạo trước để trích xuất các đặc điểm từ hình ảnh?

Các mô hình phát hiện đối tượng tạo các hộp giới hạn xung quanh tất cả các đối tượng nổi bật trong một hình ảnh. Nó không chỉ gắn nhãn cho nhiều đối tượng mà còn xác định vị trí tương đối của chúng trong ảnh. Kết quả là, nó có thể cung cấp hình ảnh được mã hóa phong phú hơn. Đây là đầu vào được Bộ giải mã trình tự sử dụng để bao gồm các chú thích cho tất cả các đối tượng.

2.4 Kiến trúc: Bộ mã hóa/giải mã với attention

Việc sử dụng các mô hình chánh niệm trong NLP đã nhận được rất nhiều sự chú ý trong những năm gần đây. Điều này chứng tỏ khả năng cải thiện đáng kể hiệu suất của các ứng dụng NLP. Khi mô hình tạo ra từng từ của đầu ra, Chú ý giúp mô hình tập trung vào các từ trong chuỗi đầu vào có liên quan nhất đến đầu ra đó. Vì vậy, không có gì ngạc nhiên khi những chú thích cũng được chú ý.

Khi bộ giải mã trình tự tạo ra từng từ trong chú thích, sự chú ý được sử dụng để tập trung vào phần hình ảnh có liên quan nhất đến từ mà nó tạo ra. Mô-đun Chú ý nhận vectơ hình ảnh được mã hóa cùng với mã thông báo đầu ra hiện tại từ LSTM. Tạo ra một giá trị chú ý có trọng số. Kết hợp điểm này với hình ảnh sẽ làm tăng trọng lượng của pixel mà LSTM nên tập trung vào khi dự đoán mã thông báo tiếp theo.

2.5 Kiến trúc: Encoder/Decoder sử dụng Transformers

Một người khổng lồ cao cấp khác chắc chắn là Transformer. Nó xoay quanh cốt lõi của sự chú ý và không sử dụng các mạng lặp đi lặp lại vốn từ lâu đã trở thành trụ cột của NLP. Kiến trúc rất giống với Encoder/Decoder, nhưng Transformer thay thế LSTM.

Một số biến thể khác nhau của kiến trúc Transformer đã được đề xuất để giải quyết vấn đề chú thích hình ảnh. Các phương pháp mới hơn cố gắng mã hóa không chỉ các đối tượng riêng lẻ trong một hình ảnh mà còn cả các mối quan hệ không gian của chúng.

2.6 Kiến trúc: Dense Captioning

Một biến thể khác của phương pháp nhận dạng đối tượng được gọi là chú thích dày đặc. Ý tưởng cơ bản đằng sau kiến trúc này là: Một bức ảnh thường có một bộ sưu tập phong phú các đối tượng hoạt động ở các vị trí khác nhau trong bức ảnh.

Do đó, nó có thể biểu thị nhiều chú thích cho các vùng khác nhau của hình ảnh chứ không chỉ một chú thích duy nhất. Mô hình này giúp nắm bắt tất cả các chi tiết trong hình ảnh.

3. Câu hỏi thường gặp

Image captioning là gì?

Image captioning là quá trình tự động sinh ra mô tả văn bản cho một hình ảnh đầu vào. Nó kết hợp giữa lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và xử lý ảnh để tạo ra một mô hình AI có khả năng hiểu và mô tả hình ảnh một cách tự động.

Image captioning được sử dụng trong lĩnh vực nào?

Một số ứng dụng Image captioning được sử dụng là máy tự động mô tả hình ảnh. Trợ giúp cho người khuyết tật. Ứng dụng trong công nghiệp và marketing.

Các thành phần chính trong mô hình image captioning là gì?

Mô hình image captioning thường bao gồm các thành phần sau mạng nơ-ron hình ảnh (CNN): Mạng nơ-ron hình ảnh được sử dụng để trích xuất đặc trưng từ hình ảnh đầu vào. Mô hình ngôn ngữ (RNN/LSTM/Transformer): Mô hình ngôn ngữ được sử dụng để tạo ra mô tả văn bản cho hình ảnh. Bộ chuyển đổi (Attention mechanism): Được sử dụng để liên kết thông tin hình ảnh và ngôn ngữ.

Như vậy, Công Ty Quảng Cáo Marketing Online Limoseo đã hướng dẫn các bạn đọc về nội dung Image captioning là gì, hoạt động như thế nào cũng như giới thiệu các kiến trúc của Image captioning. Limoseo rất hy vọng bài viết trên sẽ giúp ích cho các bạn cũng như Image captioning Việt Nam.

Limoseo - Công ty Dịch vụ SEO & Thiết kế Website — Limoseo – Công ty Dịch vụ SEO & Thiết kế Website

Đánh giá

Image captioning là gì? Các kiến trúc của Image captioning

1. Image captioning là gì? Hoạt động như thế nào?

1.1 Bộ mã hóa chức năng hình ảnh

1.2. Bộ giải mã trình tự

1.3 Trình tạo câu

2. Các kiến trúc của Image captioning

2.1 Kiến trúc: Bộ mã hóa/Giải mã

2.2 Kiến trúc: Đa phương thức

2.3 Kiến trúc: Object detection backbone

2.4 Kiến trúc: Bộ mã hóa/giải mã với attention

2.5 Kiến trúc: Encoder/Decoder sử dụng Transformers

2.6 Kiến trúc: Dense Captioning

3. Câu hỏi thường gặp

Huyền Đặng

ĐỘI NGŨ TƯ VẤN LUÔN
SẴN SÀNG HỖ TRỢ BẠN

ĐỂ LẠI THÔNG TIN TƯ VẤN

1. Image captioning là gì? Hoạt động như thế nào?

1.1 Bộ mã hóa chức năng hình ảnh

1.2. Bộ giải mã trình tự

1.3 Trình tạo câu

2. Các kiến trúc của Image captioning

2.1 Kiến trúc: Bộ mã hóa/Giải mã

2.2 Kiến trúc: Đa phương thức

2.3 Kiến trúc: Object detection backbone

2.4 Kiến trúc: Bộ mã hóa/giải mã với attention

2.5 Kiến trúc: Encoder/Decoder sử dụng Transformers

2.6 Kiến trúc: Dense Captioning

3. Câu hỏi thường gặp

Huyền Đặng

ĐỘI NGŨ TƯ VẤN LUÔNSẴN SÀNG HỖ TRỢ BẠN

ĐỂ LẠI THÔNG TIN TƯ VẤN

ĐỘI NGŨ TƯ VẤN LUÔN
SẴN SÀNG HỖ TRỢ BẠN