กลับไปที่นวัตกรรมทั้งหมด

การทำนายภาพแผนที่มุมสูงโดยใช้แบบจำลอง HORIZONTALLY-AWARE PYRAMID OCCUPANCY NETWORK

SEMANTIC BIRD’S-EYE-VIEW MAP PREDICTION USING HORIZONTALLY-AWARE PYRAMID OCCUPANCY NETWORK

@คณะเทคโนโลยีสารสนเทศ

#KLLC 2024
#Digital Technology
การทำนายภาพแผนที่มุมสูงโดยใช้แบบจำลอง HORIZONTALLY-AWARE PYRAMID OCCUPANCY NETWORK

รายละเอียด

การเรียนรู้เชิงลึกได้ถูกใช้ในการทำนายภาพมุมสูงจากภาพจากกล้องมุมด้านหน้าของรถยนต์ขับเคลื่อนอัตโนมัติ ซึ่งแบบจำลองที่มีความทันสมัยที่สุดมีชื่อว่า Pyramid occupancy network หริอ PON มีการทำงานโดยใช้สถาปัตยกรรมการเข้ารหัสและถอดรหัส (Encoder-Decoder) เพื่อทำการย่อแนวความสูงของรูปภาพให้กลายเป็นเวกเตอร์บริบท (context vector) ที่สามารถอธิบายการมีอยู่ของวัตถุตามแนวรัศมีได้ ในโครงงานนี้ได้ออกแบบจำลองที่ชื่อว่า Horizontally-aware Pyramid Occupancy Network หรือ H-PON ซึ่งได้ขยายความสามารถเดิมของแบบจำลอง PON ด้วยองค์ประกอบบแบบใหม่ที่มีบริบทเพิ่มเติมเพื่ออธิบายความสัมพันธ์ของวัตถุตามทิศทางแนวนอน โดยยังคงใช้การเข้ารหัสและถอดรหัส (Encoder-Decoder) ในแนวนอนของรูปภาพให้กลายเป็นเวกเตอร์บริบท (context vector) เพิ่มเติมมาอีกชั้น ซึ่งเวกเตอร์บริบท (context vector) นี้ จะช่วยเพิ่มคุณสมบัติในทิศทางแนวนอน
   ผู้จัดทำพบว่าการปรับปรุงแบบจำลองนี้ช่วยเพิ่มประสิทธิภาพของการทำนายของแบบจำลอง PON ในชุดข้อมูล nuScene อย่างมีนัยสำคัญ จากการทดลองพบว่าวัตถุที่มองเห็นได้ยากและอยู่ห่างออกไปจากจุดศูนย์กลางถูกทำนายถูกมากขึ้นจากองค์ประกอบใหม่ในโครงงานนี้

วัตถุประสงค์

With the advancement of technology, the automotive industry has shifted its focus from mere transportation to prioritizing convenience and safety. This has led to the emergence of autonomous driving, which brings benefits to both road users and passengers. Autonomous driving encompasses various components, ranging from understanding the surrounding environment to achieving self-driving capabilities.

To sense and perceive the environment, autonomous driving heavily relies on object detection, distance estimation, and position estimation, which are achieved through a combination of lidar, radar, and cameras. However, lidar has drawbacks such as its weight and cost, while cameras offer a more affordable alternative that can perform these tasks without the need for lidar and radar.

Top-down maps play a crucial role in autonomous driving as they provide a comprehensive bird's-eye view of the environment. These maps contain contextual information that aids autonomous driving systems in making well-informed decisions, especially in terms of efficient path planning by analyzing road layouts. The contextual information derived from top-down maps enables autonomous vehicles to identify and analyze potential obstacles in their surroundings.

In summary, the objective of this work is to develop a deep learning model for autonomous driving that can predict semantic maps from images to reduce the cost associated with lidar and radar sensors.

ผู้จัดทำ

ตุลธร วงศ์ชัย
TUNLATON WONGCHAI

#นักศึกษา

สมาชิก
ธนภัทร ธีรรัตตัญญู
THANAPAT TEERARATTANYU

#นักศึกษา

สมาชิก
ณัฏฐ์ ดิลกธนากุล
Nat Dilokthanakul

#อาจารย์

อาจารย์ที่ปรึกษา

โหวตนวัตกรรมนี้

กำลังดาวน์โหลด