الگوبرداری صحنه داخلی متراکم از تصاویر ۲D به دلیل فقدان اطلاعات عمق و انسداد زیاد به هم ریخته است. ما با استفاده از ویژگی های عمیق شبکه های عصبی یک روش مدل سازی صحنه داخلی را ارائه می دهیم. با توجه به یک تصویر RGB واحد ، روش ما همزمان با بازیابی محتویات معنایی ، هندسه سهبعدی و رابطه اشیاء با استدلال از متن محیط داخلی ، بازیابی می شود. به خصوص ، ما یک معماری کم عمق و عمیق را بر اساس شبکه های محکم برای درک و مدل سازی صحنه معنایی طراحی می کنیم. این شامل شبکه های محکم چند سطحی برای تجزیه معنایی / هندسه داخلی به دانش غیر رابطه و رابطه است. دانش غیر مرتبط استخراج شده از شبکه های کم عمق (به عنوان مثال چیدمان اتاق ، هندسه شی) به جلو در سطوح عمیق تر برای تجزیه معنایی رابطه (به عنوان مثال رابطه پشتیبانی) تغذیه می شود. یک شبکه روابط برای استنباط رابطه پشتیبانی بین اشیاء پیشنهاد شده است. تمام معانی و ساختار هندسی فوق برای هدایت بهینه سازی جهانی برای مدل سازی صحنه سه بعدی جمع شده اند. تجزیه و تحلیل کمی و کیفی امکان ارزیابی روش ما در درک و مدل سازی صحنه های داخلی غنی شده از معناشناسی را با ارزیابی عملکرد دقت بازسازی ، عملکرد محاسبات و پیچیدگی صحنه نشان می دهد.