محور تحقیق: هفته 20 فوریه 2023
به سایت آموزشی میتوانید خوش آمدید، درضمن اگر برای کسب و کار به جذب مشتری نیاز دارید پیشنهاد میکنیم روی سایت تبلیغات کلیک کنید تا بزرگترین سایت تبلیغات ایران بشوید.
محور تحقیق: هفته 20 فوریه 2023
تحقیق جدید
پیش آموزش چند کاره خود نظارتی با ترانسفورماتورهای کنترلی (SMART)
بسیاری از برنامه های کاربردی دنیای واقعی نیاز به تصمیم گیری متوالی دارند، جایی که یک عامل برای انجام یک کار با یک محیط تصادفی تعامل می کند. به عنوان مثال، از یک روبات ناوبر انتظار می رود با استفاده از اطلاعات حسی که در طول مسیر دریافت می کند، خود را کنترل کرده و به سمت هدف حرکت کند. یادگیری سیاست کنترل مناسب می تواند با عدم قطعیت محیطی و اطلاعات ادراکی با ابعاد بالا، مانند فضاهای پیکسل خام پیچیده شود. مهمتر از آن، استراتژی آموخته شده برای کار (مثلاً به کدام هدف برای رسیدن) و عامل (به عنوان مثال، یک ربات دو پا یا یک ربات چهار پا) خاص است. این بدان معناست که یک استراتژی خوب برای یک کار لزوماً برای یک کار جدید یا یک عامل دیگر اعمال نمی شود.
پیشآموزش یک مدل پایه میتواند به بهبود کارایی کلی در مواجهه با طیف وسیعی از وظایف و عوامل کنترلی کمک کند. با این حال، اگرچه مدلهای پایه به موفقیتهای باورنکردنی در حوزههای زبانی دست یافتهاند، وظایف و عوامل کنترلی مختلف میتوانند اختلافات زیادی داشته باشند، که یافتن یک پایه جهانی را به چالش میکشد. در سناریوهای دنیای واقعی که فاقد نظارت یا دادههای رفتاری با کیفیت بالا هستند، چالشبرانگیزتر میشود.
در مقاله جدید: SMART: پیشآزمایی چند وظیفهای خودسرانه با ترانسفورماتورهای کنترلی، محققان مایکروسافت با این چالشها مقابله کرده و یک چارچوب پیشآموزشی عمومی برای مشکلات کنترلی پیشنهاد میکنند. تحقیقات آنها نشان میدهد که یک مدل SMART از پیش آموزشدیده را میتوان برای وظایف و عوامل مختلف کنترل بصری، چه دیدهشده یا نادیده، با بهبود قابلتوجهی عملکرد و کارایی یادگیری، بهخوبی تنظیم کرد. SMART همچنین در برابر مجموعه دادههای با کیفیت پایین انعطافپذیر است و حتی زمانی که رفتارهای تصادفی دادههای قبل از آموزش را تشکیل میدهند، به خوبی کار میکند.
رویداد در کانون توجه: رویداد درخواستی
اجلاس تحقیقاتی مایکروسافت 2022
در صورت تقاضا
اکنون تماشا کنید تا در مورد برخی از مبرمترین سؤالات پیش روی جامعه تحقیقاتی ما بیاموزید و به مکالمات با بیش از 120 محقق در مورد چگونگی اطمینان از آن گوش دهید فن آوری های جدید گسترده ترین منافع ممکن را برای بشریت دارند.
تحقیق جدید
یک بازی رتبه بندی برای یادگیری تقلید
یادگیری تقویتی برای یادگیری رفتارهای معنادار به بازخورد پاداش محیطی متکی است. از آنجایی که تعیین پاداش مشکل سختی است، یادگیری تقلید (IL) ممکن است برای دور زدن مشخصات پاداش و یادگیری از دادههای متخصص، اغلب از طریق تکنیکهای آموزش تقویت معکوس (IRL) استفاده شود. در IL، در حالی که داده های متخصص تقریباً بهینه بسیار آموزنده است، اما به دست آوردن آن می تواند دشوار باشد. حتی با دادههای بینهایت، دادههای خبره نمیتوانند بهعنوان اولویتها به ترتیب کل مسیرها دلالت کنند. از سوی دیگر، یادگیری از ترجیحات به تنهایی چالش برانگیز است، زیرا تعداد زیادی ترجیحات برای استنتاج یک تابع پاداش با ابعاد بالا مورد نیاز است، اگرچه جمعآوری دادههای ترجیحی معمولاً بسیار آسانتر از نمایشهای متخصص است. فرمول کلاسیک IRL از نمایش های متخصص یاد می گیرد، اما هیچ مکانیزمی برای ترکیب یادگیری از تنظیمات آفلاین ارائه نمی دهد.
در مقاله جدید: بازی رتبه بندی برای یادگیری تقلید پذیرفته شده در TMLR 2023، محققان UT Austin، Microsoft Research، و UMass Amherst یک چارچوب الگوریتمی یکپارچه برای IRL ایجاد میکنند که هم اطلاعات تخصصی و هم اطلاعات غیربهینه را برای یادگیری تقلیدی در بر میگیرد. آنها چارچوب جدیدی را برای یادگیری تقلیدی به نام «بازی رتبهبندی» پیشنهاد میکنند که تقلید را به عنوان یک بازی مبتنی بر رتبهبندی دو نفره بین سیاست و پاداش در نظر میگیرد. در این بازی، عامل پاداش یاد میگیرد که رتبهبندی عملکرد زوجی را بین رفتارها برآورده کند، در حالی که عامل سیاست یاد میگیرد این پاداش را به حداکثر برساند. یک تابع از دست دادن رتبهبندی جدید پیشنهاد شده است، که الگوریتمی را ارائه میدهد که میتواند به طور همزمان از نمایشها و اولویتهای متخصص یاد بگیرد و مزایای هر دو روش را به دست آورد. نتایج تجربی در این مقاله نشان میدهد که روش پیشنهادی به کارایی نمونه پیشرفته دست مییابد و میتواند کارهای غیرقابل حل قبلی را در تنظیم یادگیری از مشاهده (LfO) حل کند. ویدیو و کد پروژه را میتوانید در GitHub پیدا کنید.
اخبار
مایکروسافت به مزارع GoodLeaf کمک می کند تا نوآوری کشاورزی را با داده هدایت کند
کشاورزی داخلی عمودی از فناوری گسترده ای برای مدیریت تولید و بهینه سازی شرایط رشد استفاده می کند. این شامل حرکت نیمکتهای رشد، روشنایی، آبیاری و کنترلهای هوا و دما است. داده ها و تجزیه و تحلیل ها می توانند به مزارع عمودی کمک کنند تا بالاترین بازده و کیفیت ممکن را تولید کنند.
پیشگام مزرعه عمودی کانادا GoodLeaf Farms دارای اعلام مشارکت با مایکروسافت و داده ها و تجزیه و تحلیل شرکت Adastra برای بهینه سازی تولید و کیفیت محصول. GoodLeaf Microsoft Azure Synapse Analytics و پلتفورم Power Microsoft برای استفاده از حجم وسیعی از دادههایی که جمعآوری میکند.
GoodLeaf همچنین با Microsoft Research از طریق Project FarmVibes، با استفاده از داده های GoodLeaf برای پشتیبانی از تحقیقات در زمینه کنترل شده کشاورزی محیط زیست.
مزرعه GoodLeaf در گوئلف، انتاریو، و دو مزرعه در حال ساخت در کلگری و مونترال، از یک سیستم متصل از دوربینها و حسگرها برای مدیریت بذر گیاهان، محیطهای رشد، جوانهزنی، دما، رطوبت، مواد مغذی، روشنایی و جریان هوا استفاده میکنند. علم داده و تجزیه و تحلیل به این شرکت کمک می کند تا با استفاده از سیستم هیدروپونیک و چراغ های LED تخصصی، در تمام طول سال، بدون توجه به آب و هوا، میکروگرین ها و سبزی های بچه را در کانادا رشد دهد.
OPPORTUNITY
جشن منبع باز یادگیری تقویتی
پیشنهادات اکنون برای آموزش تقویتی (RL) Open Source Fest 2023 پذیرفته می شود، یک برنامه آنلاین جهانی که دانش آموزان را با برنامه های منبع باز RL و توسعه نرم افزار آشنا می کند. هدف ما گرد هم آوردن گروه متنوعی از دانشآموزان از سراسر جهان است تا به حل مشکلات منبع باز RL و پیشبرد تحقیقات و توسعه پیشرفته کمک کنند. این برنامه کد منبع باز را تولید و منتشر می کند که به نفع همه باشد.
دانشجویان پذیرفته شده به یک پروژه تحقیقاتی چهار ماهه از ماه مه تا آگوست 2023 ملحق خواهند شد و به طور مجازی در کنار محققان، دانشمندان داده و مهندسان در تحقیقات مایکروسافت نیویورک سیتی کار خواهند کرد آموزش تقویت دنیای واقعی. همچنین دانشجویان 10000 دلار کمک هزینه دریافت خواهند کرد. در پایان برنامه، دانشآموزان هر یک از پروژههای خود را بهصورت آنلاین به تیم آموزش تقویت دنیای واقعی تحقیقاتی مایکروسافت ارائه میکنند.
مهلت پیشنهاد دوشنبه، 3 آوریل 2023، ساعت 11:59 عصر به وقت شرقی است. بیشتر بیاموزید و پیشنهاد خود را ارسال کنید امروز.
پیشنهاد میکنیم از دیگر نوشته ها دیدن کنید.