محور تحقیق: هفته 20 فوریه 2023

محور تحقیق: هفته 20 فوریه 2023
به سایت آموزشی میتوانید خوش آمدید، درضمن اگر برای کسب و کار به جذب مشتری نیاز دارید پیشنهاد میکنیم روی سایت تبلیغات کلیک کنید تا بزرگترین سایت تبلیغات ایران بشوید.

محور تحقیق: هفته 20 فوریه 2023

Microsoft Research Focus 10 edition, week of February 20, 2023

به Research Focus خوش آمدید، سری جدیدی از پست های وبلاگی که انتشارات قابل توجه را برجسته می کند ، رویدادها، کد/مجموعه داده ها، استخدام های جدید و سایر نقاط عطف از سراسر جامعه تحقیقاتی در مایکروسافت.

تحقیق جدید

پیش آموزش چند کاره خود نظارتی با ترانسفورماتورهای کنترلی (SMART)

بسیاری از برنامه های کاربردی دنیای واقعی نیاز به تصمیم گیری متوالی دارند، جایی که یک عامل برای انجام یک کار با یک محیط تصادفی تعامل می کند. به عنوان مثال، از یک روبات ناوبر انتظار می رود با استفاده از اطلاعات حسی که در طول مسیر دریافت می کند، خود را کنترل کرده و به سمت هدف حرکت کند. یادگیری سیاست کنترل مناسب می تواند با عدم قطعیت محیطی و اطلاعات ادراکی با ابعاد بالا، مانند فضاهای پیکسل خام پیچیده شود. مهمتر از آن، استراتژی آموخته شده برای کار (مثلاً به کدام هدف برای رسیدن) و عامل (به عنوان مثال، یک ربات دو پا یا یک ربات چهار پا) خاص است. این بدان معناست که یک استراتژی خوب برای یک کار لزوماً برای یک کار جدید یا یک عامل دیگر اعمال نمی شود.

پیش‌آموزش یک مدل پایه می‌تواند به بهبود کارایی کلی در مواجهه با طیف وسیعی از وظایف و عوامل کنترلی کمک کند. با این حال، اگرچه مدل‌های پایه به موفقیت‌های باورنکردنی در حوزه‌های زبانی دست یافته‌اند، وظایف و عوامل کنترلی مختلف می‌توانند اختلافات زیادی داشته باشند، که یافتن یک پایه جهانی را به چالش می‌کشد. در سناریوهای دنیای واقعی که فاقد نظارت یا داده‌های رفتاری با کیفیت بالا هستند، چالش‌برانگیزتر می‌شود.

در مقاله جدید: SMART: پیش‌آزمایی چند وظیفه‌ای خودسرانه با ترانسفورماتورهای کنترلی، محققان مایکروسافت با این چالش‌ها مقابله کرده و یک چارچوب پیش‌آموزشی عمومی برای مشکلات کنترلی پیشنهاد می‌کنند. تحقیقات آن‌ها نشان می‌دهد که یک مدل SMART از پیش آموزش‌دیده را می‌توان برای وظایف و عوامل مختلف کنترل بصری، چه دیده‌شده یا نادیده، با بهبود قابل‌توجهی عملکرد و کارایی یادگیری، به‌خوبی تنظیم کرد. SMART همچنین در برابر مجموعه داده‌های با کیفیت پایین انعطاف‌پذیر است و حتی زمانی که رفتارهای تصادفی داده‌های قبل از آموزش را تشکیل می‌دهند، به خوبی کار می‌کند.

تحقیق جدید

یک بازی رتبه بندی برای یادگیری تقلید

یادگیری تقویتی برای یادگیری رفتارهای معنادار به بازخورد پاداش محیطی متکی است. از آنجایی که تعیین پاداش مشکل سختی است، یادگیری تقلید (IL) ممکن است برای دور زدن مشخصات پاداش و یادگیری از داده‌های متخصص، اغلب از طریق تکنیک‌های آموزش تقویت معکوس (IRL) استفاده شود. در IL، در حالی که داده های متخصص تقریباً بهینه بسیار آموزنده است، اما به دست آوردن آن می تواند دشوار باشد. حتی با داده‌های بی‌نهایت، داده‌های خبره نمی‌توانند به‌عنوان اولویت‌ها به ترتیب کل مسیرها دلالت کنند. از سوی دیگر، یادگیری از ترجیحات به تنهایی چالش برانگیز است، زیرا تعداد زیادی ترجیحات برای استنتاج یک تابع پاداش با ابعاد بالا مورد نیاز است، اگرچه جمع‌آوری داده‌های ترجیحی معمولاً بسیار آسان‌تر از نمایش‌های متخصص است. فرمول کلاسیک IRL از نمایش های متخصص یاد می گیرد، اما هیچ مکانیزمی برای ترکیب یادگیری از تنظیمات آفلاین ارائه نمی دهد.

در مقاله جدید: بازی رتبه بندی برای یادگیری تقلید پذیرفته شده در TMLR 2023، محققان UT Austin، Microsoft Research، و UMass Amherst یک چارچوب الگوریتمی یکپارچه برای IRL ایجاد می‌کنند که هم اطلاعات تخصصی و هم اطلاعات غیربهینه را برای یادگیری تقلیدی در بر می‌گیرد. آنها چارچوب جدیدی را برای یادگیری تقلیدی به نام «بازی رتبه‌بندی» پیشنهاد می‌کنند که تقلید را به عنوان یک بازی مبتنی بر رتبه‌بندی دو نفره بین سیاست و پاداش در نظر می‌گیرد. در این بازی، عامل پاداش یاد می‌گیرد که رتبه‌بندی عملکرد زوجی را بین رفتارها برآورده کند، در حالی که عامل سیاست یاد می‌گیرد این پاداش را به حداکثر برساند. یک تابع از دست دادن رتبه‌بندی جدید پیشنهاد شده است، که الگوریتمی را ارائه می‌دهد که می‌تواند به طور همزمان از نمایش‌ها و اولویت‌های متخصص یاد بگیرد و مزایای هر دو روش را به دست آورد. نتایج تجربی در این مقاله نشان می‌دهد که روش پیشنهادی به کارایی نمونه پیشرفته دست می‌یابد و می‌تواند کارهای غیرقابل حل قبلی را در تنظیم یادگیری از مشاهده (LfO) حل کند. ویدیو و کد پروژه را می‌توانید در GitHub پیدا کنید.

rank-game: The Policy agent maximizes the reward function by interacting with the environment. The Reward agent satisfies a set of behavior rankings obtained from various sources: generated by the policy agent (vanilla), automatically generated (auto), or offline annotated rankings obtained from a human or offline dataset (pref). Treating this game in the Stackelberg framework leads to either Policy being a leader and Reward being a follower, or vice versa. — شکل 1: **Rank-game:** عامل Policy عملکرد پاداش را با تعامل با محیط به حداکثر می‌رساند. عامل پاداش مجموعه‌ای از رتبه‌بندی‌های رفتاری به‌دست‌آمده از منابع مختلف را برآورده می‌کند: ایجاد شده توسط عامل سیاست (وانیل)، ایجاد شده به‌طور خودکار (خودکار)، یا رتبه‌بندی‌های حاشیه‌نویسی آفلاین که از مجموعه داده‌های انسانی یا آفلاین (پیش‌فرض) ایجاد می‌شود. برخورد با این بازی در چارچوب Stackelberg منجر به این می شود که یا Policy یک رهبر باشد و Reward یک دنبال کننده باشد یا برعکس.

اخبار

مایکروسافت به مزارع GoodLeaf کمک می کند تا نوآوری کشاورزی را با داده هدایت کند

کشاورزی داخلی عمودی از فناوری گسترده ای برای مدیریت تولید و بهینه سازی شرایط رشد استفاده می کند. این شامل حرکت نیمکت‌های رشد، روشنایی، آبیاری و کنترل‌های هوا و دما است. داده ها و تجزیه و تحلیل ها می توانند به مزارع عمودی کمک کنند تا بالاترین بازده و کیفیت ممکن را تولید کنند.

پیشگام مزرعه عمودی کانادا GoodLeaf Farms دارای اعلام مشارکت با مایکروسافت و داده ها و تجزیه و تحلیل شرکت Adastra برای بهینه سازی تولید و کیفیت محصول. GoodLeaf Microsoft Azure Synapse Analytics و پلتفورم Power Microsoft برای استفاده از حجم وسیعی از داده‌هایی که جمع‌آوری می‌کند.

GoodLeaf همچنین با Microsoft Research از طریق Project FarmVibes، با استفاده از داده های GoodLeaf برای پشتیبانی از تحقیقات در زمینه کنترل شده کشاورزی محیط زیست.

مزرعه GoodLeaf در گوئلف، انتاریو، و دو مزرعه در حال ساخت در کلگری و مونترال، از یک سیستم متصل از دوربین‌ها و حسگرها برای مدیریت بذر گیاهان، محیط‌های رشد، جوانه‌زنی، دما، رطوبت، مواد مغذی، روشنایی و جریان هوا استفاده می‌کنند. علم داده و تجزیه و تحلیل به این شرکت کمک می کند تا با استفاده از سیستم هیدروپونیک و چراغ های LED تخصصی، در تمام طول سال، بدون توجه به آب و هوا، میکروگرین ها و سبزی های بچه را در کانادا رشد دهد.

OPPORTUNITY

جشن منبع باز یادگیری تقویتی

پیشنهادات اکنون برای آموزش تقویتی (RL) Open Source Fest 2023 پذیرفته می شود، یک برنامه آنلاین جهانی که دانش آموزان را با برنامه های منبع باز RL و توسعه نرم افزار آشنا می کند. هدف ما گرد هم آوردن گروه متنوعی از دانش‌آموزان از سراسر جهان است تا به حل مشکلات منبع باز RL و پیشبرد تحقیقات و توسعه پیشرفته کمک کنند. این برنامه کد منبع باز را تولید و منتشر می کند که به نفع همه باشد.

دانشجویان پذیرفته شده به یک پروژه تحقیقاتی چهار ماهه از ماه مه تا آگوست 2023 ملحق خواهند شد و به طور مجازی در کنار محققان، دانشمندان داده و مهندسان در تحقیقات مایکروسافت نیویورک سیتی کار خواهند کرد آموزش تقویت دنیای واقعی. همچنین دانشجویان 10000 دلار کمک هزینه دریافت خواهند کرد. در پایان برنامه، دانش‌آموزان هر یک از پروژه‌های خود را به‌صورت آنلاین به تیم آموزش تقویت دنیای واقعی تحقیقاتی مایکروسافت ارائه می‌کنند.

مهلت پیشنهاد دوشنبه، 3 آوریل 2023، ساعت 11:59 عصر به وقت شرقی است. بیشتر بیاموزید و پیشنهاد خود را ارسال کنید امروز.

منبع : www.microsoft.com

حتما بخوانید : هوش مصنوعی مسئول: همکاری تحقیقاتی پشت ابزارهای منبع باز جدید ارائه شده توسط مایکروسافت

پیشنهاد میکنیم از دیگر نوشته ها دیدن کنید.

محور تحقیق: هفته 20 فوریه 2023

baltazar

مطالبمرتبط

NeurIPS 2022: هفت مقاله تحقیقاتی مایکروسافت برای ارائه شفاهی انتخاب شدند

IOM و مایکروسافت برای اولین بار مجموعه داده مصنوعی خصوصی متفاوتی را برای مقابله با قاچاق انسان منتشر کردند

محور تحقیق: هفته 5 دسامبر 2022

تمرکز پژوهش: هفته 6 فوریه 2023

تمرکز پژوهش: هفته 23 ژانویه 2023

پلتفرم تحقیقات زیست پزشکی Terra اکنون در Microsoft Azure در دسترس است

دیدگاهتان را بنویسید لغو پاسخ

پیشنهادی ها

برندسازی چیست؟ درک اهمیت آن در سال 2023

چگونه بازاریابان هنوز هم می توانند در رکود رشد کنند [تجزیه و تحلیل داده ها]

18 مورد از بهترین چت ربات های هوش مصنوعی در سال 2023

در RSAC 2023 عصر جدیدی از امنیت را با مایکروسافت کشف کنید

Categories

نکات برجسته

100+ آمار اینستاگرام که باید در سال 2024 بدانید

55 بهترین دوره آنلاین رایگان برای هر آنچه که می خواهید یاد بگیرید

نحوه یافتن، برجسته کردن و حذف موارد تکراری در Google Sheets [گام به گام]

درآمد خود را افزایش دهید: نکات امی پورترفیلد برای افزودن دوره دیجیتال به کسب و کار شما

بهترین وب سایت شخصی از بازاریابان، سازندگان و سایر حرفه ای های تجاری که به شما الهام می بخشند

کدام کانال های رسانه های اجتماعی در سال 2024 استیم را به دست می آورند و از دست می دهند؟ [داده های جدید مصرف کننده و پلت فرم]

پرطرفدار

15 بهترین نمونه از اهداف حرفه ای [+ نکاتی برای دستیابی به آنها]

چگونه در اکسل مرتب کنیم و داده های خود را مرتب نگه داریم

ترک بی سر و صدا در مقابل تعیین مرزهای سالم: خط کجاست؟

100+ آمار اینستاگرام که باید در سال 2024 بدانید

55 بهترین دوره آنلاین رایگان برای هر آنچه که می خواهید یاد بگیرید

آموزش های اخیر :

دسته‌ها

mitavanid

خوش آمدید!

ساخت حساب کاربری!

رمز عبور خود را بازیابی کنید

افزودن لیست پخش جدید

محور تحقیق: هفته 20 فوریه 2023

محور تحقیق: هفته 20 فوریه 2023

تحقیق جدید

پیش آموزش چند کاره خود نظارتی با ترانسفورماتورهای کنترلی (SMART)

اجلاس تحقیقاتی مایکروسافت 2022

تحقیق جدید

یک بازی رتبه بندی برای یادگیری تقلید

اخبار

مایکروسافت به مزارع GoodLeaf کمک می کند تا نوآوری کشاورزی را با داده هدایت کند

OPPORTUNITY

جشن منبع باز یادگیری تقویتی

مطالبمرتبط

دیدگاهتان را بنویسید لغو پاسخ

پیشنهادی ها

Categories

نکات برجسته

پرطرفدار

آموزش های اخیر :

دسته‌ها

mitavanid

خوش آمدید!

ساخت حساب کاربری!

رمز عبور خود را بازیابی کنید

افزودن لیست پخش جدید