ריינפאָרסמאַנט לערנען אָדער עוואָלוטיאָנאַרי סטראַטעגיעס? — בײדע

היי האבר!

מיר באַשליסן ניט אָפט צו פּאָסטן דאָ איבערזעצונגען פון טעקסטן וואָס זענען געווען צוויי יאָר אַלט, אָן קאָד און קלאר פון אַ אַקאַדעמיק נאַטור - אָבער הייַנט מיר מאַכן אַן אויסנאַם. מיר האָפן אַז די דילעמאַ געשטעלט אין דעם טיטל פון דעם אַרטיקל זאָרג פילע פון ​​אונדזער לייענער, און איר האָט שוין לייענען די פונדאַמענטאַל אַרבעט אויף עוואָלוטיאָנאַרי סטראַטעגיעס מיט וואָס דעם פּאָסטן טענהט אין דער אָריגינעל אָדער וועט לייענען עס איצט. ברוכים הבאים צו די קאַץ!

ריינפאָרסמאַנט לערנען אָדער עוואָלוטיאָנאַרי סטראַטעגיעס? — בײדע

אין מערץ 2017, OpenAI געמאכט כוואליעס אין די טיף לערנען קהל מיט די פּאַפּיר "עוואַלושאַן סטראַטעגיעס ווי אַ סקאַלאַבלע אנדער ברירה צו ריינפאָרסמאַנט לערנען" די אַרבעט דיסקרייבד ימפּרעסיוו רעזולטאַטן אין טויווע פון ​​די פאַקט אַז ריינפאָרסמאַנט לערנען (רל) איז נישט געווארן אַ וועדזש, און ווען טריינינג קאָמפּלעקס נעוראַל נעטוואָרקס, עס איז קעדייַיק צו פּרובירן אנדערע מעטהאָדס. א דעבאַטע דעמאָלט יראַפּטיד וועגן די וויכטיקייט פון ריינפאָרסמאַנט לערנען און ווי דיזערווינג זיין סטאַטוס ווי אַ "מוזן-האָבן" טעכנאָלאָגיע פֿאַר לערנען פּראָבלעם סאַלווינג. דא וויל איך זאגן אז די צוויי טעכנאלאגיעס זאלן נישט באטראכט ווערן אלס קאנקורענץ, פון וועלכע איינער איז קלאר בעסער ווי די אנדערע; אויף די פאַרקערט, זיי לעסאָף דערגאַנג יעדער אנדערער. טאַקע, אויב איר טראַכטן אַ ביסל וועגן וואָס עס נעמט צו שאַפֿן גענעראַל אַי און אזעלכע סיסטעמען, וועלכע וואלטן דורכאויס זייער עקזיסטענץ געקענט לערנען, משפטן און פלאנירן, דעמאלט וועלן מיר כמעט זיכער קומען צו דער אויספיר, אז דער אדער יענער צוזאמענגעשטעלטע לייזונג וועט דאַרפן ווערן. דורך דעם וועג, עס איז געווען פּונקט די קאַמביינד לייזונג אַז די נאַטור איז געקומען צו די מאַמאַלז און אנדערע העכער אַנימאַלס מיט קאָמפּלעקס סייכל בעשאַס די עוואָלוציע.

עוואָלוטיאָנאַרי סטראַטעגיעס

די הויפּט טעזיס פון די OpenAI פּאַפּיר איז געווען אַז אַנשטאָט פון נוצן ריינפאָרסמאַנט לערנען קאַמביינד מיט טראדיציאנעלן באַקפּראָפּאַגיישאַן, זיי הצלחה טריינד אַ נעוראַל נעץ צו סאָלווע קאָמפּלעקס פּראָבלעמס מיט וואָס זיי גערופן אַן "עוואָלוטיאָנאַרי סטראַטעגיע" (ES). דעם ES צוגאַנג באשטייט פון מיינטיינינג אַ נעץ-ברייט פאַרשפּרייטונג פון ווייץ, ינוואַלווינג קייפל אגענטן ארבעטן אין פּאַראַלעל און ניצן פּאַראַמעטערס אויסגעקליבן פון דעם פאַרשפּרייטונג. יעדער אַגענט אַפּערייץ אין זיין אייגענע סוויווע, און נאָך קאַמפּלישאַן פון אַ ספּעציפֿיש נומער פון עפּיסאָודז אָדער סטאַגעס פון אַן עפּיזאָד, דער אַלגערידאַם קערט אַ קיומיאַלאַטיוו באַלוינונג, אויסגעדריקט ווי אַ טויגיקייט כעזשבן. גענומען דעם ווערט אין חשבון, די פאַרשפּרייטונג פון פּאַראַמעטערס קענען זיין שיפטיד צו מער געראָטן אגענטן, דיפּרייווינג ווייניקער געראָטן אָנעס. דורך ריפּיטינג אַזאַ אַ אָפּעראַציע מיליאַנז פון מאל מיט די אָנטייל פון הונדערטער פון אגענטן, עס איז מעגלעך צו אַריבערפירן די פאַרשפּרייטונג פון ווייץ צו אַ פּלאַץ וואָס וועט לאָזן די אגענטן צו פאָרמולירן אַ הויך-קוואַליטעט פּאָליטיק פֿאַר סאַלווינג די אַרבעט אַסיינד צו זיי. טאַקע, די רעזולטאטן דערלאנגט אין דעם אַרטיקל זענען ימפּרעסיוו: עס איז געוויזן אַז אויב איר לויפן אַ טויזנט אגענטן אין פּאַראַלעל, אַנטהראָפּאָמאָרפיק לאָקאָמאָטיאָן אויף צוויי לעגס קענען זיין געלערנט אין ווייניקער ווי אַ האַלב שעה (בשעת אפילו די מערסט אַוואַנסירטע RL מעטהאָדס דאַרפן ספּענדינג מער. מער ווי איין שעה אויף דעם). פֿאַר מער דיטיילד אינפֿאָרמאַציע, איך רעקאָמענדירן לייענען די ויסגעצייכנט פּאָסטן פון די מחברים פון דער עקספּערימענט, ווי געזונט ווי וויסנשאפטלעכע ארטיקל.

ריינפאָרסמאַנט לערנען אָדער עוואָלוטיאָנאַרי סטראַטעגיעס? — בײדע

פאַרשידענע סטראַטעגיעס פֿאַר לערנען אַנטהראָפּאָמאָרפיק אַפּרייט גיין, געלערנט מיט די ES אופֿן פון OpenAI.

שוואַרץ קעסטל

די גרויס נוץ פון דעם אופֿן איז אַז עס קענען זיין לייכט פּאַראַלעליזעד. בשעת RL מעטהאָדס, אַזאַ ווי A3C, דאַרפן ויסבייַטן אינפֿאָרמאַציע צווישן אַרבעטער פֿעדעם און אַ פּאַראַמעטער סערווער, ES דאַרף בלויז טויגיקייט עסטאַמאַץ און גענעראַליזעד פּאַראַמעטער פאַרשפּרייטונג אינפֿאָרמאַציע. עס איז רעכט צו דעם פּאַשטעס אַז דעם אופֿן איז ווייַט פאָרויס פון מאָדערן רל מעטהאָדס אין טערמינען פון סקיילינג קייפּאַבילאַטיז. אָבער, אַלע דעם טוט נישט קומען אין אַרויסגעוואָרפן: איר האָבן צו אַפּטאַמייז די נעץ לויט די שוואַרץ קעסטל פּרינציפּ. אין דעם פאַל, די "שוואַרץ קעסטל" מיטל אַז בעשאַס טריינינג די ינערלעך סטרוקטור פון די נעץ איז גאָר איגנאָרירט, און בלויז די קוילעלדיק רעזולטאַט (די באַלוינונג פֿאַר די עפּיזאָד) איז געניצט, און עס דעפּענדס אויף די ווייץ פון אַ באַזונדער נעץ. זיין ירושה דורך סאַבסאַקוואַנט דורות. אין סיטואַטיאָנס ווען מיר באַקומען נישט פיל באַמערקונגען פון די סוויווע - און אין פילע טראַדיציאָנעל רל פּראָבלעמס די לויפן פון באַלוינונג איז זייער שיטער - די פּראָבלעם גייט פון אַ "טייל שווארצע קעסטל" צו אַ "גאַנץ שוואַרץ קעסטל." אין דעם פאַל, איר קענען באטייטיק פאַרגרעסערן פּראָודאַקטיוויטי, אַזוי, פון קורס, אַזאַ אַ קאָמפּראָמיס איז גערעכטפארטיקט. "ווער דאַרף גראַדיענץ אויב זיי זענען כאָופּלאַסלי טומלדיק סייַ ווי סייַ?" - דאָס איז די אַלגעמיינע מיינונג.

אָבער, אין סיטואַטיאָנס ווו באַמערקונגען איז מער אַקטיוו, די טינגז אָנהייבן צו גיין פאַלש פֿאַר די ES. די OpenAI מאַנשאַפֿט באשרייבט ווי אַ פּשוט MNIST קלאַסאַפאַקיישאַן נעץ איז טריינד מיט ES, און דאָס מאָל די טריינינג איז געווען 1000 מאל סלאָוער. דער פאַקט איז אַז דער גראַדיענט סיגנאַל אין בילד קלאַסאַפאַקיישאַן איז גאָר ינפאָרמאַטיוו וועגן ווי צו לערנען די נעץ בעסער קלאַסאַפאַקיישאַן. אזוי, די פּראָבלעם איז ווייניקער מיט די RL טעכניק און מער מיט שיטער ריוואָרדז אין ינווייראַנמאַנץ וואָס פּראָדוצירן טומלדיק גראַדיענץ.

נאַטור ס לייזונג

אויב מיר פּרובירן צו לערנען פון דעם ביישפּיל פון נאַטור, טראכטן וועגן וועגן צו אַנטוויקלען אַי, דעמאָלט אין עטלעכע קאַסעס אַי קענען זיין געדאַנק פון פּראָבלעם-אָריענטיד צוגאַנג. נאָך אַלע, נאַטור אַפּערייץ אין קאַנסטריינץ וואָס קאָמפּיוטער סייאַנטיס פשוט טאָן ניט האָבן. עס איז אַ מיינונג אַז אַ ריין טעאָרעטיש צוגאַנג צו סאַלווינג אַ באַזונדער פּראָבלעם קענען צושטעלן מער עפעקטיוו סאַלושאַנז ווי עמפּיריקאַל אַלטערנאַטיוועס. אָבער, איך נאָך טראַכטן עס וואָלט זיין ווערטיק צו פּרובירן ווי אַ דינאַמיש סיסטעם אַפּערייטינג אונטער זיכער קאַנסטריינץ (דער ערד) האט דזשענערייטאַד אגענטן (אַנימאַלס, דער הויפּט מאַמאַלז) טויגעוודיק פון פלעקסאַבאַל און קאָמפּלעקס נאַטור. כאָטש עטלעכע פון ​​​​די קאַנסטריינץ טאָן ניט צולייגן אין סימיאַלייטיד דאַטן וויסנשאַפֿט וועלטן, אנדערע זענען פּונקט פייַן.

ווייל יגזאַמאַנד די אינטעלעקטואַל נאַטור פון מאַמאַלז, מיר זען אַז עס איז געשאפן ווי אַ רעזולטאַט פון די קאָמפּלעקס קעגנצייַטיק השפּעה פון צוויי ענג ינטעררילייטיד פּראַסעסאַז: לערנען פון אנדערע 'ס דערפאַרונג и לערנען דורך טאן. די ערשטע איז אָפט יקווייטיד מיט עוואָלוציע געטריבן דורך נאַטירלעך סעלעקציע, אָבער דאָ איך נוצן אַ ברייטערער טערמין צו נעמען אין חשבון עפּיגענעטיקס, מיקראָביאָמעס און אנדערע מעקאַניזאַמז וואָס געבן די ייַנטיילונג פון יקספּיריאַנסיז צווישן דזשאַנעטיקלי אַנרילייטיד אָרגאַניזאַמז. דער צווייטער פּראָצעס, לערנען פון דערפאַרונג, איז אַלע די אינפֿאָרמאַציע וואָס אַ כייַע מאַנידזשיז צו לערנען איבער זייַן לעבן, און די אינפֿאָרמאַציע איז גלייַך באשלאסן דורך די ינטעראַקשאַן פון דעם כייַע מיט די אַרויס וועלט. די קאַטעגאָריע כולל אַלץ פון לערנען צו דערקענען אַבדזשעקץ צו מאַסטערינג די קאָמוניקאַציע טאָכיק אין דעם לערנען פּראָצעס.

בעערעך גערעדט, די צוויי פּראַסעסאַז וואָס פאַלן אין נאַטור קענען זיין קאַמפּערד מיט צוויי אָפּציעס פֿאַר אָפּטימיזינג נעוראַל נעטוואָרקס. עוואָלוטיאָנאַרי סטראַטעגיעס, ווו אינפֿאָרמאַציע וועגן גראַדיענץ איז געניצט צו דערהייַנטיקן אינפֿאָרמאַציע וועגן דעם אָרגאַניזם, קומען נאָענט צו לערנען פון די דערפאַרונג פון אנדערע. סימילאַרלי, גראַדיענט מעטהאָדס, ווו באקומען איין אָדער אנדערן דערפאַרונג פירט צו איין אָדער אנדערן ענדערונג אין די אַגענט ס נאַטור, זענען פאַרגלייַכלעך צו לערנען פון זיין אייגענע דערפאַרונג. אויב מיר טראַכטן וועגן די טייפּס פון ינטעליגענט נאַטור אָדער אַבילאַטיז וואָס יעדער פון די צוויי אַפּראָוטשיז אַנטוויקלען אין אַנימאַלס, די פאַרגלייַך ווערט מער פּראַנאַונסט. אין ביידע קאַסעס, "עוואָלוטיאָנאַרי מעטהאָדס" העכערן די לערנען פון ריאַקטיוו ביכייוויערז וואָס לאָזן איינער צו אַנטוויקלען אַ זיכער טויגיקייַט (גענוג צו בלייַבן לעבעדיק). לערנען צו גיין אָדער אַנטלויפן פון קאַפּטיוואַטי איז אין פילע קאַסעס עקוויוואַלענט צו מער "ינסטינקטיווע" ביכייוויערז וואָס זענען "שווער-ווייערד" אין פילע אַנימאַלס אויף די גענעטיק מדרגה. אין אַדישאַן, דעם בייַשפּיל קאַנפערמז אַז עוואָלוטיאָנאַרי מעטהאָדס זענען אָנווענדלעך אין קאַסעס ווען די באַלוינונג סיגנאַל איז גאָר זעלטן (למשל, דער פאַקט פון מצליח רייזינג אַ בעיבי). אין אַזאַ אַ פאַל, עס איז אוממעגלעך צו קאָראַלייט די באַלוינונג מיט קיין ספּעציפיש גאַנג פון אַקשאַנז וואָס קען זיין דורכגעקאָכט פילע יאָרן איידער די פּאַסירונג פון דעם פאַקט. אויף די אנדערע האַנט, אויב מיר באַטראַכטן אַ פאַל אין וואָס ES פיילז, ניימלי בילד קלאַסאַפאַקיישאַן, די רעזולטאַטן זענען רימאַרקאַבלי פאַרגלייַכלעך צו די רעזולטאַטן פון כייַע לערנען אַטשיווד אין קאַונטלאַס ביכייוויעראַל פסיכאלאגישן יקספּעראַמאַנץ דורכגעקאָכט איבער 100-פּלוס יאָרן.

לערנען פון אַנימאַלס

די מעטהאָדס געניצט אין ריינפאָרסמאַנט לערנען זענען אין פילע קאַסעס גענומען גלייַך פון די פסיכאלאגישן ליטעראַטור אויף אַפּעראַנט קאַנדישאַנינג, און אַפּעראַנט קאַנדישאַנינג איז געלערנט ניצן כייַע פּסיכאָלאָגיע. אגב, Richard Sutton, איינער פון די צוויי גרינדערס פון ריינפאָרסמאַנט לערנען, האט אַ באָכער ס 'דיגרי אין פּסיכאָלאָגיע. אין דעם קאָנטעקסט פון אַפּעראַנט קאַנדישאַנינג, אַנימאַלס לערנען צו פאַרבינדן באַלוינונג אָדער שטראָף מיט ספּעציפיש נאַטוראַל פּאַטערנז. טריינערז און ריסערטשערז קענען מאַניפּולירן דעם באַלוינונג פאַרבאַנד אין איין אָדער אנדערן וועג, פּראַוואָוקינג אַנימאַלס צו באַווייַזן סייכל אָדער זיכער ביכייוויערז. אָבער, אַפּעראַנט קאַנדישאַנינג, ווי געניצט אין כייַע פאָרשונג, איז גאָרנישט מער ווי אַ מער פּראַנאַונסט פאָרעם פון די זעלבע קאַנדישאַנינג אויף דער באזע פון ​​וואָס אַנימאַלס לערנען איבער זייער לעבן. מיר קעסיידער באַקומען סיגנאַלז פון positive ריינפאָרסמאַנט פון די סוויווע און סטרויערן אונדזער נאַטור אַקאָרדינגלי. אין פאַקט, פילע נעוראָססיענטיסץ און קאַגניטיוו סייאַנטיס גלויבן אַז יומאַנז און אנדערע אַנימאַלס אַקשלי אַרבעטן אויף אַן אפילו העכער מדרגה און קעסיידער לערנען צו פאָרויסזאָגן די אַוטקאַם פון זייער נאַטור אין צוקונפֿט סיטואַטיאָנס באזירט אויף פּאָטענציעל ריוואָרדז.

די הויפט ראָלע פון ​​פּראָגנאָז אין לערנען פון דערפאַרונג ענדערונגען די דינאַמיק דיסקרייבד אויבן אין באַטייַטיק וועגן. דער סיגנאַל וואָס איז געווען פריער געהאלטן זייער שיטער (עפּיזאָדיש באַלוינונג) טורנס אויס צו זיין זייער געדיכט. טעאָרעטיש איז די סיטואַציע עפּעס ווי דאָס: אין יעדער צייט, די מאַרך פון די מאַמאַל קאַלקיאַלייץ רעזולטאטן באזירט אויף אַ קאָמפּלעקס שטראָם פון סענסערי סטימיאַליי און אַקשאַנז, בשעת די כייַע איז פשוט געטובלט אין דעם טייַך. אין דעם פאַל, די לעצט נאַטור פון די כייַע גיט אַ שטאַרק סיגנאַל וואָס מוזן זיין געניצט צו פירן די אַדזשאַסטמאַנט פון פאָרקאַסץ און אַנטוויקלונג פון נאַטור. דער מאַרך ניצט אַלע די סיגנאַלז אין סדר צו אַפּטאַמייז פאָרקאַסץ (און, אַקאָרדינגלי, די קוואַליטעט פון אַקשאַנז גענומען) אין דער צוקונפֿט. אַן איבערבליק פון דעם צוגאַנג איז געגעבן אין די ויסגעצייכנט בוך "סערפינג אַנסערטאַנטי"קאָגניטיוו געלערנטער און פילאָסאָף אַנדי קלאַרק. אויב מיר עקסטראַפּאָלירן אַזאַ ריזאַנינג צו די טריינינג פון קינסטלעך אגענטן, אַ פונדאַמענטאַל פלאָ אין ריינפאָרסמאַנט לערנען איז אנטפלעקט: דער סיגנאַל געניצט אין דעם פּאַראַדיגם איז כאָופּלאַסלי שוואַך קאַמפּערד צו וואָס עס קען זיין (אָדער זאָל זיין). אין קאַסעס ווו עס איז אוממעגלעך צו פאַרגרעסערן די סיגנאַל זעטיקונג (טאָמער ווייַל עס איז ינכעראַנטלי שוואַך אָדער פֿאַרבונדן מיט נידעריק-מדרגה ריאַקטיוואַטי), עס איז מיסטאָמע בעסער צו בעסער וועלן אַ טריינינג אופֿן וואָס איז געזונט פּאַראַלעליזעד, למשל, עס.

ריטשער טריינינג פון נעוראַל נעטוואָרקס

געבויט אויף די פּרינסאַפּאַלז פון העכער נעוראַל טעטיקייט טאָכיק אין די מאַממאַליאַן מאַרך, וואָס איז קעסיידער פאַרנומען צו מאַכן פֿאָרויסזאָגן, לעצטע אַדוואַנסיז זענען געמאכט אין ריינפאָרסמאַנט לערנען, וואָס איצט נעמט אין חשבון די וויכטיקייט פון אַזאַ פֿאָרויסזאָגן. איך קען גלייך רעקאָמענדירן צוויי ענלעך ווערק צו איר:

אין ביידע צייטונגען, די מחברים העסאָפע די טיפּיש פעליקייַט פּאָליטיק פון זייער נעוראַל נעטוואָרקס מיט פּראָגנאָז רעזולטאַטן וועגן די שטאַט פון די סוויווע אין דער צוקונפֿט. אין דער ערשטער אַרטיקל, פאָרקאַסטינג איז געווענדט צו אַ פאַרשיידנקייַט פון מעאַסורעמענט וועריאַבאַלז, און אין די רגע, פאָרקאַסטינג איז געווענדט צו ענדערונגען אין די סוויווע און די נאַטור פון די אַגענט ווי אַזאַ. אין ביידע קאַסעס, די שיטער סיגנאַל פֿאַרבונדן מיט positive ריינפאָרסמאַנט ווערט פיל ריטשער און מער ינפאָרמאַטיוו, אַלאַוינג ביידע פאַסטער לערנען און די אַקוואַזישאַן פון מער קאָמפּליצירט ביכייוויערז. אַזאַ ימפּרווומאַנץ זענען בלויז בנימצא מיט מעטהאָדס וואָס נוצן אַ גראַדיענט סיגנאַל, און נישט מיט מעטהאָדס וואָס אַרבעטן אויף אַ "שוואַרץ קעסטל" פּרינציפּ, אַזאַ ווי ES.

אין דערצו, לערנען פון דערפאַרונג און גראַדיענט מעטהאָדס זענען פיל מער עפעקטיוו. אפילו אין קאַסעס ווען עס איז מעגלעך צו לערנען אַ באַזונדער פּראָבלעם מיט די ES אופֿן פאַסטער ווי ניצן ריינפאָרסמאַנט לערנען, די געווינען איז אַטשיווד רעכט צו דעם פאַקט אַז די ES סטראַטעגיע ינוואַלווד פילע מאָל מער דאַטן ווי מיט RL. ריפלעקטינג אין דעם פאַל אויף די פּרינציפּן פון לערנען אין אַנימאַלס, מיר טאָן אַז דער רעזולטאַט פון לערנען פון עמעצער אַנדערש ס ביישפּיל אנטפלעקט זיך נאָך פילע דורות, בשעת מאל אַ איין געשעעניש יקספּיריאַנסט דורך זיך איז גענוג פֿאַר די כייַע צו לערנען די לעקציע אויף אייביק. בשעת ווי טריינינג אָן ביישפילן כאָטש עס איז נישט גאַנץ פּאַסיק אין טראדיציאנעלן גראַדיענט מעטהאָדס, עס איז פיל מער ינטעלאַדזשאַבאַל ווי ES. עס זענען, פֿאַר בייַשפּיל, אַפּראָוטשיז אַזאַ ווי נעוראַל עפּיסאָדיק קאָנטראָל, ווו ק-וואַלועס זענען סטאָרד בעשאַס טריינינג, נאָך וואָס די פּראָגראַם טשעק זיי איידער איר נעמען אַקשאַנז. דער רעזולטאַט איז אַ גראַדיענט אופֿן וואָס אַלאַוז איר צו לערנען ווי צו סאָלווע פּראָבלעמס פיל פאַסטער ווי פריער. אין אַן אַרטיקל וועגן נעוראַל עפּיזאָד קאָנטראָל, די מחברים דערמאָנען די מענטשלעך היפּאָקאַמפוס, וואָס איז טויגעוודיק פון ריטיינינג אינפֿאָרמאַציע וועגן אַ געשעעניש אפילו נאָך אַ איין דערפאַרונג און, דעריבער, פיעסעס קריטיש ראָלע אין דעם פּראָצעס פון געדענקען. אַזאַ מעקאַניזאַמז דאַרפן אַקסעס צו די ינערלעך אָרגאַניזאַציע פון ​​די אַגענט, וואָס איז אויך, דורך דעפֿיניציע, אוממעגלעך אין די ES פּאַראַדיגם.

אַזוי, וואָס ניט פאַרבינדן זיי?

עס איז מסתּמא אַז פיל פון דעם אַרטיקל קען לאָזן דעם רושם אַז איך שטיצן רל מעטהאָדס. אָבער, איך טאַקע טראַכטן אַז אין די לאַנג לויפן די בעסטער לייזונג איז צו פאַרבינדן ביידע מעטהאָדס, אַזוי אַז יעדער איז געניצט אין די סיטואַטיאָנס אין וואָס עס איז בעסטער פּאַסיק. דאָך, אין די פאַל פון פילע ריאַקטיוו פּאַלאַסיז אָדער אין סיטואַטיאָנס מיט זייער שיטער סיגנאַלז פון positive ריינפאָרסמאַנט, די ES ווינס, ספּעציעל אויב איר האָבן די קאַמפּיוטינג מאַכט צו דיין באַזייַטיקונג אויף וואָס איר קענען לויפן מאַסיוו פּאַראַלעל טריינינג. אויף די אנדערע האַנט, גראַדיענט מעטהאָדס ניצן ריינפאָרסמאַנט לערנען אָדער סופּערווייזד לערנען וועט זיין נוציק ווען מיר האָבן אַקסעס צו ברייט באַמערקונגען און דאַרפֿן צו לערנען ווי צו סאָלווע אַ פּראָבלעם געשווינד און מיט ווייניקער דאַטן.

װענדנדיק זיך צו דער נאַטור, געפֿינען מיר, אַז דער ערשטער אופֿן לײגט אין עצם דעם יסוד פֿאַר דעם צװײטן. דאָס איז וואָס, אין די לויף פון עוואָלוציע, מאַמאַלז האָבן דעוועלאָפּעד סייכל וואָס לאָזן זיי צו לערנען גאָר יפעקטיוולי פון קאָמפּלעקס סיגנאַלז וואָס קומען פון די סוויווע. אַזוי, די קשיא בלייבט אָפן. טאָמער עוואָלוטיאָנאַרי סטראַטעגיעס וועט העלפֿן אונדז אויסטראַכטן עפעקטיוו לערנען אַרקאַטעקטשערז וואָס וועט אויך זיין נוציק פֿאַר גראַדיענט לערנען מעטהאָדס. נאָך אַלע, די לייזונג געפונען דורך נאַטור איז טאַקע זייער מצליח.

מקור: www.habr.com

לייגן אַ באַמערקונג