412: ChatGPT ומודלי שפה גדולים, חלק א'
7.11.23
במשך קרוב לשבעים שנה, מאז הופעתם של המחשבים האלקטרוניים, לא חלה שום התקדמות דרמטית בתחום העיבוד הממוחשב של שפה אנושית טבעית. קריאה וכתיבה של טקסטים ברמה כמו-אנושית הייתה משימה כמעט בלתי אפשרית עבור המחשב. ואז, בנובמבר 2022, הופיע ChatGPT - וטרף את כל הקלפים.
מה הביא לכך שאחרי אינספור כשלונות ומאמצים עקרים, הצליחו לפתע מדעני המחשב להפיק מבין ידיהם מכונה שמסוגלת לתקשר איתנו - בשפה שלנו?
כמו כן, האזינו בסוף הפרק לפינה בחסות ארכיון הסרטים הישראלי בסינמטק ירושלים, אודות הסרטים הביתיים שצילמו חיילי מילואים במלחמת יום הכיפורים - ומה הם מלמדים אותנו אודות חיי היום יום במובלעת הסורית שברמת הגולן, ובארץ גושן שמעברה השני של תעלת סואץ.
האזנה נעימה,
רן
הרשמה לרשימת תפוצה בדוא"ל | אפליקציית עושים היסטוריה (אנדרואיד) | iTunes
צ'אט-GPT ומודלי שפה גדולים, חלק א'
כתב: רן לוי
בשבעה בינואר, 1954, התכנסו נציגיהם של כמה מהעיתונים החשובים ביותר בארצות הברית - ה New York Herald Tribune, ה- Los Angeles Times ואחרים - במשרדיה של חברת IBM בניו-יורק.
מחשבים היו, באותם הימים, טכנולוגיה חדשה שהסעירה את דמיונו של הציבור: "מוחות אלקטרוניים", כינו אותם סופרי המדע הבדיוני. אבל למרות שלכולם היה ברור שמדובר בטכנולוגיה פורצת דרך, עדיין לא היה ברור בשלב הזה למה בדיוק ישמשו אותן מכונות מתוחכמות. שנה קודם לכן השיקה יבמ מחשב חדש ומתקדם בשם IBM 701, וכל העיתונאים היו סקרנים לגלות מה מסוגלת לעשות המפלצת הדיגיטלית המרשימה הזו, ששקלה למעלה מעשרה טונות ומילאה חדר רחב מימדים.
ההדגמה יצאה לדרך. מפעיל שעמד לצידו של המחשב הזין לתוכו כרטיסיה מנוקבת שעליה נכתב - בייצוג בינארי, כמובן - משפט בשפה הרוסית. המחשב הגדול קרא את תוכנה של הכרטיסיה, זמזם, המהם וקִרקש - ולאחר כמה עשרות שניות פלט נייר ועליו אותו המשפט בדיוק, אבל הפעם באנגלית. בזו אחר זו הזין המפעיל למחשב שישים כרטיסיות ועליהן שישים משפטים שונים ברוסית בתחומים שונים ומגוונים - פוליטיקה, משפט, מדע ועוד - שאת כולם תרגם המחשב בזריזות, יעילות ודייקנות.
העיתונאים לא ידעו את נפשם מרוב התפעמות. למרות שבדיווחיהם בעיתונים למחרת השתדלו מרבית העיתונאים להדגיש כי מדובר בטכנולוגיה חדשה ובוסרית שעדיין נמצאת בשלבי פיתוח, ניכר היה כי הם מתקשים להכיל את התלהבותם. "ההדגמה [בה צפינו] היום היא [...] ה'קיטי הוק' של התרגום האלקטרוני," התפעם אחד העיתונאים שהשווה את ההישג לטיסתם הראשונה של האחים רייט, לא פחות.
והאמת, אפשר להבין את ההתרגשות: לתרגום אלקטרוני היה את הפוטנציאל להאיץ את קצב ההתקדמות של המדע המודרני באופן דרמטי. באחת מהכתבות נכתב כי -
"הניסוי המוצלח מעלה אפשרויות רבות ומסעירות. בלשנים יוכלו לחקור שפות באותו האופן שבו פיזיקאים לומדים את חוקי הטבע. [...] הספרות הטכנית של גרמניה, רוסיה, צרפת והארצות דוברות-האנגלית תעמוד לרשותם של מדענים בכל המדינות האחרות, מיד לכשתצא ממכונת הדפוס."
ולא רק זה. בעידן שלאחר מלחמת העולם השניה, העולם היה מפולג בין מזרח ומערב: ההדגמה המוצלחת חיזקה את התקווה שאולי היכולת לתרגם בין השפות בזריזות וביעילות תפחית את קשיי התקשורת בין הצדדים היריבים ותסייע לגשר על המחלוקות שביניהם.
למרות שהטכנולוגיה שהדגימה יבמ לעיתונאים - פרי שיתוף פעולה של החברה עם חוקרים מאוניברסיטת ג'ורג'טאון - הייתה עדיין בחיתוליה, המדענים עצמם היו משוכנעים שהחזון של תרגום אוטומטי מכל שפה לכל שפה נמצא ממש מעבר לפינה. כתב של העיתון Christian Science Monitor הביא דברים ברוח הזו מפי אחד החוקרים:
"על אף שהוא מדגיש כי עדיין אין ביכולתנו להזין למערכת ספר ברוסית מצד אחד ולקבל ספר באנגלית בצד השני, הפרופסור חוזה כי בתוך חמש, אולי אפילו שלוש שנים, תרגום אלקטרוני בתחומים חשובים ובמספר שפות, יהיה עניין גמור וחתום."
אבל זה, כמובן, לא מה שקרה. במשך קרוב לשבעים שנה, מאז אותה הדגמה מוצלחת בשנות החמישים ועד לפני שנים ספורות - לא חלה שום התקדמות דרמטית בתחום העיבוד הממוחשב של שפה אנושית טבעית. עד לפני עשור, פחות או יותר, קריאה או כתיבה של טקסטים אנושיים - למעט בשפות ספציפיות או בתחומי עיסוק מוגדרים ומצומצמים מאוד - הייתה משימה כמעט בלתי אפשרית עבור מחשבים.
ואז, בשלהי 2022, הופיע ChatGPT: בינה מלאכותית שמסוגלת להבין שפה אנושית טבעית - למעשה, כמה עשרות שפות, כולל אפילו עברית - ולשוחח איתנו ברמת אינטליגנציה ברת השוואה לזו של אדם בשר ודם. לשם הדוגמה, לאורך השנים "זכיתי" לקבל אלפי מיילים של ספאם, ואף פעם - אפילו לא פעם אחת! - טעיתי לחשוב שמדובר במייל אותנטי. עד לפני שבועיים, כשקיבלתי מייל ספאם שנכתב על ידי ChatGPT. צורת הכתיבה והפנייה המאוד אישית ואנושית במכתב הזה שכנעו אותי שמדובר במאזין של הפודקאסט. כמעט שכתבתי תגובה - אבל אז, במקרה לגמרי, ראיתי מישהו שצייץ בטוויטר על אותו המייל בדיוק (בשינוי הפרטים הרלוונטיים, כמובן) - ורק אז הבנתי שנפלתי בפח.
צ'אט-GPT כבש את העולם בסערה והציתה את דמיונם של מיליונים: יש מי שמשווים את השפעתה הצפויה של הטכנולוגיה המהפכנית הזו על הציוויליזציה האנושית להשפעתה של המצאת מכונת הדפוס. אבל במקביל, ישנם חוקרים שרואים בה את האיום הקיומי הגדול ביותר על האנושות מאז פיתוחה של פצצת האטום. במאי 2023 פרסמה קבוצה של עשרות חוקרי בינה מלאכותית הצהרה מיוחדת ובה טענו כי -
"מניעת הסיכון להכחדת המין האנושי על הבינה המלאכותית צריכה להיות בעדיפות גלובלית עליונה, לצד סיכונים דומים בקנה מידה של ציוויליזציה, כדוגמת מגיפות ומלחמה גרעינית."
אפילו ג'פרי הינטון, מי שנחשב לאבי הבינה המלאכותית המודרנית, רואה בבינה המלאכותית סכנה קיומית מוחשית. בראיון שהעניק לאחרונה לרשת CBS האמריקנית, נשאל הינטון אם הוא מאמין שיש אפשרות שהבינה המלאכותית תחסל את האנושות. "אני חושב שזו אפשרות שניתן להעלות על הדעת." הוא השיב.
בשני הפרקים הבאים, אם כן, נדון בשתי שאלות. הראשונה: מה הביא לכך שאחרי כמעט שבעים שנה של כשלונות ומאמצים עקרים, הצליחו לפתע מדעני המחשב להפיק מבין ידיהם מכונה המסוגלת לתקשר איתנו בשפה שלנו? והשאלה השניה: האם ChatGPT ומודלי השפה הגדולים - הטכנולוגיה שעומדת מאחורי המוצר המהפכני שהשיקה OpenAI - מסמנים את התגשמותו של החלום - או הסיוט - שעליהם נכתבו אינספור עלילות מדע בדיוני: בינה מלאכותית חכמה, מהירה ומוכשרת יותר מכל בן אנוש.
למידת מכונה
במבט לאחור, קל להבין מדוע כשל פרויקט התרגום האוטומטי של יבמ.
מחשבים, עקרונית, מבוססים על מתמטיקה ולוגיקה: אחד ואפס, כן ולא, אמת ושקר - מושגים חדים, ברורים ומוגדרים. לא כן השפה שלנו. קחו, לדוגמא, את המילה Run. לא, לא השם שלי - אני מתכוון למילה האנגלית Run, במשמעות של 'לרוץ'. או אולי במשמעות של 'לזרום' (Running water). או אולי במשמעות של משהו מחזורי וקבוע (The bus runs into town every half an hour.) או אולי בכלל במשמעות של לנהל: She runs this company.
אתם מתחילים להבין את הבעיה? למילה האנגלית Run יש לא פחות מ-645 משמעויות שונות, כתלות בהקשר שבו היא נאמרת. ולמרות ש Run היא דוגמה קצת קיצונית - היא בהחלט מייצגת: לכמעט כל המילים בשפות האנושיות יש כמה וכמה משמעויות, שלעיתים עשויות להיות הפוכות לחלוטין זו מזו, כמו למשל "כן, בטח!" ו"כן, בטח…"
החוקרים של יבמ ואוניברסיטת ג'ורג'טאון ניסו להתמודד עם המורכבות הזו באמצעות ניסוח חוקים ברורים שהגדירו למחשב כיצד עליו לתרגם כל מילה בה הוא נתקל: לצורך העניין, אם המחשב נתקל במילה הרוסית Politika עליו לתרגם אותה למילה האנגלית Politics.
זו גישה הגיונית, ובמקרים מסוימים היא אפילו עשויה ליצור מראית עין כאילו המחשב באמת "מבין" את הטקסט שהוא מקבל. למשל, באמצע שנות השישים פיתח חוקר בשם ג'וזף וויזנבאום (Weizenbaum) תוכנה בשם ELIZA שדימתה שיחה עם פסיכולוג. אם המשתמש היה מזין לתוכה משפט כגון "אני עצוב," התוכנה הייתה הופכת את המשפט לצורת שאלה: "למה אתה מרגיש עצוב?". משתמשים שלא היו מודעים לחוקיות הפשוטה הזו האמינו באמת ובתמים שהם משוחחים עם בינה מלאכותית מתוחכמת שמבינה אותם ומפגינה אמפתיה כלפיהם.
אבל במציאות, האשליה הזו הייתה שברירית מאוד, כמובן: די בכך שהמשתמש הזין מילה או ביטוי שלא התאימו לחוקיות הפשוטה שהגדיר וויזנבאום - למשל, קללה כלשהי - כדי לגרום ל ELIZA להפיק תגובות חסרות הגיון. זו גם הסיבה לכישלונו של פרויקט התרגום האוטומטי של יבמ: ישנן כל כך דרכים לפרש ולתרגם כל משפט, עד שאין דרך מעשית לנסח את כל החוקים הדרושים כדי לטפל בכל מילה ובכל מצב. אחרי למעלה משנה של עבודה, החוקרים של יבמ וג'ורג'טאון הצליחו לנסח מספיק חוקים וכללים כדי לאפשר למערכת לתרגם בסך הכל רק שישים משפטים ספציפיים. אם היו מזינים למערכת משפט חדש ולא מוכר, היא הייתה חסרת אונים.
חלפו שלושים שנה, ובשנות התשעים של המאה הקודמת החלו להופיע יותר ויותר טקסטים בפורמט דיגיטלי. העובדה הזו נתנה בידי החוקרים גישה לכמויות טקסט הרבה יותר גדולות מבעבר ואפשרה להם לנקוט בגישה שונה כדי לפתור את בעיית עיבוד השפה הטבעית: במקום לנסח חוקים קשיחים - לנסות לזהות קשרים סטטיסטיים בין המילים. לצורך ההסבר, נאמר שיש לנו ספר באנגלית - ואת אותו הספר מתורגם לעברית. נותנים למחשב לעבור על כל המילים והביטויים בשני הספרים, ולחלץ מהם מידע סטטיסטי בסגנון: "כמה פעמים תורגמה המילה האנגלית Run למילה העברית 'לרוץ', וכמה פעמים למילה 'לנהל.'"
הגישה הזו כונתה 'למידת מכונה' (Machine Learning) והיא אכן הובילה לשיפור מסוים ביכולתם של המחשבים להתמודד עם מידע בשפה טבעית: למשל, הניתוח הסטטיסטי אפשר להם להתמודד עם טקסט שהכיל שגיאות כתיב, בהנחה שהמחשב ניתח המון טקסטים וכבר נתקל בהרבה שגיאות. שירות התרגום שהשיקה גוגל בשנת 2006 היה מבוסס על הטכנולוגיה הזו, למשל.
ובכל זאת, גם ביצועיהן של מערכות מבוססת למידת מכונה היו עלובים למדי ורחוקים שנות אור מהיכולת האנושית. מדוע? סיבה אחת היא ששפות אנושיות מכילות עשרות ואפילו מאות אלפי מילים, שיכולות להופיע במיליארדי קומבינציות שונות ומשונות. למשל, אחרי המילה "שפה" יכולה להופיע המילה "אנושית", אבל גם המילים "קשה", או "יפה", או "מורכבת" - וחישוב של שכיחות סטטיסטית עבור כל אחת ואחת מאינספור הקומבינציות האלה היא משימה חישובית תובענית מאוד שהגבילה את היעילות של מערכות מבוססות למידת מכונה בעולם האמיתי.
סיבה נוספת, ואולי משמעותית יותר, היא שלנו, בני האדם, יש הבנה אינטואיטיבית של המציאות שמסתתרת מאחורי המילים. למשל, המשמעות של המילה 'נבח' במשפט "ראיתי את הכלב בפארק, והוא נבח עלי" לא זהה למשמעות שלה במשפט "ראיתי את הבוס שלי בפארק, והוא נבח עליי." אנחנו יודעים מהו כלב, אנחנו מבינים מהו בוס - וההבנה הזו היא זו שעוזרת לנו לחלץ את המשמעות הנכונה של המילה 'נבח' בכל אחד מהמשפטים השונים. למחשב, לעומת זאת, אין הבנה לגבי המציאות שמאחורי המילים - וגם ניתוח סטטיסטי של שכיחות הופעתן של מילים בטקסטים שונים לא תמיד מסייע למחשב להבין את המציאות הזו.
או שבעצם… יכול להיות שמה שאמרתי עכשיו הוא לא נכון. אנחנו עוד נחזור לעניין הזה.
רשתות נוירונים מלאכותיים
בשנת 2003 פרסם חוקר קנדי בשם יושוע בנג'יו (Bengio) מאמר ובו תיאר מערכת חדשה לעיבוד שפה טבעית, שהייתה מבוססת על טכנולוגיה בשם 'רשתות נוירונים מלאכותיים'. הבחירה ברשתות נוירונים מלאכותיים הייתה מפתיעה, מכיוון שמדובר היה בתחום מחקר שנחשב אז לשולי ולא פופולרי בעולם מדעי המחשב. אבל ההפתעה האמיתית שהסתתרה בתוך המאמר של בנג'יו הייתה שביצועיה של אותה רשת נוירונים במשימות קלאסיות של עיבוד שפה טבעית היו טובים בהרבה מביצועיהן של מערכות עיבוד השפה הטובות ביותר עד אותו הרגע: שיפור של עד כדי עשרים וארבעה אחוזים מעל מה שנחשב אז כ State of the Art.
כיצד הצליחה רשת הנוירונים של יושוע בנג'יו להתמודד עם המורכבות המפורסמת של שפה אנושית טבעית?
בואו נחזור מספר צעדים אחורה. סיפרתי בהרחבה על ההיסטוריה ועקרון הפעולה של רשתות נוירונים מלאכותיים בשני פרקים שהקדשתי לטכנולוגיית ה'למידה העמוקה' (Deep Learning) - פרקים 204 ו-205 של התכנית - אבל הנה הרעיון הבסיסי על קצה המזלג.
נוירון מלאכותי הוא מכונה פשוטה שמחקה את אופן הפעולה של נוירון ביולוגי, תא עָצב. כל נוירון מלאכותי שכזה הוא, בפני עצמו, מכונה די פשוטה - אבל מסתבר שאם מחברים המון נוירונים זה לזה בצורה הנכונה ומזינים לתוך הרשת המתקבלת המון דוגמאות של מידע רלוונטי ("מאמנים את הרשת", בז'רגון המקובל), מקבלים מערכת שמסוגלת להפיק מתוך המידע הזה מסקנות ותובנות שמודל סטטיסטי פשוט לא מסוגל להפיק. במקרה של בנג'יו, רשת הנוירונים שלו לחלץ מתוך הטקסטים עליהם אומנה מידע לגבי המשמעות של מילים: אם נמשיך את הדוגמא הקודמת שהבאתי, רשת הנוירונים המלאכותיים הצליחה לגלות שהמילה 'כלב' מציינת בעל חיים, ושהמילה 'בוס' מתייחסת לבן אדם - ולכן למילה 'נבח' יש משמעות שונה בכל אחד מהמקרים. התובנות החשובות הללו הן אלו שאיפשרו את השיפור הניכר בביצועיה של המערכת.
ההצלחה הדרמטית הזו היממה את שאר החוקרים בתחום, והביאה להתעניינות מחודשת בתחום רשתות הנוירונים - אבל במישור המעשי, הטכנולוגיה הזו הייתה עדיין בוסרית מדי. כדי לאמן את רשת הנוירונים שלו, בנג'יו הזין לתוכה לא פחות מארבעה עשר מיליוני מילים, ולמרות שמערכת המחשב שעמדה לרשותו הכילה לא פחות מארבעים מעבדים - תהליך האימון עדיין ארך חודשים ארוכים. כל עוד רשתות הנוירונים היו איטיות ומסורבלות כל כך, אף אחד לא שש להשתמש בהן.
איליה סוצקבר
איליה סוצקבר (Sutskever) נולד ברוסיה ב-1986, ובגיל חמש עלה עם משפחתו לישראל במסגרת העליה הרוסית הגדולה של שנות התשעים. לומר שאיליה היה ילד מבריק, יהיה כנראה האנדרסטייטמנט של המאה: כבר בכיתה ח' הוא החל לקחת קורסים במדעי המחשב באוניברסיטה הפתוחה, כי הלימודים בחטיבת הביניים לא אתגרו אותו מספיק… ב-2002 היגר איליה לקנדה, שם השלים את לימודי הדוקטורט שלו במדעי המחשב תחת ג'פרי הינטון - ונחשף לרעיונות של רשתות נוירונים מלאכותיים ולמידה עמוקה.
כבר כסטודנט, היה איליה מעורב בפרויקט שהיה אבן דרך חשובה בדברי ימי הבינה המלאכותית. הינטון, איליה וסטודנט נוסף בשם אלכס קריצ'בסקי (Krizhevsky) פיתחו רשת נוירונים שהייתה מסוגלת לזהות אובייקטים שונים בתמונות - וב-2012 זכו בתחרות יוקרתית בשם ImageNet. ולא סתם זכו: ביצועיה של AlexNet, המערכת שלהם, היו טובים יותר בכמעט אחד עשר אחוזים מהמערכת שהגיעה למקום השני. ההצלחה הזו שיכנע את אחרוני הספקנים בעמק הסיליקון שהעתיד נמצא ברשתות נוירונים מלאכותיים, ואיליה, אלכס והינטון 'נחטפו' על ידי גוגל, שנעזרה בהם כדי לפתח יישומים חדשים ומתקדמים של בינה מלאכותית. למשל, שירות התרגום שהזכרתי קודם, Google Translate, שבמקור התבסס על למידת מכונה - עבר שדרוג לרשתות נוירונים מלאכותיים, ובתוך תשעה חודשים בלבד הצליח להגיע לרמת ביצועים גבוהה יותר מזו שאליה הגיעה המערכת הקודמת גם אחרי עשר שנות פיתוח.
אבל למרות שגוגל היתה סביבת עבודה נהדרת בכל קנה מידה - איליה לא היה ממש מרוצה: קבוצת המחקר שלו בגוגל הייתה קטנה מדי והמשאבים שהוקצו לה הרגישו לו מוגבלים מדי. איליה שקל לנסות ולהקים סטארט-אפ עצמאי, אבל פסל את הרעיון על הסף: הוא היה חוקר, לא יזם ולא איש עסקים.
אבל אז, באחד הימים, המתינה לו הודעה מפתיעה בתיבת הדואר האלקטרוני: הזמנה לארוחת ערב. ולא סתם ארוחת ערב, אלא פגישה עם סם אלטמן ואילון מאסק - שתיים מהדמויות המפורסמות והמשפיעות ביותר בעמק הסיליקון. אלטמן ומאסק סיפרו לו שהם מעוניינים להקים חברה חדשה שתתמקד בפיתוח בינה מלאכותית ותתחרה ב DeepMind של גוגל, שאז הובילה את עולם ה-AI עם מערכות פורצות דרך כדוגמת AlpahGo ו-AlphaZero, והציעו לו להיות המדען הראשי של החברה החדשה.
איליה התלבט מעט - בכל זאת, לא קל לעזוב את גוגל - אבל לבסוף קיבל את ההצעה. כך באה לעולם OpenAI.
למידה לא-מונחית (Unsupervised Learning)
אחת ממערכות הבינה המלאכותית הראשונות שפיתח איליה במסגרת עבודתו ב-OpenAI, היתה רשת נוירונים שאומנה על כשמונים מיליון ביקורות מוצרים באמזון, ולמדה מהם איך להפיק טקסטים שנראים ממש כמו ביקורות אמיתיות. אני מניח שאתם שואלים את עצמכם: למה שמישהו ירצה לפתח מערכת בינה מלאכותית שכל מה שהיא יודעת לעשות זה לקטר על דברים שהיא לא באמת שילמה עליהם בעצמה - הרי בשביל יש ילדים. אם זה מה שעבר לכם בראש, אז אתם צודקים: מטרתו האמיתית של איליה היתה שונה מאוד.
השיטה המקובלת לאמן רשתות נוירונים באותה התקופה הייתה טכניקה המכונה 'למידה מונחית' (Supervised Learning): בשיטה הזו מזינים לרשת הנוירונים דוגמאות של המידע הרצוי, יחד עם התשובה הנכונה שהמערכת אמורה להפיק. למשל, נאמר שאנחנו רוצים לפתח רשת נוירונים שיודעת לזהות את הרגש הקיים בביקורת מוצר: דהיינו, האם המגיב אהב או לא אהב את המוצר שרכש. הדרך לעשות זאת באמצעות למידה מונחית היא להזין למערכת המון דוגמאות של ביקורות שכאלה - לצד התשובות הנכונות שהיא אמורה להפיק. רשת הנוירונים קוראת את הביקורת, מנחשת אם מדובר בביקורת חיובית או שלילית - ואז משווים את התשובה הזו לתשובה הנכונה הידועה-מראש. אם הרשת טעתה - מתקנים אותה, שזה אומר בגדול לשחק עם הקשרים בין הנוירונים - ואז שוב מזינים ביקורת חדשה, משווים את התשובה לפתרון הנכון, מתקנים את הרשת אם צריך וכן הלאה וכן הלאה.
למידה מונחית הוכיחה את עצמה בעבר כשיטה מוצלחת מאוד לאמן רשתות נוירונים לביצוע משימות שונות ומאתגרות - אבל היה לה גם חסרון בולט: מישהו - בן אדם - צריך להפיק את הדוגמאות ה"פתורות" האלה. זאת אומרת, מישהו צריך לקרוא את הביקורת מאמזון ולתייג אותה, באופן ידני, כחיובית או שלילית. מכיוון שבפועל צריך עשרות ואף מאות אלפי דוגמאות "פתורות" שכאלה, המשמעות היא שמדובר על אופרציה שדורשת המון אנשים, לוקחת המון זמן וכמובן עולה המון כסף. ואפילו יותר גרוע: בשיטת הלמידה המונחית, כל משימה חדשה שנרצה ללמד את הרשת שלנו לבצע, דורשת מאיתנו סט חדש ושונה של דוגמאות פתורות כאלה, עובדה שמאטה ומייקרת מאוד את תהליך הפיתוח.
הייתה גם אפשרות אחרת: למידה לא-מונחית (Unsupervised Learning). בשיטה הזו, לא מאמנים את הרשת על זיהוי הרגש שמופיע בביקורת, אלא עושים משהו אחר לגמרי: מזינים לרשת ביקורת שמחקו ממנה את המילה האחרונה - למשל 'אהבתי את הציור כי הוא…' ומבקשים ממנה לנחש מה צריכה להיות המילה החסרה. כמו מקודם, אם הרשת טעתה בניחוש, מתקנים אותה וממשיכים אל המשפט הבא.
היתרון הגלום בשיטה הזו הוא הפשטות שלה. לא צריך להושיב בני אדם שיקראו את הביקורות ויסמנו אם הן חיוביות או שליליות: צריך רק לקחת את הביקורות כמו שהן, ולחתוך מהן את המילה האחרונה - משהו שתוכנת מחשב פשוטה יכולה לעשות בקלות. את המילה שחתכנו שומרים בצד, באיזה מאגר נתונים אחר, ובזמן תהליך האימון משווים אותה אל הניחוש שהפיקה רשת הנוירונים. לדוגמא, אם המשפט הוא 'אהבתי את הציור כי הוא…' והרשת מנחשת שהמילה החסרה היא 'מכוער' - אפשר להשוות את התשובה הזו למילה המקורית שהייתה במשפט, שכנראה הייתה משהו כמו 'יפה' - ולראות אם הרשת צדקה או טעתה. היופי הוא שכל התהליך הזה יכול להיות אוטומטי לגמרי, ללא מגע יד אדם - מה שמפשט ומוזיל את האימון במידה משמעותית.
אבל בכל זאת, יש כאן בעיה. מחקרים קודמים בתחום הראו שבאמצעות למידה לא-מונחית אפשר בהחלט לפתח בינה מלאכותית שיודעת לייצר טקסטים שנראים כמו ביקורות מוצרים באמזון - אבל לא הרבה יותר מזה. זאת אומרת, אם אנחנו רוצים לפתח רשת נוירונים שתבצע משימות קצת יותר מורכבות, כמו למשל לזהות את הרגש שמסתתר בתוך ביקורת - אנחנו חייבים להשתמש בלמידה מונחית, על כל העבודה הקשה והמפרכת שכרוכה באיסוף ביקורות ותיוג שלהן על ידי בני אדם.
אבל איליה שיער שאולי המחקרים הקודמים האלה שגויים: הוא קרא את המאמרים, וזיהה בהם שגיאות מסוימות שגרמו לו לחשוב שאולי למידה לא-מונחית יכולה בכל זאת לאפשר לרשת נוירונים ללמוד לבצע משימה מורכבת יחסית כמו זיהוי רגש, אם רק מיישמים אותה כמו שצריך. וזו בדיוק הייתה מטרת הניסוי שלו: הוא אימן את רשת הנוירונים שלו על ביקורות אמזון בלמידה לא-מונחית - זאת אומרת, לנחש את המילה החסרה בביקורת - וביקש לבחון אם הרשת למדה לזהות את הרגש שמופיע בביקורות.
ומסתבר שהוא צדק! המחקרים הקודמים אכן היו שגויים. כשבחן איליה את רשת הנוירונים שלו, הוא גילה שהיא בהחלט מסוגלת לזהות את הרגש החבוי בביקורת, למרות שכל מה שאומנה עליה היה להשלים מילים חסרות. אם לדייק, היה ברשת הנוירונים נוירון אחד ספציפי ש"נדלק" בצורה מסוימת כשהביקורת שהוזנה לרשת היתה חיובית, ובצורה אחרת כשהביקורת הייתה שלילית.
זו הייתה תוצאה מרתקת ופוקחת עיניים, שהראתה שגם למידה לא-מפוקחת יכולה לאפשר לרשת נוירונים לבצע משימות מורכבות יחסית. ואפילו עוד יותר מעניין - הרשת שלו, או יותר נכון הנוירון הספציפי המדובר, למד לזהות רגש בצורה מדויקת ונכונה יותר אפילו מבינות מלאכותיות שאומנו בשיטת הלמידה המונחית! זו היתה תוצאה מאוד מאוד מפתיעה, שהייתה מנוגדת להלך המחשבה בעולם המחקר באותו הזמן.
איליה ועמיתיו תיארו את תוצאות הניסוי שלהם במאמר, והגישו אותו לכנס מקצועי - אבל המאמר נדחה: לא כל כך בגלל התוצאות עצמן, אלא בגלל שזה היה פשוט מאמר גרוע. "המאמר הזה כתוב רע - יש בו יותר מדי שגיאות כתיב," ציין אחד השופטים. "אני לא חושב שהבנתי לגמרי מה המחברים רוצים לומר," כתב שופט אחר, "מהי ההשערה שהחוקרים מציגים? [...] אני מבולבל לגמרי לגבי סעיף 3, ואיבדתי את האומץ לקרוא את המשך המאמר."
המחקר הזה, אם כן, לא ממש היכה גלים בעולם הבינה המלאכותית, אם לומר זאת בעדינות - אבל איליה המשיך להפוך במוחו לגבי בתוצאה המסקרנת שקיבל. הוא שאל את עצמו איך הצליחה רשת הנוירונים שלו ללמוד לזהות רגש בטקסט - רק מתוך אימון שמטרתו המוצהרת הייתה ללמד אותה לנחש, בסך הכל, מה צריכה להיות המילה הבאה במשפט? כשחושבים על זה, זה ממש מוזר. זה כמו לקחת ילד, לאמן אותו על לצבוע גדר - Wax On, Wax Off - ופתאום הילד הופך להיות אמן קרטה. אגב, אם הבנתם את הרפרנס הזה, כנראה שהגיע הזמן לקבוע בדיקת קולונוסקופיה אצל הרופא.
התשובה שאליה הגיע איליה הייתה מפתיעה ומרתקת. דמיינו לעצמכם שאתם קוראים ספר מתח בלשי: נאמר, תעלומת רצח בסגנון אגתה כריסטי. העלילה המפותלת כוללת כמה וכמה חשודים, ראיות, אליבי וכדומה - ואז, בעמוד האחרון של הספר, במילה האחרונה ממש, חושפת הסופרת את שמו של הרוצח. עכשיו, נניח שהיינו נותנים לבינה המלאכותית לקרוא את הספר - אבל ללא אותה מילה אחרונה - ואז מבקשים ממנה לנחש מה צריכה להיות המילה הזו. במילים אחרות, מה שאנחנו באמת מבקשים מהבינה המלאכותית לעשות זה לנחש את זהותו של הרוצח. וכדי להיות מסוגלת לעשות זאת, רשת הנוירונים צריכה לא רק ללמוד את הקשרים הסטטיסטיים בין המילים שבספר - איזו מילה סביר להניח שתופיע אחרי מילה אחרת - אלא גם לחלץ מהם משהו נוסף: משמעות חבויה, ידע סודי, קשרים עלומים בין פיסות המידע האלה. אפשר לומר שאנחנו מצפים מרשת הנוירונים להבין את הטקסט באותו האופן שבו קורא אנושי היה מבין.
רשת הנוירונים שפיתח איליה במסגרת הניסוי שלו לא הייתה עד כדי כך מתוחכמת, כמובן: היא לא הייתה מסוגלת לקרוא טקסטים ארוכים כל כך ולחלץ מהן משמעויות כה עמוקות - אבל עצם העובדה שהרשת הצליחה בכל זאת לחשוף את הרגש שהסתתר בתוך ביקורת באמזון, גילתה לאיליה שלמרות האימון הבסיסי והלא מתוחכם שעברה, הרשת שלו הבינה את הטקסט הזה באופן עמוק ואינטימי יותר מכפי שאיש העז לשער קודם לכן. ואם אפילו רשת נוירונים כל כך בסיסית ולא מתוחכמת, שאומנה על מאגר מידע קטן יחסית, מסוגלת לחלץ משמעויות חבויות שכאלה מתוך טקסטים שהיא מקבלת - מה יקרה כשינסה לאמן רשת נוירונים גדולה ומתוחכמת יותר, על כמות הרבה יותר גדולה של מידע?...
GPT-3
רצה הגורל ופחות או יותר במקביל לאיליה, עמלה קבוצת חוקרים בגוגל על פיתוחה של ארכיטקטורה חדשה עבור רשתות נוירונים בשם Transformer. הארכיטקטורה החדשה היתה פורצת דרך בשני מישורים: היא איפשרה לרשתות נוירונים לעבד טקסטים וסוגי מידע אחרים בהיקפים הרבה יותר גדולים ממקודם, ולבצע את העיבוד הזה במהירות וביעילות רבה יותר מאי פעם. הקבוצה של גוגל פרסמה את תוצאות המחקר ב-2017 במאמר בשם Attention Is All You Need, שחולל מהפכה רבתי בתחום בעולם הבינה המלאכותית: ארכיטקטורת הטרנספורמר הייתה הרבה יותר מוצלחת מהגישות שקדמו לה, וכמעט כל החוקרים עברו להשתמש בה בתוך שנים ספורות. גוגל עצמה הוציאה מודל שפה בשם BERT שהיה מבוסס על ארכיטקטורת הטרנספורמר, ולמשך פרק זמן מסוים נחשב לבינה המלאכותית הטובה ביותר בעולם בתחום עיבוד שפה טבעית.
בין החוקרים שאימצו את הטרנספורמר בזרועות פתוחות היה גם איליה סוצקבר, שהבין מיד שהארכיטקטורה החדשה הזו היא בדיוק מה שהיה זקוק לו. הוא החליף את הארכיטקטורה הקודמת בה השתמש - אבל שמר על אותו עקרון בסיסי של למידה לא-מונחית: גם הרשת החדשה אומנה על ניחוש מילים חסרות במשפטים, והיתה מסוגלת להפיק (מלשון To Generate) טקסטים חדשים. למערכת החדשה שקיבל הוא נתן את השם GPT-1, ראשי תיבות של Generative Pre-Trained Transformer.
OpenAI שחררה את GPT-1 ב-2018, וביצועיה של המערכת הזו עוררו התפעלות ואפילו התרגשות בקרב המומחים: הטקסטים שהפיק GPT-1 היו מוצלחים ומשכנעים, ובחלק מהמקרים כמעט בלתי ניתנים להבחנה מטקסטים שנכתבו על ידי בני אנוש. שנה מאוחר יותר שחררה OpenAI את GPT-2, מודל שהיה מוצלח אפילו יותר.
אבל קו פרשת המים האמיתי היה GPT-3, שיצא לאור ב- 2020.
מידת המורכבות של מערכת בינה מלאכותית נמדדת, לרוב, במונחים של 'פרמטרים': נתון שקשור בקשר הדוק למספר הנוירוניים המלאכותיים מהם עשויה הרשת. GPT-1 הכיל כ-175 מיליון פרמטרים, ו- GPT-2 היה גדול פי עשרה: 1.75 מיליארד פרמטרים. אבל GPT-3 היווה עליית מדרגה אמיתית: 175 מיליארד פרמטרים - פי מאה יותר גדול מ- GPT-2 ופי אלף יותר גדול מ-GPT-1, גודל שהציב אותו בקטגוריה משל עצמו - 'מודל שפה גדול' (Large Language Model) .
והקפיצה הזו, מסתבר, לא רק שעשתה את GPT-3 לטוב יותר מקודמיו - היא גם הפכה אותו למשהו… אחר. GPT-3 הפגין יכולות שאף מודל שפה לפניו לא התקרב אליהן אפילו. לא רק שהשיחות איתו הרגישו טבעיות, כאילו שאתה מדבר עם אדם בשר ודם - GPT-3 היה מסוגל לכתוב שירים ולהמציא בדיחות, הוא היה מסוגל לכתוב קוד תוכנה באיכות גבוהה, לתרגם בין שפות ולענות על שאלות בכמעט כל תחום אפשרי: עריכת דין, רפואה, גננות, בישול, הגותו של ברוך שיפנוזה, חייה האישיים של טיילור סוויפט…וכל זה מבלי שהבינה המלאכותית אומנה במכוון לבצע את הדברים האלה, אלא רק אומנה לנחש את המילה הבאה במשפט. זה הכל.
את ההשפעה שהייתה להצלחה המדהימה הזו אני לא חושב שאני צריך לתאר לכם. כשהשיקה OpenAI את ChatGPT שהיה מבוסס על GPT-3.5, גרסה משופרת של GPT-3 - הוא הפך מיד לשירות הפופולרי ביותר בהיסטוריה של האינטרנט, עם מיליון משתמשים בשבוע הראשון שלאחר ההשקה ולמעלה ממאה מיליון משתמשים בתוך חודשיים. בפעם הראשונה בהיסטוריה, הבינה המלאכותית הפכה לשימושית ומועילה גם עבור האדם הרגיל ברחוב, ולא רק למומחים: אני נעזר ב ChatGPT כדי ללמוד על הנושאים שאני כותב עליהם בעושים היסטוריה, הבת הגדולה שלי משתמשת בו כדי ללמוד ספרדית, הבן האמצעי שלי פותר איתו שיעורי בית והבן הקטן מפתח איתו משחקי מחשב. איליה סוצקבר, הילד שעלה מרוסיה בגיל חמש ולמד באוניברסיטה הפתוחה, חולל את מה שהיא אולי אחת המהפכות הטכנולוגיות הגדולות בהיסטוריה האנושית.
אבל לקפיצה המדהימה ביכולותיו של GPT-3 על פני קודמיו הייתה גם השפעה נוספת: היא גרמה לאנשים לפחד.
זה לא שאנשים לא פחדו מבינה מלאכותית גם קודם, כמובן: הפחד מפני טכנולוגיה מתקדמת שתתהפך עלינו כמו גולם שקם על יוצרו הוא עתיק לפחות כמו הסיפור על…ובכן, הגולם שקם על יוצרו, באגדה על הגולם מפראג. הפחד מבינה מלאכותית שתתחרפן ותנסה להשמיד אותנו הוא הציר שסביבו נסובו אינספור עלילות מדע בדיוני, מ'אודיסאה בחלל: 2001' ועד הרובוט המחסל ב'שליחות קטלנית.'
אבל עד לא מכבר, אם הייתם שואלים את מומחי הבינה המלאכותית אם אולי יש גרעין של אמת בעלילות הבדיוניות הללו, הם היו מחייכים ואומרים שלא, אין שום סיכוי שמשהו כזה יוכל להתרחש בעתיד הנראה לעין. הרי הבינות המלאכותיות שאנחנו מפתחים הן כל כך פשוטות וחסרות תחכום ביחס למה שראינו על המסך הגדול…
ואז הגיעו GPT-3 וזמן קצר אחריו גם -GPT 4, וטרפו את כל הקלפים. הבינה המלאכותית החדשה הזו כל כך הרבה יותר מוצלחת ומוכשרת מקודמותיה, עד שלפתע פתאום מכונות כמו HAL9000 מ'אודיסאה בחלל' וה-Terminator של 'שליחות קטלנית' כבר לא נראות מופרכות כל כך. למעשה, אני די בטוח ש ChatGPT יותר מתוחכם ממה שהיה HAL9000 בסרט, ועושה עבודה הרבה יותר משכנעת בלהעמיד פנים שהוא בן אנוש מאשר ארנולד שוורצנגר. מומחים כמו ג'פרי הינטון ויושוע בנג'יו, שעמלו כל חייהם המקצועיים כדי להביא את בשורת הבינה המלאכותית לעולם - לפתע פתאום נתקפו בחרדה וקראו למנהיגי העולם לקחת ברצינות את האיום שנשקף לאנושות מצידה של הבינה המלאכותית. הינטון אפילו פרש מעבודתו בגוגל כדי להתרכז בהעלאת המודעות הציבורית לאיום הזה.
הפחד מפני הבינה המלאכותית יעמוד במרכז הפרק הבא של עושים היסטוריה, חלקו השני של הפרק הזה. השאלה שנרצה לענות עליה היא - האם מודלי שפה גדולים הם אכן הצעד הראשון לקראת הגשמתו של מה שהפיזיקאי המפורסם סטיבן הוקינג כינה 'הדבר הטוב ביותר, או הדבר הגרוע ביותר, שאי פעם קרה לאנושות': בינה מלאכותית כללית, Artificial General Intelligence - יצור מלאכותי שיהיה חכם יותר ומוצלח יותר מבן אנוש בכמעט כל פרמטר אפשרי, ובפעם הראשונה יערער על ההגמוניה המוחלטת שלנו כיצורים האינטליגנטיים ביותר בכדור הארץ.