עד לא מזמן הצ'אטבוטים דמו לתלמידי תיכון שקדניים אבל היום הם מתקרבים לרמתו של סטודנטים לתואר שלישי, שלא לדבר על חוקרים שכבר מצויד בדוקטורט.
אבל ככל שהבינה המלאכותית מתקדמת, מפתחים וחוקרים חיצוניים מנסים למצוא דרכים חדשות להעביר אותה בדיקה ובחינה: מה הרמה שלה, עד כמה היא עצמאית, עד כמה עד כמה היא מסוגלת לבצע משימות מסובכות, אפילו עד כמה היא מאיימת.
אבל הנה הבעיה: ככל שהבינה המלאכותית הופכת ליותר ויותר אוטונומית, עצמאית ומתוחכמת, היא לא רק מבינה את הבקשה שלנו היא מפרקת אותה לגורמים ומתחילה להבין מה עומד מאחוריה, מה אנחנו מנסים להשיג באמצעות בדיקת היכולות שלה. האם יכול להיות שכאשר היא תבין שהיא נמצאת בבדיקה, שהיא נבחנת, היא תנסה לרמות?!
השאלה הזו, שנראה שנלקחה מסרטי מדע בדיוני, היא כבר לא תיאורטית. בעוד שטרם נרשמו מקרים שבהם בינה מלאכותית ניסתה לרמות את הבוחנים, נרשמו סימנים ראשונים לכך שזה אפשרי ואם זה אפשרי עכשיו מה יקרה בעוד שנה, מה יקרה בעוד שנתיים, מה יקרה בעוד עשור?
קישורים:
הספר על פרשת "דיזלגייט"
https://www.amazon.com/Faster-Higher-Farther-Volkswagen-Scandal/dp/1543642519
מחקר: הפגנה אסטרטגית של ביצועים נמוכים בבינה מלאכותית
https://arxiv.org/abs/2406.07358
מחקר: סוכנים רדומים בבינה מלאכותית
https://arxiv.org/abs/2401.05566
מחקר: האם קלוד 3 שיקר לי?
https://arxiv.org/abs/2405.01576
מחקר: לעבור לקופסה לבנה
אוו שיט- המכונה השקרנית
17.2.25

עד לא מזמן הצ'אטבוטים דמו לתלמידי תיכון שקדניים אבל היום הם מתקרבים לרמתו של סטודנטים לתואר שלישי, שלא לדבר על חוקרים שכבר מצויד בדוקטורט.
אבל ככל שהבינה המלאכותית מתקדמת, מפתחים וחוקרים חיצוניים מנסים למצוא דרכים חדשות להעביר אותה בדיקה ובחינה: מה הרמה שלה, עד כמה היא עצמאית, עד כמה עד כמה היא מסוגלת לבצע משימות מסובכות, אפילו עד כמה היא מאיימת.
אבל הנה הבעיה: ככל שהבינה המלאכותית הופכת ליותר ויותר אוטונומית, עצמאית ומתוחכמת, היא לא רק מבינה את הבקשה שלנו היא מפרקת אותה לגורמים ומתחילה להבין מה עומד מאחוריה, מה אנחנו מנסים להשיג באמצעות בדיקת היכולות שלה. האם יכול להיות שכאשר היא תבין שהיא נמצאת בבדיקה, שהיא נבחנת, היא תנסה לרמות?!
השאלה הזו, שנראה שנלקחה מסרטי מדע בדיוני, היא כבר לא תיאורטית. בעוד שטרם נרשמו מקרים שבהם בינה מלאכותית ניסתה לרמות את הבוחנים, נרשמו סימנים ראשונים לכך שזה אפשרי ואם זה אפשרי עכשיו מה יקרה בעוד שנה, מה יקרה בעוד שנתיים, מה יקרה בעוד עשור?
קישורים:
הספר על פרשת "דיזלגייט"
https://www.amazon.com/Faster-Higher-Farther-Volkswagen-Scandal/dp/1543642519
מחקר: הפגנה אסטרטגית של ביצועים נמוכים בבינה מלאכותית
https://arxiv.org/abs/2406.07358
מחקר: סוכנים רדומים בבינה מלאכותית
https://arxiv.org/abs/2401.05566
מחקר: האם קלוד 3 שיקר לי?
https://arxiv.org/abs/2405.01576
מחקר: לעבור לקופסה לבנה
חסויות הפרק