Rich Sutton | ريتشارد إس. سوتون

13-03-2019

The Bitter Lesson

درس المر

The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin. The ultimate reason for this is Moore's law, or rather its generalization of continued exponentially falling cost per unit of computation. Most AI research has been conducted as if the computation available to the agent were constant (in which case leveraging human knowledge would be one of the only ways to improve performance) but, over a slightly longer time than a typical research project, massively more computation inevitably becomes available. Seeking an improvement that makes a difference in the shorter term, researchers seek to leverage their human knowledge of the domain, but the only thing that matters in the long run is the leveraging of computation. These two need not run counter to each other, but in practice they tend to. Time spent on one is time not spent on the other. There are psychological commitments to investment in one approach or the other. And the human-knowledge approach tends to complicate methods in ways that make them less suited to taking advantage of general methods leveraging computation.  There were many examples of AI researchers' belated learning of this bitter lesson, and it is instructive to review some of the most prominent.

وأكبر درس يمكن استخلاصه من سبعين عامًا المنصرمة في أبحاث الذكاء الاصطناعى هو أن الخورزميات العامة التي تزيد من الفعالية الحسابية هي في النهاية الأكثر فعالية وبهامش كبير. وسبب ؟ قانون مور ، أو بالأحرى استمرار انخفاض في التكلفة لكل وحدة حسابية تم إجراء معظم أبحاث الذكاء الاصطناعى كما لو أن المقدرة الحسابية المتوفرة للخورزمية كانت ثابتًا (في هذه الحالة سيكون الاستفادة من المعرفة الإنسانية واحدة من الطرق الوحيدة لتحسين الأداء) ولكن ، على مدار فترة زمنية أطول قليلاً من مشروع بحث نموذجي ، كان الحساب أكثر جماعية يصبح حتما متاحا. سعياً وراء تحسن يحدث فرقًا على المدى القصير ، يسعى الباحثون إلى زيادة معرفتهم الإنسانية بالمجال ، لكن الشيء الوحيد الذي يهم على المدى الطويل هو الاستفادة من الحساب. لا يحتاج هذان الشخصان إلى مواجهة بعضهما البعض ، لكن في الممارسة العملية يميلان إلى ذلك. الوقت الذي يقضيه في واحد هو الوقت الذي لا تنفق على الآخر. هناك التزامات نفسية للاستثمار في نهج واحد أو آخر. ويميل نهج المعرفة الإنسانية إلى تعقيد الطرق بطرق تجعلها أقل ملاءمة للاستفادة من الطرق العامة للاستفادة من الحساب. كانت هناك أمثلة كثيرة لتعلم الباحثين المتأخرين في هذا الدرس المرير ، ومن المفيد مراجعة بعض الأبرز.

In computer chess, the methods that defeated the world champion, Kasparov, in 1997, were based on massive, deep search. At the time, this was looked upon with dismay by the majority of computer-chess researchers who had pursued methods that leveraged human understanding of the special structure of chess. When a simpler, search-based approach with special hardware and software proved vastly more effective, these human-knowledge-based chess researchers were not good losers. They said that ``brute force" search may have won this time, but it was not a general strategy, and anyway it was not how people played chess. These researchers wanted methods based on human input to win and were disappointed when they did not.

في لعبة الشطرنج المحوسبة ، كانت الأساليب التي هزمت بطل العالم ، كاسباروف ، في عام 1997 ، تعتمد على بحث مكثف وعميق. في ذلك الوقت ، نظر إليه غالبية الباحثين في لعبة الشطرنج بالحزن ، الذين اتبعوا أساليب استفادت من الفهم الإنساني للبنية الخاصة للشطرنج. عندما أثبت نهج أبسط قائم على البحث مع أجهزة وبرامج خاصة أنه أكثر فاعلية ، فإن هؤلاء الباحثين في لعبة الشطرنج القائمة على المعرفة الإنسانية قد كانوا خاسرين مريرين. قالوا إن البحث عن "القوة الغاشمة" ربما يكون قد فازت في هذه المرة ، لكنها لم تكن استراتيجية عامة ، وعلى أي حال لم يكن الأمر كيف لعب الناس لعبة الشطرنج ، فقد أراد هؤلاء الباحثون أساليب تعتمد على المدخلات البشرية للفوز وخاب أملهم عندما لم يفعلوا ذلك. .

A similar pattern of research progress was seen in computer Go, only delayed by a further 20 years. Enormous initial efforts went into avoiding search by taking advantage of human knowledge, or of the special features of the game, but all those efforts proved irrelevant, or worse, once search was applied effectively at scale. Also important was the use of learning by self play to learn a value function (as it was in many other games and even in chess, although learning did not play a big role in the 1997 program that first beat a world champion). Learning by self play, and learning in general, is like search in that it enables massive computation to be brought to bear. Search and learning are the two most important classes of techniques for utilizing massive amounts of computation in AI research. In computer Go, as in computer chess, researchers' initial effort was directed towards utilizing human understanding (so that less search was needed) and only much later was much greater success had by embracing search and learning.

شوهد نمط مماثل من التقدم البحثي في ​​كمبيوتر Go ، تأخر لمدة 20 عامًا أخرى فقط. بذلت جهود أولية هائلة في تجنب البحث من خلال الاستفادة من المعرفة البشرية ، أو من الميزات الخاصة للعبة ، ولكن كل هذه الجهود أثبتت أنها غير ذات صلة ، أو ما هو أسوأ ، بمجرد تطبيق البحث بشكل فعال على نطاق واسع. كان من المهم أيضًا استخدام التعلم عن طريق اللعب الذاتي لتعلم وظيفة قيمة (كما كان في العديد من الألعاب الأخرى وحتى في الشطرنج ، على الرغم من أن التعلم لم يلعب دورًا كبيرًا في برنامج 1997 الذي فاز لأول مرة على بطل عالمي). التعلم باللعب الذاتي ، والتعلم بشكل عام ، يشبه البحث في أنه يتيح تطبيق العمليات الحسابية الضخمة. يعد البحث والتعلم أهم فئتين من التقنيات لاستخدام كميات هائلة من الحسابات في أبحاث الذكاء الاصطناعي. في الكمبيوتر Go ، كما هو الحال في شطرنج الكمبيوتر ، تم توجيه الجهد الأولي للباحثين نحو الاستفادة من الفهم البشري (بحيث كانت هناك حاجة إلى بحث أقل) وكان النجاح في وقت لاحق أكبر بكثير من خلال تبني البحث والتعلم.

In speech recognition, there was an early competition, sponsored by DARPA, in the 1970s. Entrants included a host of special methods that took advantage of human knowledge---knowledge of words, of phonemes, of the human vocal tract, etc. On the other side were newer methods that were more statistical in nature and did much more computation, based on hidden Markov models (HMMs). Again, the statistical methods won out over the human-knowledge-based methods. This led to a major change in all of natural language processing, gradually over decades, where statistics and computation came to dominate the field. The recent rise of deep learning in speech recognition is the most recent step in this consistent direction. Deep learning methods rely even less on human knowledge, and use even more computation, together with learning on huge training sets, to produce dramatically better speech recognition systems. As in the games, researchers always tried to make systems that worked the way the researchers thought their own minds worked---they tried to put that knowledge in their systems---but it proved ultimately counterproductive, and a colossal waste of researcher's time, when, through Moore's law, massive computation became available and a means was found to put it to good use.

في التعرف على الكلام ، كانت هناك منافسة مبكرة ، برعاية DARPA ، في السبعينيات. تضمن المشاركون مجموعة من الأساليب الخاصة التي استفادت من المعرفة البشرية --- معرفة الكلمات والصوتيات والقناة الصوتية البشرية وما إلى ذلك. وعلى الجانب الآخر ، كانت هناك طرق أحدث ذات طبيعة إحصائية أكثر وأجرت حسابات أكثر بكثير ، على أساس نماذج ماركوف المخفية (HMMs). مرة أخرى ، فازت الأساليب الإحصائية على الأساليب القائمة على المعرفة البشرية. أدى هذا إلى تغيير كبير في جميع معالجة اللغات الطبيعية ، بشكل تدريجي على مدى عقود ، حيث أصبحت الإحصاءات والحسابات تهيمن على المجال. الارتفاع الأخير للتعلم العميق في التعرف على الكلام هو الخطوة الأخيرة في هذا الاتجاه الثابت. تعتمد طرق التعلم العميقة بشكل أقل على المعرفة البشرية ، وتستخدم المزيد من الحسابات ، جنبًا إلى جنب مع التعلم في مجموعات التدريب الضخمة ، لإنتاج أنظمة التعرف على الكلام بشكل أفضل بشكل كبير. كما هو الحال في الألعاب ، حاول الباحثون دائمًا إنشاء أنظمة تعمل بالطريقة التي اعتقد الباحثون أن عقولهم تعمل بها - حاولوا وضع هذه المعرفة في أنظمتهم - لكنها أثبتت في نهاية المطاف أنها تأتي بنتائج عكسية ، وهدر كبير لوقت الباحث ، عندما ، من خلال قانون مور ، أصبح الحساب الضخم متاحًا وتم العثور على وسيلة لاستخدامه بشكل جيد.

In computer vision, there has been a similar pattern. Early methods conceived of vision as searching for edges, or generalized cylinders, or in terms of SIFT features. But today all this is discarded. Modern deep-learning neural networks use only the notions of convolution and certain kinds of invariances, and perform much better.

في رؤية الكمبيوتر ، كان هناك نمط مماثل. الأساليب المبكرة للرؤية هي البحث عن الحواف ، أو الأسطوانات المعممة ، أو من حيث ميزات SIFT. ولكن اليوم تم تجاهل كل هذا. تستخدم الشبكات العصبية الحديثة للتعلم العميق مفاهيم الالتواء وأنواع معينة من الثوابت ، وتؤدي بشكل أفضل.

This is a big lesson. As a field, we still have not thoroughly learned it, as we are continuing to make the same kind of mistakes. To see this, and to effectively resist it, we have to understand the appeal of these mistakes. We have to learn the bitter lesson that building in how we think we think does not work in the long run. The bitter lesson is based on the historical observations that 1) AI researchers have often tried to build knowledge into their agents, 2) this always helps in the short term, and is personally satisfying to the researcher, but 3) in the long run it plateaus and even inhibits further progress, and 4) breakthrough progress eventually arrives by an opposing approach based on scaling computation by search and learning. The eventual success is tinged with bitterness, and often incompletely digested, because it is success over a favored, human-centric approach.

هذا درس كبير. كحقل ، ما زلنا لم نتعلمه جيدًا ، حيث نواصل ارتكاب نفس النوع من الأخطاء. لنرى ذلك ، ولمقاومته بفعالية ، علينا أن نفهم جاذبية هذه الأخطاء. علينا أن نتعلم الدرس المرير بأن البناء في طريقة تفكيرنا لا ينجح على المدى الطويل. يعتمد الدرس المرير على الملاحظات التاريخية التي 1) حاول باحثو الذكاء الاصطناعي في كثير من الأحيان بناء المعرفة في عملائهم ، 2) وهذا يساعد دائمًا على المدى القصير ، ويكون مرضيًا للباحث ، ولكن 3) على المدى الطويل الهضاب وحتى يحول دون مزيد من التقدم ، و 4) تقدم التقدم المحرز في نهاية المطاف عن طريق نهج معارضة تقوم على حساب التحجيم عن طريق البحث والتعلم. إن النجاح في نهاية المطاف مشوب بالمرارة ، وغالبًا ما يتم هضمه بشكل غير كامل ، لأنه نجاح على نهج محبَّذ محوره الإنسان.

One thing that should be learned from the bitter lesson is the great power of general purpose methods, of methods that continue to scale with increased computation even as the available computation becomes very great. The two methods that seem to scale arbitrarily in this way are search and learning.  The second general point to be learned from the bitter lesson is that the actual contents of minds are tremendously, irredeemably complex; we should stop trying to find simple ways to think about the contents of minds, such as simple ways to think about space, objects, multiple agents, or symmetries. All these are part of the arbitrary, intrinsically-complex, outside world. They are not what should be built in, as their complexity is endless; instead we should build in only the meta-methods that can find and capture this arbitrary complexity. Essential to these methods is that they can find good approximations, but the search for them should be by our methods, not by us. We want AI agents that can discover like we can, not which contain what we have discovered. Building in our discoveries only makes it harder to see how the discovering process can be done.

والنقطة العامة الثانية التي يجب تعلمها من الدرس المرير هي أن المحتويات الفعلية للعقول معقدة للغاية وغير قابلة لتبسيط ؛ يجب أن نتوقف عن محاولة إيجاد طرق بسيطة للتفكير في محتويات العقول ، مثل طرق بسيطة للتفكير في الفضاء أو الأشياء أو العوامل المتعددة أو التناظر. كل هذا جزء من العالم الخارجي التعسفي والمعقد في جوهره. إنهم ليسوا ما ينبغي بناؤه ، لأن تعقيدهم لا نهاية له ؛ بدلاً من ذلك ، يجب علينا أن نبني فقط الطرق الوصفية التي يمكنها العثور على هذا التعقيد التعسفي والتقاطه. من الأمور الأساسية لهذه الطرق أنها يمكن أن تجد تقريبًا جيدًا ، ولكن البحث عنها يجب أن يكون بطرقنا وليس من خلالنا. نريد منظومة الذكاء الاصطناعى الذين يمكن أن يكتشفوا ما نستطيع ، وليس الذي يحتوي على ما اكتشفناه. بناء في اكتشافاتنا يجعل فقط من الصعب رؤية كيف يمكن القيام بعملية الاكتشاف.