Share to: share facebook share twitter share wa share telegram print page

Компроміс зсуву та дисперсії

Функція та зашумлені дані.
розмах=5
розмах=1
розмах=0.1
Функцію (червону) наближують із застосуванням радіальних базисних функцій (синіх). На кожному графіку показано кілька спроб. Для кожної зі спроб як навчальний набір надається кілька із зашумлених точок даних (нагорі). Для широкого розмаху (мал. 2) зсув є сильним: РБФ не можуть повністю наближувати функцію (особливо у центральному заглибленні), але дисперсія між різними наближеннями є низькою. Зі зниженням розмаху (мал. 3 та 4) зсув зменшується: сині криві наближують червону щільніше. Проте, в залежності від шуму в різних спробах дисперсія між спробами зростає. У найнижчому зображенні наближені значення для x=0 різняться дико в залежності від того, де були розташовані точки даних.

У статистиці та машинному навчанні, компромі́с (або диле́ма) зсу́ву та диспе́рсії (англ. bias–variance tradeoff or dilemma) — це задача одночасної мінімізації двох джерел похибки, які перешкоджають алгоритмам керованого навчання робити узагальнення на основі їхніх тренувальних наборів:

  • Зсув (англ. bias) — це похибка, викликана помилковими припущеннями в алгоритмі навчання. Великий зсув може спричиняти нездатність алгоритму знаходити доречні взаємозв'язки між ознаками та цільовими виходами (недонавчання).
  • Дисперсія (англ. variance) — це похибка від чутливості до малих флуктуацій в тренувальному наборі. Висока дисперсія може спричиняти перенавчання: моделювання випадкового шуму[en] в тренувальних даних замість моделювання бажаних виходів.

Ро́зклад на зсув та диспе́рсію (англ. bias–variance decomposition) — це спосіб аналізувати очікувану похибку узагальнення алгоритму навчання по відношенню до тієї чи іншої задачі як суму трьох членів: зсуву, дисперсії, та величини, що називається незнижуваною похибкою (англ. irreducible error), яка виникає внаслідок шуму в самій задачі.

Цей компроміс застосовується до всіх видів керованого навчання: класифікації, регресії (узгодження функцій)[1][2] та навчання структурованого виходу. Його також залучали для пояснення дієвості евристик у людському навчанні.

Задача

Компроміс зсуву та дисперсії є центральною задачею в керованому навчанні. В ідеалі потрібно обирати модель, яка і закономірності в своїх тренувальних даних схоплює добре, але й добре узагальнює їх для ще не бачених даних. На жаль, зазвичай неможливо робити те і друге одночасно. Методи навчання з високою дисперсією можуть бути здатними добре представляти свої тренувальні набори, але перебувають під загрозою перенавчання зашумлених або нехарактерних тренувальних даних. На противагу їм, алгоритми з великим зсувом зазвичай видають простіші моделі, не схильні до перенавчання, але можуть недопідлаштовуватися до своїх тренувальних даних, виявляючись нездатними схопити важливі закономірності.

Моделі з малим зсувом зазвичай є складнішими (наприклад, регресійними многочленами високого порядку), що дозволяє їм представляти тренувальний набір точніше. Проте в процесі вони можуть також представляти й велику складову шуму[en], присутню в тренувальному наборі, роблячи свої передбачення менш точними — незважаючи на свою додану складність. З іншого боку, моделі з великим зсувом схильні бути відносно простими (регресійними многочленами низького порядку, або навіть лінійними), але можуть видавати передбачення з нижчою дисперсією при застосуванні поза межами тренувального набору.

Розклад квадратичної помилки на зсув та дисперсію

Припустімо, що в нас є тренувальний набір, який складається з набору точок та дійсних значень , пов'язаних з кожною із точок . Ми виходимо з того, що існує функційний, але зашумлений взаємозв'язок , в якому шум має нульове середнє значення та дисперсію .

Нам треба знайти функцію , що якомога краще наближує справжню функцію засобами якогось алгоритму навчання на навчальній вибірці . Ми робимо «якомога краще» точним поняттям, вимірюючи середньоквадратичну похибку відносно : ми хочемо, щоби було мінімальним, як для , так і для точок за межами нашої вибірки. Звісно, ми не можемо сподіватися зробити це досконало, оскільки містять шум ; це означає, що ми мусимо бути готові допустити незнижувану похибку в будь-якій функції, яку б ми не придумали.

Пошук , яка узагальнюється на точки за межами тренувального набору, може бути здійснено за допомогою будь-якого із багатьох алгоритмів, що застосовуються для керованого навчання. Виявляється, що яку би функцію ми не обрали, ми можемо розкласти математичне сподівання її похибки на небаченому зразкові наступним чином:[3]:34[4]:223

Де

а

Математичне сподівання пробігає різні варіанти вибору тренувального набору , всі вибрані з одного й того ж (умовного) розподілу . Ці три члени представляють:

  • квадрат зсуву методу навчання, що можна розглядати як похибку, спричинену спрощувальними припущеннями, вбудованих до цього методу. Наприклад, при наближуванні нелінійної функції із застосуванням методу навчання для лінійних моделей в оцінках буде присутня похибка внаслідок припущення лінійності;
  • дисперсію методу навчання, або, інтуїтивно, наскільки сильно метод навчання рухатиметься навколо свого середнього значення;
  • незнижувану похибку . Оскільки всі три члени є невід'ємними, вона формує обмеження знизу для математичного сподівання похибки на небачених зразках.[3]:34

Що складнішою є модель , то більше точок даних вона схоплюватиме, і то меншим буде зсув. Проте, складність робитиме так, що модель більше «рухатиметься», щоби захопити точки даних, і відтак її дисперсія буде вищою.

Виведення

Виведення розкладу на зсув та дисперсію для квадратичних помилок відбувається наступним чином.[5][6] Для зручності позначення введімо скорочення та та опустимо індекс . По-перше, зауважте, що для будь-якої випадкової змінної ми маємо

Перегрупувавши, отримуємо

Оскільки є детермінованою,

З цього, за умови та (оскільки  — це шум), випливає, що

Також, оскільки

Отже, оскільки та є незалежними, ми можемо записати, що

Остаточно, функція втрат середньо-квадратичної похибки MSE (або від'ємна лог-функція правдомодібності) отримується шляхом взяття математичного сподівання :

Застосування до класифікації

Розклад на зсув та дисперсію спершу було сформульованого для регресії методом найменших квадратів. Можливо знайти подібний розклад і для випадку класифікації за втрат 0-1 (коефіцієнт помилок класифікації).[7][8] Як альтернатива, якщо задачу класифікації може бути перефразовано як імовірнісну класифікацію, то математичне сподівання квадрату похибки передбачуваних імовірностей по відношенню до справжніх імовірностей може бути розкладено, як і раніше.[9]

Підходи

Зниження розмірності та обирання ознак можуть знижувати дисперсію шляхом спрощення моделей. Аналогічно, зниженню дисперсії сприяє більший тренувальний набір. Додавання ознак (провісників) сприяє зниженню зсуву, ціною введення додаткової дисперсії. Алгоритми навчання зазвичай мають деякі налагоджувані параметри, які контролюють зсув та дисперсію, наприклад:

  • (Узагальнені[en]) лінійні моделі може бути регуляризовано, щоби знизити їхню дисперсію ціною збільшення їхнього зсуву.[10]
  • У штучних нейронних мережах дисперсія збільшується, а зсув зменшується з числом прихованих вузлів.[1] Як і в УЛМ, зазвичай застосовується регуляризація.
  • В моделях k-найближчих сусідів велике значення k призводить до великого зсуву та низької дисперсії (див. нижче).
  • У навчанні з прикладів регуляризація може досягатися варіюванням суміші прототипів та екземплярів.[11]
  • У деревах рішень глибина дерева визначає дисперсію. Зазвичай, для контролю дисперсії дерева рішень підрізують.[3]:307

Одним зі шляхів розв'язання цієї дилеми є застосування сумішевих моделей[en] та ансамблевого навчання.[12][13] Наприклад, підсилювання багато «слабких» моделей (із великим зсувом) поєднує в ансамбль, який має менший зсув, ніж окремі моделі, тоді як натяжкове агрегування поєднує «сильні» системи навчання таким чином, що знижує їхню дисперсію.

k-найближчі сусіди

У випадку регресії k-найближчих сусідів існує вираз замкненого вигляду, який ставить у відповідність розклад на зсув та дисперсію до параметру k:[4]:37, 223

де є k найближчими сусідами x у тренувальному наборі. Зсув (перший член) є монотонно зростаючою функцією від k, тоді як дисперсія (другий член) при збільшенні k спадає. Справді, за «розсудливих припущень» зсув оцінки першого-найближчого сусіда (1-НС, англ. 1-NN) зникає повністю, оскільки розмір тренувальної вибірки наближується до нескінченності.[1]

Застосування до людського навчання

В той час як дилему зсуву та дисперсії широко обговорювали в контексті машинного навчання, її розглядали і в контексті людського пізнання, перш за все Ґерд Ґіґеренцер[en] зі співробітниками в контексті навчених евристик. Вони переконували (див. посилання нижче), що людський мозок розв'язує цю дилему в випадку зазвичай розріджених, погано виражених тренувальних наборів, забезпечених досвідом, шляхом обрання евристики сильного зсуву/низької дисперсії. Це віддзеркалює той факт, що підхід нульового зсуву має погану узагальнюваність на нові ситуації, а також нерозсудливо припускає точне знання справжнього стану світу. Отримувані в результаті евристики є відносно простими, але дають кращі висновки в ширшому розмаїтті ситуацій.[14]

Жемо[en] та ін.[1] переконують, що дилема зсуву та дисперсії означає, що таких здібностей, як узагальнене розпізнавання об'єктів, не може бути навчено з нуля, що вони вимагають певної міри «жорсткої розводки», яка потім налаштовується досвідом. Причиною цього є те, що безмодельні підходи до отримання висновків для уникнення високої дисперсії вимагають непрактично великих тренувальних наборів.

Див. також

Примітки

  1. а б в г Geman, Stuart; E. Bienenstock; R. Doursat (1992). Neural networks and the bias/variance dilemma (PDF). Neural Computation. 4: 1—58. doi:10.1162/neco.1992.4.1.1. Архів оригіналу (PDF) за 10 Жовтня 2016. Процитовано 6 Листопада 2016. (англ.)
  2. Bias–variance decomposition, In Encyclopedia of Machine Learning. Eds. Claude Sammut, Geoffrey I. Webb. Springer 2011. pp. 100-101 (англ.)
  3. а б в Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). An Introduction to Statistical Learning. Springer. Архів оригіналу за 23 Червня 2019. Процитовано 6 Листопада 2016. (англ.)
  4. а б Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning. Архів оригіналу за 26 січня 2015. Процитовано 6 листопада 2016. (англ.)
  5. Vijayakumar, Sethu (2007). The Bias–Variance Tradeoff (PDF). University Edinburgh. Архів оригіналу (PDF) за 9 Вересня 2016. Процитовано 19 серпня 2014. (англ.)
  6. Shakhnarovich, Greg (2011). Notes on derivation of bias-variance decomposition in linear regression (PDF). Архів оригіналу (PDF) за 21 August 2014. Процитовано 20 серпня 2014. (англ.)
  7. Domingos, Pedro (2000). A unified bias-variance decomposition (PDF). ICML. Архів оригіналу (PDF) за 7 Жовтня 2016. Процитовано 6 Листопада 2016. (англ.)
  8. Valentini, Giorgio; Dietterich, Thomas G. (2004). Bias–variance analysis of support vector machines for the development of SVM-based ensemble methods. JMLR. 5: 725—775. (англ.)
  9. Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (2008). Introduction to Information Retrieval. Cambridge University Press. с. 308—314. Архів оригіналу за 4 Травня 2021. Процитовано 6 Листопада 2016. (англ.)
  10. Belsley, David (1991). Conditioning diagnostics : collinearity and weak data in regression. New York: Wiley. ISBN 978-0471528890. (англ.)
  11. Gagliardi, F (2011). Instance-based classifiers applied to medical databases: diagnosis and knowledge extraction. Artificial Intelligence in Medicine. 52 (3): 123—139. doi:10.1016/j.artmed.2011.04.002. (англ.)
  12. Jo-Anne Ting, Sethu Vijaykumar, Stefan Schaal, Locally Weighted Regression for Control. In Encyclopedia of Machine Learning. Eds. Claude Sammut, Geoffrey I. Webb. Springer 2011. p. 615 (англ.)
  13. Scott Fortmann-Roe. Understanding the Bias–Variance Tradeoff [Архівовано 29 Жовтня 2016 у Wayback Machine.]. 2012. (англ.)
  14. Gigerenzer, Gerd; Brighton, Henry (2009). Homo Heuristicus: Why Biased Minds Make Better Inferences. Topics in Cognitive Science. 1: 107—143. doi:10.1111/j.1756-8765.2008.01006.x. PMID 25164802. (англ.)

Посилання

Read other articles:

アメリカ合衆国の一級国道 U.S. Route 1 地図 路線延長 3,846 km (2,390 mi) 制定年 1926年 南端 フロリダ州キー・ウェスト 北端 メイン州フォート・ケート ■テンプレート(■ノート ■使い方) ■PJ道路 地図 国道1号線(こくどう1ごうせん、U.S. Route 1)とは、アメリカ合衆国の国道の1つである。東海岸部の大都市を南北に結ぶ主要な路線であり、全長2,390マイル(キロメートルに

 

CourcellesStasiun Métro de ParisLokasi1, rue de Chazelle53, boul. de CourcellesArondisemen Paris ke-8Île-de-FranceFranceKoordinat48°52′45″N 2°18′15″E / 48.87917°N 2.30417°E / 48.87917; 2.30417Koordinat: 48°52′45″N 2°18′15″E / 48.87917°N 2.30417°E / 48.87917; 2.30417PemilikRATPPengelolaRATPInformasi lainZona tarif1SejarahDibuka7 Oktober 1902 (7 Oktober 1902)Operasi layanan Stasiun sebelumnya   Paris Métro ...

 

العلاقات المارشالية الناوروية جزر مارشال ناورو   جزر مارشال   ناورو تعديل مصدري - تعديل   العلاقات المارشالية الناوروية هي العلاقات الثنائية التي تجمع بين جزر مارشال وناورو.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية للدولتين: وجه

Schema einer Dreifach-Expansionsdampfmaschine Dreifach-Expansionsdampfmaschine aus dem Jahr 1888 im Technischen Museum Wien Sechszylindrige Vierfach-Expansionsdampfmaschine des Schnelldampfers Deutschland Eine Verbunddampfmaschine oder Mehrfach-Expansionsmaschine (engl. compound engine) ist eine Dampfmaschine mit mindestens zwei in Dampfrichtung nacheinander geschalteten Arbeitseinheiten. Anatole Mallet meldete 1874 die Verwendung des Verbundprinzips im Lokomotivbau zum Patent an. Der effekti...

 

Chicoana Ciudad y municipio ChicoanaLocalización de Chicoana en Provincia de SaltaCoordenadas 25°06′S 65°33′O / -25.1, -65.55Entidad Ciudad y municipio • País  Argentina • Provincia  Salta • Departamento ChicoanaIntendente Esteban Ivetich (PRS)Altitud   • Media 1432 m s. n. m.Población (2001)   • Total 3396 hab.Gentilicio chicoanisto/aHuso horario UTC−3Código postal A4423Prefijo telefónico 0387[...

 

2003 studio album by Manuel Galban and Ry CooderMambo SinuendoStudio album by Manuel Galban and Ry CooderReleasedJanuary 28, 2003GenreLatin JazzloungemamboLabelNonesuchProducerRy CooderManuel Galban and Ry Cooder chronology The End of Violence(1997) Mambo Sinuendo(2003) Chávez Ravine(2005) Professional ratingsReview scoresSourceRatingAllmusic[1]Rolling Stone[2]The Village VoiceB−[3] Mambo Sinuendo is a studio album released by Cuban performer Manuel Galbán ...

Geopotensial adalah suatu energi potensial yang berkaitan dengan gravitasi bumi dan suatu satuan massa relatif terhadap permukaan laut.[1] Secara umum dinyatakan ke dalam bentuk ketinggian geopotensial yaitu ketinggian sebuah permukaan tekanan di atmosfer yang berlokasi di atas permukaan laut.[2] Secara matematika, besarnya geopotensial didefinisikan sebagai besar tenaga yang harus dilakukan untuk mengangkat massa ke arah tegak lurus suatu ketinggian sebesar satu satuan massa ...

 

Catholic and Orthodox saint SaintZacchaeus of JerusalemBishop of JerusalemDiedc. 116Venerated inCatholic ChurchEastern Orthodox ChurchOriental OrthodoxyChurch of the EastFeast23 August Zacchaeus of Jerusalem, also known as Zacharias, (died 116 AD) was a 2nd-century Christian saint venerated by the Roman Catholic and Eastern Orthodox churches. He was the fourth Bishop of Jerusalem. His feast day is August 23.[1] According to Eusebius, he was a Jewish Christian. Little is known abo...

 

Servische Volkspartij kan verwijzen naar: Servische Volkspartij (Kroatië) Servische Volkspartij (Montenegro). Bekijk alle artikelen waarvan de titel begint met Servische Volkspartij of met Servische Volkspartij in de titel. Dit is een doorverwijspagina, bedoeld om de verschillen in betekenis of gebruik van Servische Volkspartij inzichtelijk te maken. Op deze pagina staat een uitleg van de verschillende betekenissen van Servische Volkspartij en verwijzingen daarnaarto...

Stasiun Ōtaki大滝駅Bangunan Stasiun Ōtaki Station pada Oktober 2010LokasiŌtaki, Mamurogawa-machi, Mogami-gun, Yamagata-kenJepangKoordinat38°58′17″N 140°19′12″E / 38.971431°N 140.320053°E / 38.971431; 140.320053Koordinat: 38°58′17″N 140°19′12″E / 38.971431°N 140.320053°E / 38.971431; 140.320053Pengelola JR EastJalur■ Jalur Utama ŌuLetak dari pangkal180.3 kilometers dari FukushimaJumlah peron1 peron sisiInformasi l...

 

Michael BarnesThông tin cá nhânTên đầy đủ Michael Thomas BarnesNgày sinh 24 tháng 6 năm 1988 (35 tuổi)Nơi sinh Chorley, Lancashire, AnhVị trí Tiền vệ cánh tráiThông tin câu lạc bộĐội hiện nay Charnock RichardSự nghiệp cầu thủ trẻ000?–2005 Lancaster City2005–2008 Manchester UnitedSự nghiệp cầu thủ chuyên nghiệp*Năm Đội ST (BT)2006–2008 Manchester United 0 (0)2008 → Chesterfield (cho mượn) 3 (0)2008 → Shrewsbury Town...

 

Winship Capers Connor22nd Mayor of DallasIn office1887–1894Preceded byJohn Henry BrownSucceeded byBryan T. Barry Personal detailsBorn(1848-06-22)June 22, 1848Red Sulphur Springs, Hardin County, TennesseeDiedApril 8, 1921(1921-04-08) (aged 72)Long Beach, CaliforniaResting placeOakland Cemetery, DallasNationalityAmericanSpouse(s)Tullora Fannie Cornelius, Ada Cheatham RyeChildrenAnna F. Connor, Walker Cornelius Connor, Edward Cowen ConnorOccupationMerchant Winship Capers Connor (Jun 1...

Dieser Artikel behandelt das Landschaftsschutzgebiet. Für das Naturschutzgebiet siehe Laubachtal. Landschaftsschutzgebiet „Laubachtal“ IUCN-Kategorie V – Protected Landscape/Seascape Bild gesucht BWf1 Lage Aalen, Ostalbkreis, Baden-Württemberg, Deutschland Fläche 66,3 ha Kennung 1.36.038 WDPA-ID 322530 Geographische Lage 48° 51′ N, 10° 0′ O48.85679.99236Koordinaten: 48° 51′ 24″ N, 9° 59′ 32″ O Lauba...

 

Natural disaster in Ohio, US in 1913 Great Dayton Flood Main Street in Dayton, Ohio, during the floodMeteorological historyDurationMarch 21–26, 1913 (1913-03-21 – 1913-03-26)Overall effectsFatalitiesest. 360Damage$100,000,000Areas affectedDayton, Ohio, and other cities in the Great Miami River watershed The Great Dayton Flood of 1913 resulted from flooding by the Great Miami River reaching Dayton, Ohio, and the surrounding area, causing the greatest natural disaster in...

 

2009 film TsarFilm posterDirected byPavel LunginWritten byAlexey IvanovProduced byPavel LunginOlga VasilievaStarringPyotr MamonovOleg YankovskyEdited byAlbina AntipenkoRelease date May 2009 (2009-05) Running time116 minutesCountryRussiaLanguageRussian Tsar (Russian: Царь) is a 2009 Russian historical drama film directed by Pavel Lungin. It competed in the Un Certain Regard section at the 2009 Cannes Film Festival.[1] Plot The film is set between 1566 and 1569 during the ...

Gerakan Sosialis Demokratik Κίνημα Δημοκρατών ΣοσιαλιστώνJuru bicaraGiorgos Petalotis,Philippos Sachinidis[1]PendiriGeorge Papandreou[1]Dibentuk3 Januari 2015[1]Dipisah dariPASOKKantor pusatPiraeus 83 and Salamis, 105 53 Athena, YunaniIdeologiDemokrasi sosial[2]Pro-EropanismePosisi politikKiri tengahAfiliasi nasionalDISI (2015–2017)KINAL (sejak 2017)Warna  Merah  HijauParlemen Yunani2 / 300 Parlemen Eropa0 / 21 S...

 

  لمعانٍ أخرى، طالع المعاين (توضيح). المعاين (محلة) تقسيم إداري البلد  اليمن المحافظة محافظة إب المديرية مديرية السبرة العزلة عزلة عروان القرية قرية منعم السكان التعداد السكاني 2004 السكان 110   • الذكور 54   • الإناث 56   • عدد الأسر 12   • عدد المساكن 12 معلومات أ�...

 

Dieser Artikel behandelt Ebbe und Flut speziell auf der Erde. Die Ursachen für die Gezeiten auf allen Himmelskörpern stehen im Artikel Gezeitenkräfte. Tide ist eine Weiterleitung auf diesen Artikel. Weitere Bedeutungen sind unter Tide (Begriffsklärung) aufgeführt. Hoch- und Niedrigwasser an einer Schiffsanlegestelle in der Bay of Fundy Video: Der Einfluss des Mondes auf die Erde (mit Gezeiten und dem Erde-Mond-Schwerpunkt) Schematische Darstellung des Auftretens von Spring- und Nipptiden...

1943 film by Joseph Kane This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: The Man from Music Mountain 1943 film – news · newspapers · books · scholar · JSTOR (April 2019) (Learn how and when to remove this template message) The Man from Music MountainDirected byJoseph KaneWritten byJ. Benton Cheney (writ...

 

Former municipality in Glarus, SwitzerlandObstaldenFormer municipality Coat of armsLocation of Obstalden ObstaldenShow map of SwitzerlandObstaldenShow map of Canton of GlarusCoordinates: 47°07′N 9°09′E / 47.117°N 9.150°E / 47.117; 9.150CountrySwitzerlandCantonGlarusDistrictn.a.Area • Total23.76 km2 (9.17 sq mi)Elevation685 m (2,247 ft)Population (December 2020) • Total443 • Density19/km2 (48/sq&#...

 
Kembali kehalaman sebelumnya