не харесвам това безполезна аналогия никой не знае още как работи човешкия мозък по-скоро е вдъхновено от това, но се разбира по-добре през математическия модел
от съседите си обикновено вместо сигмоид ползваме набор от други “активационни функции” gradient descent си работи, но обновяваме теглата на всички слоеве на всяка стъпка (backpropagation) има вариации на типовете слоеве
желязо започваме да ставаме жертви на fl oating point започва много да over fi t-ва започва да е гладно за много данни, понеже това помага с over fi t-а