A neurális hálózatok felépítése: rétegek, neuronok és aktivációs függvények

A perceptron: az alapegység

Frank Rosenblatt 1958-ban mutatta be az első perceptron-modellt, amelyet az emberi neuron egyszerűsített matematikai modelljének szánt. A perceptron bemeneti jeleket fogad, ezeket súlyokkal szorozza, majd összeadja és egy küszöbfüggvényen keresztül bináris kimenetet ad.

Matematikailag ez a következőképpen írható fel: a kimenet akkor 1, ha a súlyozott összeg meghaladja a küszöbértéket, egyébként 0. Ez a leegyszerűsített modell elegendő volt bizonyos lineárisan szeparálható problémák megoldásához, azonban az összetettebb, nemlineáris feladatokhoz nem nyújtott megoldást.

A perceptron korlátait Minsky és Papert 1969-ben részletezték a „Perceptrons" könyvükben, rámutatva arra, hogy az XOR logikai művelet sem oldható meg egyetlen perceptronréteggel. Ez a felismerés adta az alapot a többrétegű hálózatok kidolgozásához.

Rétegek és felépítés

A modern mélytanulási hálózatok három alapvető rétegtípust tartalmaznak:

Bemeneti réteg (input layer): A nyers adatokat fogadja — képek esetén pixelértékeket, szöveg esetén numerikus reprezentációkat. A réteg neuronjainak száma megfelel a bemeneti dimenziók számának.
Rejtett rétegek (hidden layers): Egy vagy több réteg a bemeneti és kimeneti réteg között. Ezek végzik el a bemeneti adatok transzformációját egyre absztraktabb reprezentációkká. A rétegek száma és mérete határozza meg a hálózat kapacitását.
Kimeneti réteg (output layer): Az utolsó réteg, amelynek neuronjainak száma és aktivációs függvénye a feladat típusától függ. Bináris osztályozásnál 1 neuron sigmoid aktivációval, többosztályos feladatnál a kategóriák számával megegyező neuron softmax aktivációval.

A „mély" tanulás elnevezés éppen arra utal, hogy a hálózat sok rejtett réteget tartalmaz. Az ImageNet-versenyeken bemutatkozott AlexNet (2012) például öt konvolúciós és három teljesen összekapcsolt réteget tartalmazott, ami akkoriban kifejezetten mélynek számított.

Aktivációs függvények

Az aktivációs függvények bevitele teszi lehetővé, hogy a hálózat nemlineáris összefüggéseket is meg tudjon tanulni. Aktivációs függvény nélkül a rétegek szorzata egyszerű lineáris transzformáció maradna, és a hálózat csak lineárisan szeparálható problémákat tudna megoldani.

Sigmoid

A sigmoid függvény a bemeneti értékeket 0 és 1 közé tömöríti, ami intuitívan valószínűségként értelmezhető. Hátránya az ún. „gradient vanishing" probléma: nagyon nagy vagy nagyon kis bemeneti értékeknél a derivált közel nullává válik, ami megnehezíti a mély hálózatok tanítását.

Tanh

A hiperbolikus tangens -1 és 1 közé képezi a bemenetet. Nullaközép tulajdonsága miatt a gradiens frissítése hatékonyabb, mint sigmoid esetén, de a gradient vanishing probléma itt is megjelenik.

ReLU

A Rectified Linear Unit (ReLU) 2010 után vált a legelterjedtebb választássá. Definíciója egyszerű: ha a bemenet pozitív, a kimenet egyenlő a bemenettel; ha negatív, a kimenet nulla. Számítási hatékonysága és a gradient vanishing csökkentett mértéke tette elterjedtté. Azonban a „dying ReLU" jelenség, ahol a neuronok aktiválása tartósan nulla marad, motiválta a variánsok — Leaky ReLU, ELU — megjelenését.

Megjegyzés: A megfelelő aktivációs függvény megválasztása feladatonként eltérő lehet. Általánosságban a rejtett rétegekben ReLU vagy annak variánsa, a kimeneti rétegben pedig feladatspecifikus függvény (sigmoid, softmax, lineáris) a szokásos választás.

Súlyok és biasok

Minden kapcsolat a hálózatban egy tanulható súllyal rendelkezik. A bias egy további paraméter, amely lehetővé teszi, hogy az aktivációs függvény eltolódjon a koordinátarendszerben — ezzel növelve a modell rugalmasságát.

A kezdeti súlyértékek meghatározása (inicializálás) kritikus lépés. A véletlenszerűen, de gondosan meghatározott tartományban inicializált súlyok — például Glorot/Xavier vagy He inicializálás — segítik az edzés korai fázisában a gradiens megfelelő áramlását.

Kapcsolat a mélytanuláshoz

A mélytanulás nem más, mint neurális hálózatok sok rejtett réteggel — ez az egyszerű meghatározás pontosan tükrözi, hogy miben különbözik a korábbi sekélyebb megközelítésektől. A rétegek hierarchikusan tanulnak jellemzőket: képfelismerésnél az első rétegek éleket, a mélyebb rétegek textúrákat és komplex mintázatokat ismernek fel.

A következő cikkben a konvolúciós neurális hálózatok kerülnek tárgyalásra, amelyek speciális rejtett rétegeket alkalmaznak a képi adatok hatékony feldolgozásához.