Error during neural network training (Epoch 0) - Помощь студентам

AleksandraOl · 24.12.2022, 21:08

When training a neural network, there should be 10 epochs, but when executing a command, there is an infinite increase in epochs with an index of 0 (Epoch 0). I can't find where I made a mistake.

In IDLE, I execute commands:
>>>import os
>>>os.chdir ('C:\\Python\\NeuralNetwork\\Networ k1')
>>>import mnist_loader
>>>training_data, validation_data, test_data = mnist_loader.load_data_wrapper ()
>>>import network
>>> net = network.Network([784, 30, 10])
>>> net.SGD(training_data, 30, 10, 3.0, test_data=test_data)

network:

Код:

import random
import numpy as np

class Network(object):
    def __init__(self,sizes):
        self.num_layers = len(sizes)
        self.sizes = sizes
        self.biases = [np.random.randn(y, 1) for y in sizes[1:]]
        self.weights = [np.random.randn(y,x) for x, y in zip(sizes[:-1],sizes[1:])]
    def feedforward(self,a):
        for b, w in zip(self.biases, self.weights):
            a = sigmoid(np.dot(w,a)+b)
            return a
    def evaluate(self, test_data):
        test_results = [(np.argmax(self.feedforward(x)), y)
        for (x, y) in test_data]
        return sum(int(x == y) for (x, y) in test_results)

    def SGD(
        self
        , training_data
        , epochs
        , mini_batch_size
        ,eta
        , test_data
        ):
        test_data = list(test_data)
        n_test = len(test_data)
        training_data = list(training_data)
        n = len(training_data)
        for j in range(epochs):
            random.shuffle(training_data)
            mini_batches = [training_data[k:k+mini_batch_size] for k in range (0, n, mini_batch_size)]
            for mini_batch in mini_batches:
                self.update_mini_batch(mini_batch, eta)
                print("Epoch {0}: {1}/{2}".format(j, self.evaluate(test_data), n_test))
        
    def update_mini_batch(
        self
        , mini_batch
        , eta
        ):
        nabla_b = [np.zeros(b.shape) for b in self.biases]
        nabla_w = [np.zeros(w.shape) for w in self.weights]
        for x, y in mini_batch:
            delta_nabla_b, delta_nabla_w = self.backprop(x, y)
            nabla_b = [nb+dnb for nb, dnb in zip(nabla_b, delta_nabla_b)]
            nabla_w = [nw+dnw for nw, dnw in zip(nabla_w, delta_nabla_w)]
            self.weights = [w-(eta/len(mini_batch))*nw
                            for w, nw in zip(self.weights, nabla_w)]
            self.biases = [b-(eta/len(mini_batch))*nb
                            for b, nb in zip(self.biases, nabla_b)]
    def cost_derivative(self, output_activations, y):
        return (output_activations-y)
    def backprop(
        self
        , x
        , y
        ):
        nabla_b = [np.zeros(b.shape) for b in self.biases]
        nabla_w = [np.zeros(w.shape) for w in self.weights]
        activation = x
        activations = [x]
        zs = []

        for b, w in zip(self.biases, self.weights):
            z = np.dot(w, activation)+b
            zs.append(z)
            activation = sigmoid(z)
            activations.append(activation)
        delta = self.cost_derivative(activations[-1], y) * sigmoid_prime(zs[-1])
        nabla_b[-1] = delta
        nabla_w[-1] = np.dot(delta, activations[-2].transpose())

        for l in range(2, self.num_layers):
            z = zs[-l]
            sp = sigmoid_prime(z)
            delta = np.dot(self.weights[-l+1].transpose(), delta) * sp
            nabla_b[-l] = delta
            nabla_w[-l] = np.dot(delta, activations[-l-1].transpose())
            return (nabla_b, nabla_w)
        
            

                
    def sigmoid_prime(z):
        return sigmoid(z)*(1-sigmoid(z))
net = Network([2, 3, 1])
def sigmoid(z):
    return 1.0/(1.0+np.exp(-z))
def sigmoid_prime(z):
        return sigmoid(z)*(1-sigmoid(z))

print('Сеть net:')
print('Количество слоев:', net.num_layers)
for i in range(net.num_layers):
    print('Количество нейронов в слое',i,':',net.sizes[i])
    for i in range(net.num_layers-1):
        print('W_',i+1,':')
        print (np.round(net.weights[i],2))
        print('b_',i+1,':')
        print (np.round(net.biases[i],2))

mnist_loader:

Код:

import gzip
import pickle
import numpy as np

def load_data():
    f = gzip.open('mnist_pkl.gz', 'rb')
    training_data, validation_data, test_data = pickle.load(f, encoding='latin1')
    f.close()
    return (training_data, validation_data, test_data)

def load_data_wrapper():
    tr_d, va_d, te_d = load_data()
    training_inputs = [np.reshape(x, (784, 1)) for x in tr_d[0]]
    training_results = [vectorized_result(y) for y in tr_d[1]]
    training_data = zip(training_inputs, training_results)
    validation_inputs = [np.reshape(x, (784, 1)) for x in va_d[0]]
    validation_data = zip(validation_inputs, va_d[1])
    test_inputs = [np.reshape(x, (784, 1)) for x in te_d[0]]
    test_data = zip(test_inputs, te_d[1])
    return (training_data, validation_data, test_data)

def vectorized_result(j):
    e = np.zeros((10, 1))
    e[j] = 1.0
    return e

Похожие темы
Тема	Автор	Раздел	Ответов	Последнее сообщение
Error: AttributeError: 'Network' object has no attribute 'cost_derivative'	AleksandraOl	Помощь студентам	2	24.12.2022 20:15
Ошибка socket error # 10051 network is unreachable в Indy IdSMTP	remont_it,	C++ Builder	0	21.01.2013 22:31
Fast Artificial Neural Network Library (FANN) и Delphi 2010	stiv73	Компоненты Delphi	13	03.04.2011 22:14
Fast Artificial Neural Network Library - PHP Extension - Оконница	yarilo	PHP	0	15.07.2010 18:06