Бля, похоже скорее на гадание. Математики там чуток.
Мой-то вопрос был - откуда берутся те матрицы, с которыми происходит свёртка в самом начале. Ну понятно, что от обучения, но как? И откуда конкретно мы знаем заранее размерность?
Всякая нетривиальная технология похожа на магию. 😀
Все матрицы наполняются содержимым при обучении. Выбор размерности - произвол чувака, проектирующего граф сетки. Знание, какие размеры лучше работают в каких случаях, нарабатывается опытом. Даже новая специальность возникла, называется feature engineering.
Какие именно вычислительные процессы происходят при "обучении", то есть при наполнении всех матриц нужными цифрами, описывается в куче книг и статей. По сути классический градиентный спуск.
no subject
Date: 2024-11-24 09:23 (UTC)no subject
Date: 2024-11-26 09:27 (UTC)https://www.geeksforgeeks.org/gradient-descent-algorithm-and-its-variants/
Трансформеры отдельная прикольная штука.
https://www.datacamp.com/tutorial/how-transformers-work
https://towardsdatascience.com/transformers-141e32e69591
Я сам в этой математике не особо мастак, чисто по диагонали разумею.
no subject
Date: 2024-11-26 12:45 (UTC)Мой-то вопрос был - откуда берутся те матрицы, с которыми происходит свёртка в самом начале.
Ну понятно, что от обучения, но как? И откуда конкретно мы знаем заранее размерность?
no subject
Date: 2024-12-08 22:07 (UTC)Все матрицы наполняются содержимым при обучении. Выбор размерности - произвол чувака, проектирующего граф сетки. Знание, какие размеры лучше работают в каких случаях, нарабатывается опытом. Даже новая специальность возникла, называется feature engineering.
https://en.wikipedia.org/wiki/Feature_engineering
Какие именно вычислительные процессы происходят при "обучении", то есть при наполнении всех матриц нужными цифрами, описывается в куче книг и статей. По сути классический градиентный спуск.
https://en.wikipedia.org/wiki/Gradient_descent
no subject
Date: 2024-12-08 23:56 (UTC)