vak: (Знайка)
Serge Vakulenko ([personal profile] vak) wrote2024-11-23 10:53 pm

Как работает LLM

Хотите разобраться, как устроена большая языковая модель? Вот качественная объяснялка.

bbycroft.net/llm
juan_gandhi: (Default)

[personal profile] juan_gandhi 2024-11-24 09:23 am (UTC)(link)
Визуализация красивая, но голову морочат. Откуда все эти матрицы взялись при обучении? Как трансформеры работают?
juan_gandhi: (Default)

[personal profile] juan_gandhi 2024-11-26 12:45 pm (UTC)(link)
Бля, похоже скорее на гадание. Математики там чуток.

Мой-то вопрос был - откуда берутся те матрицы, с которыми происходит свёртка в самом начале.
Ну понятно, что от обучения, но как? И откуда конкретно мы знаем заранее размерность?