(1).jpg?alt=media&token=2e8646ef-c28b-4864-9701-41b079c0cd1a)
Прывітанне! Спадарства!
Працягваем наш цыкл артыкулаў пра ШІ (Штучны інтэлект) і як ім карыстацца.
Сёння наш артыкул будзе больш тэарытычны. Мы паспрабуем разабрацца, што такое мадэлі, якія яны бываюць, як іх выкарыстоўваць, і якія яны маюць асаблівасці.
Калі вы не чыталі нашыя папярэднія артыкулы - раю пачытаць.
Спадзяюся вам будзе цікава, таму паехалі!
І так, як звычайна (ну падаецца ж так у школе рабілі) - давайце разбярэмся з паняццем ШІ-мадэлі.
Штучны інтэлект — гэта не чараўніцтва, гэта матэматыка на стэроідах
Калі чуеце “ШІ-мадэль”, можа здацца, што гаворка пра нешта накшталт робата, які думае, як чалавек. Але насамрэч усё куды прасцей (і складаней адначасова). ШІ-мадэль — гэта матэматычная канструкцыя, якая вучылася на даных, каб пасля прадказваць, класіфікаваць ці нават генераваць новыя тэксты, выявы ці коды.
Прыкладам, калі вы карыстаецеся перакладчыкам, атрымліваеце рэкамендацыі ў Spotify або фільтруеце спам у пошце — там працуе адна ці некалькі такіх мадэляў. Але важна разумець: мадэль — гэта не сам алгарытм, а вынік яго прымянення да даных.
Звычайна працэс выглядае так: вы бераце алгарытм (напрыклад, градыентны бустынг, нейронную сетку ці SVM), “корміце” яго дадзенымі — і атрымліваеце мадэль. Потым гэтая мадэль ужо можа самастойна прымаць рашэнні — напрыклад, вызначыць, ці ёсць на здымку котка, ці гэта проста пухнаты коўдрык.
У гэтым артыкуле мы разбярэмся глыбей: чым розныя мадэлі адрозніваюцца, навошта патрэбныя фундаментавыя мадэлі (як GPT,Claude і г.д.), і чаму без магутных GPU сёння не зварганіш нават простага чат-бота.
Як ШІ-мадэль “запамінае” інфармацыю: вектары, прасторы і матэматычная магія
Добра, мы ўжо ведаем, што мадэль — гэта вынік навучання на даных. Але ўзнікае лагічнае пытанне: а як яна ўсё гэта захоўвае? Ці не захоўвае, як Google Docs?
Не. ШІ-мадэль нічога не запамінае “па-людску”. Яна не ведае, што “котка” мякае, а “піцца” смачная. Замест гэтага яна ўяўляе сабе свет праз вектары — гэта матэматычныя аб’екты, якія складаюцца з набораў лікаў. Груба кажучы, кожнае слова, карцінка, запыт ці нават паняцце пераўтвараецца ў лічбавы код — набор значэнняў у прасторы з сотнямі ці тысячамі вымярэнняў.
🧠 Прыклад:
“котка” = [0.12, -0.98, 3.45, …]
Калі мадэль “думае” пра слова “котка” (звыяайна яна стварае вектары для цэлых выразаў), яна працуе не з тэкстам, а з яго вектарным уяўленнем. Тое ж самае са словам “сабака”, “пухнаты”, “мурлыкае” і г.д.

(Візуалізацыя вектараў. Зверху злева - вектары тэкстаў пра промптынг. Знізу справа - вектары тэкстаў пра беларускую мову. )
Цікава, што вектары, блізкія ў гэтай шматмернай прасторы, азначаюць паняцці, блізкія па сэнсе. Напрыклад, калі вектар “котка” побач з “сабака”, гэта значыць, што мадэль навучылася бачыць нешта агульнае паміж імі (жывёлы, хатнія, пухнатыя).
Як вектары параўноўваюцца?
Мадэль вымярае косінуснае падабенства або эўклідаву адлегласць паміж вектарамі. Прасцей кажучы — яна вылічвае, наколькі “паралельныя” ці “блізкія” вектары адзін да аднаго. Чым меншая адлегласць або большы косінус, тым мацней сувязь паміж паняццямі.
Так, напрыклад, у вялікіх мовахвых мадэлях (LLM) тыпу GPT:
- “Мінск” + “Беларусь” ≈ “Парыж” + “Францыя”
- “Кніга” + “чытаць” — “папера” ≈ “электронная”
І навошта гэта трэба?
Усё, ад разумення пытанняў карыстальніка да генерацыі адказаў, адбываецца праз маніпуляцыю гэтымі вектарамі. Калі вы пішаце ў чат: “парай фільм як Inception”, мадэль шукае вектар “Inception”, знаходзіць яго суседзяў у прасторы (напрыклад, “Interstellar”, “Tenet”), і на аснове гэтага генеруе рэкамендацыю.
Не ўсе ШІ-мадэлі аднолькавыя: як іх падзяляюць
Разнастайнасць мадэляў уражвае. Так можна знайсці мадэлі якія займаюцца аналізам мапаў ці выяўленнем хвароб па здымках.
Давайце паспрабуем неяк тыпізаваць ШІ мадэлі.
Пачнем з таго, што мадэлі могуць падзяляцца па тыпах дадзеных з якімі яны працуюць:
🧠 Моўныя мадэлі (LLM)
Працуюць з тэкстам: разумеюць, працягваюць, аналізуюць, генеруюць.
Сучасныя прыклады:
- Qwen 3 — падтрымлівае як dense, так і Mixture-of-Experts архітэктуры.
- Gemma 3 — кампактная, эфектыўная, працуе нават на 1 GPU.
- DeepSeek-R1 — робіць упор на разважанне і лагіку.
- LLaMA 3.3 / 4 — новыя open-source LLM.
👁 Візуальныя мадэлі (Computer Vision / Multimodal Vision)
Працуюць з выявамі: распазнаюць, аналізуюць, генеруюць.
- LLaMA 4 Vision — разумее малюнкі і можа адказваць на пытанні па візуальным кантэксце.
- Gemma Vision — маштабаваная візуальная мадэль ад Google.
- DALL-E
🎤 Гукавыя і маўленчыя мадэлі
Для распазнавання маўлення, генерацыі голасу, эмоцый і г.д.
(Пакуль найноўшых open-source канкурэнтаў Whisper або VALL-E не шмат, але чакаюцца.)
🔀 Мультымадальныя (Multimodal)
Здольныя апрацоўваць некалькі тыпаў дадзеных: тэкст + выява, тэкст + аўдыё і інш.
Напрыклад LLaMA 4
— аб’ядноўвае моўную мадэль з магчымасцю анвлізаваць выявы і падтрымлівае агенты (Пра іх у наступных артыкулах).
🧰 Па функцыянальнасці мадэлі можна падзяліць:
- Адназадачныя мадэлі (Task-specific)
Тонка адаптаваныя пад адну задачу (напрыклад, генерацыя SQL, аўтаматычны медыцынскі аналіз).
- Шыроказадачныя мадэлі (General-purpose)
Выконваюць мноства задач без спецыфічнай адаптацыі.
Сюды адносяцца ўсе сучасныя флагманскія мадэлі: Qwen 3, LLaMA 3.3, Gemma 3, DeepSeek-R1.
- Агенты з інструментамі (Tool-augmented models)
Могуць карыстацца раўзам з калькулятарамі, пошукам, базамі даных, нават іншымі ШІ.
Прыклад: GPT-4 Turbo з інструментамі, LLaMA 4 Agents, DeepSeek Agent (на базе R1).
🏋️ Па памеры мадэлі можна падзяліць па колькасці параметраў якія яны падтрымліваюць (В - Мільярды)
:
- Tiny / Small (0.6B – 4B параметраў) — працуе на лакальных прыладах.
- Medium (7B – 14B) — патрабуе GPU, працуе стабільна.
- Large (30B – 70B) — для дата-цэнтраў або энтузіястаў з кластарамі.
- Ultra-large (100B – 700B+) — патрэбен спец-абсталяванне.
Давайце разгледзім асаблівасці мадэляў, пра якія вы магчыма і не ведалі.
🧠 Мадэль — не чалавек. Яна нічога не “памятае”
Можна падумаць, што калі мадэль адказвае на вашы пытанні з улікам папярэдніх, то яна “памятае” размову. Але гэта ілюзія. У рэчаіснасці мадэль — гэта матэматычная функцыя, якая не мае памяці ў чалавечым сэнсе.
Кантэкст — вось дзе “жыве” ўся памяць
Кожны раз, калі вы адпраўляеце запыт у мадэль, разам з ім перадаецца так званы кантэкст — тэкст папярэдніх размоў, дакументаў, інструкцый. Гэта як калі б вы далі чалавеку шпаргалку перад тым, як нешта спытаць. І калі наступны запыт не ўтрымлівае папярэдні тэкст — мадэль усё “забывае”.
📌 Мадэль не захоўвае ніякай інфармацыі пасля адказу. Усё, што яна “ведае”, — гэта тое, што вы ёй перадалі ў бягучы момант.
Чаму гэта важна?
Бо гэта азначае, што мадэль не можа запамінаць карыстальнікаў, кантэкст размовы ці падзеі. Мадэль памятае толькі тыя дадзеныя якім яе навучылі пад час навучання ці файн-цюнінгу. Калі вам здаецца, што яна “памятае”, гэта не заслуга мадэлі, а сістэмы вакол яе, якая:
- захоўвае кантэкст,
- дынамічна яго падгружае,
- або выкарыстоўвае вектарныя базы даных ці іншыя інструменты, каб аднавіць патрэбную інфармацыю.
🧊 Мадэль — гэта “замарожаная матэматыка”
Калі вельмі спрасціць: мадэль — гэта функцыя, якая пераўтварае ўваход (запыт + кантэкст) у выхад (адказ). І ўсё. У ёй няма ніякай унутранай дынамікі, якая б змянялася паміж выклікамі. (У больш простых мадэлях можна заўважыць што на адзін і той жа промпт будзе адзін і той жа адказ)
Гэта як калькулятар: вы ўвялі 2 + 2 — атрымалі 4. Калі хочаце атрымаць 4 зноў — трэба зноў увесці 2 + 2.
Усё, што звязана з “памяццю”, “асабістай гісторыяй”, “ўзгадваннем”, — гэта архітэктурныя надбудовы. Напрыклад, агенты з “памяццю” працуюць так:
- Увесь дыялог захоўваецца звонку (у базе, файле ці вектарнай сістэме).
- Пры кожным новым запыце, агент адшуквае адпаведныя фрагменты з “памяці”.
- Ён дадае іх у кантэкст, і толькі потым перадае ўсё мадэлі.
Сама мадэль нават не “ведае”, што гэты тэкст з памяці — для яе гэта проста яшчэ адна частка ўваходу.
🙅♂️ Ці можа мадэль навучацца падчас размовы?
Не. Тыповая ШІ-мадэль (у тым ліку GPT, Claude, LLaMA) не мяняе сябе падчас працы. Каб яна нешта “навучылася”, трэба прайсці працэс рэтрэйнінгу або файнт’юнінгу, і гэта цэлы асобны этап, які не адбываецца падчас чата.
Нават калі мадэль 100 разоў адказала няправільна — яна працягне рабіць тое ж самае, пакуль вы самі не створыце новую мадэль або не зменіце кантэкст.
📏 Кантэкст не гумавы: чаму мадэль не можа “прачытаць усё”
Адна з найбольш частых памылак карыстальнікаў у разуменні ШІ — ілюзія, што мадэль можа працаваць з “усёй кнігай”, “усёй базай даных”, ці “вялікай колькасцю дакументаў адначасова”. Але гэта не так. Мадэлі маюць строгае абмежаванне на памер кантэксту, які яны могуць апрацаваць за раз.
Што такое кантэкст у тэхнічным сэнсе?
Кантэкст — гэта ўвесь набор інфармацыі, якую вы перадаеце мадэлі пры адным выкліку: ваш запыт, інструкцыі, дакументы, гісторыя дыялогу і г.д. Гэта не проста “тэкст”, а набор токенаў — спецыяльных адзінак, на якія разбіваецца тэкст для апрацоўкі.
Прыклад:
Слова “котка” — гэта 1 токен.
Слова “аўтамабілебудаванне” — можа змяшчаць 2-3 токены.
Англійскае “The quick brown fox jumps over the lazy dog.” — гэта 9 токенаў.
Колькі токенаў “могуць трымаць” сучасныя мадэлі?
- GPT-3.5 - 4 096 токенаў
- GPT-4 - 8 192 - 32 000 токенаў
- GPT-4o - да 128 000 токенаў
- Claude 3 - да 200 000 токенаў
- LLaMA 3 - звычайна - 8k - 32k токенаў
128 000 токенаў — гэта прыкладна 300 старонак тэксту. Здаецца шмат? Але гэта хутка скончваецца, калі вы дадаеце, напрыклад, тэхнічную дакументацыю або код.
🧨 Што адбываецца, калі перадаць занадта шмат?
- Промпт не змесціцца — мадэль адмовіцца апрацоўваць яго або абрэжа частку (звычайна пачатак) і згубіцца частка дадзеных.
- Калі вы падаеце занадта доўгія тэксты, важныя часткі могуць быць “адсунуты” за межы бачнасці.
- Меншая дакладнасць — нават калі ўся інфармацыя змяшчаецца, мадэль можа “згубіцца” ў аб’ёме і прапусціць важнае.
Чаму проста не зрабіць “бясконцы кантэкст”?
Праблема ў тым, што ўсе токены апрацоўваюцца разам — і чым іх больш, тым:
- больш памяці патрабуецца на GPU (Працэсары якія апрацоўваюць дадзеныя),
- больш часу займае вылічэнне,
- горш працуе ўвага (attention): мадэль “распыляецца” і не разумее, на што глядзець.
Як працаваць з вялікімі дадзенымі?
Калі тэкст не ўмяшчаецца ў кантэкст, існуюць рашэнні:
- 🔍 RAG (Retrieval-Augmented Generation) — выбар найбольш рэлевантных кавалкаў перад кожным запытам
- 📚 Вектарны пошук — знаходжанне блізкіх па сэнсе тэкстаў
- 🪓 Разбіццё — вы даяце інфармацыю часткамі
- 🧠 Агент з памяццю — выкарыстоўвае знешнюю базу, каб “узгадваць” ранейшае
✨ Падвядзем вынікі…
Фух! Калі вы дачыталі да гэтага моманту — вы ўжо амаль эксперт 😎
Давайце яшчэ раз коратка прабяжымся па галоўным:
✅ ШІ-мадэль — гэта не магія, а матэматыка, якая вучылася на даных
✅ Усе “веды” мадэлі захоўваюцца не як у чалавечай памяці, а ў вектарах
✅ Мадэль не памятае вас — уся “памяць” жыве ў кантэксце
✅ Ёсць шмат розных мадэляў: па тыпу дадзеных, функцыянальнасці і памеры
✅ Кантэкст абмежаваны — і гэта не баг, а фіча, з якой трэба працаваць
✅ “Навучыць мадэль у размове” — пакуль не зусім рэальнасць
Так што, калі вам здаецца, што ШІ “разумее” або “памятае” — успомніце, што на самой справе перад вамі вельмі разумны калькулятар, а не віртуальны Ян Баян з амнэзіяй 🙂
✍️ ЗЫ: Хочаце стаць суаўтарам?
Калі вы чытаеце гэта і думаеце: “О, я б таксама мог/магла напісаць пра што-небудзь па-беларуску!” — мы вас чакаем!
Хутка будзе новы артыкул пра агентаў і інструменты, але мы адкрытыя да новых тэм, голасаў і ідэй. Калі ласка далучайцеся да нас!
Пішыце, прапаноўвайце, далучайцеся!
Ну і вы можаце падтрымаць нашы высілкі праз кнопку "Падтрымаць праект" у версе старонкі