Fabio Lauria

Bortom algoritmen: Hur modeller för artificiell intelligens tränas och förfinas

7 april 2025
Dela på sociala medier

Hur man tränar en modell för artificiell intelligens

Träningen av modeller för artificiell intelligens är en av de mest komplexa utmaningarna inom dagens tekniska utveckling. En effektiv träning av en modell är mycket mer än en enkel algoritmisk fråga och kräver ett metodiskt och tvärvetenskapligt tillvägagångssätt som integrerar datavetenskap, domänkunskap och programvaruteknik. Som James Luke påpekar i sin banbrytande text"Beyond Algorithms: Delivering AI for Business" beror framgången med en AI-implementering mycket mer på datahantering och systemisk design än på själva algoritmerna. Landskapet förändras snabbt, med innovationer som DeepSeek-R1-modellen som omdefinierar kostnad och tillgänglighet.

Grunden: insamling och hantering av data

Kvalitet snarare än kvantitet

I motsats till vad man ofta tror är mängden data inte alltid den avgörande faktorn för framgång. Datans kvalitet och representativitet är betydligt viktigare. I det här sammanhanget är det avgörande att integrera olika källor:

  • Egendomsskyddade data: etiskt insamlade och anonymiserade av befintliga implementeringar
  • Auktoriserad data: Kommer från pålitliga leverantörer som uppfyller strikta kvalitetsstandarder
  • Dataset med öppen källkod: Noggrant verifierade för att säkerställa mångfald och noggrannhet
  • Syntetisk data: artificiellt genererad för att fylla luckor och lösa integritetsproblem

Denna integration skapar en omfattande utbildningsbas som fångar upp verkliga scenarier samtidigt som etiska och integritetsmässiga standarder upprätthålls.

Utmaningen med att förbereda data

Processen "data wrangling" står för upp till 80 procent av den insats som krävs i projekt för artificiell intelligens. Denna fas innebär:

  • Datarengöring: Eliminering av inkonsekvenser, dubbletter och avvikande värden
  • Transformation av data: Konvertering till format som är lämpliga för bearbetning
  • Integration av data: Sammanslagning av olika källor som ofta använder inkompatibla scheman och format
  • Hantering av saknade data: Strategier som statistisk imputation eller användning av proxydata

Som Hilary Packer, CTO på American Express, påpekade : "Aha-upplevelsen för oss var ärligt talat data. Du kan göra världens bästa modellurval ... men data är nyckeln. Validering och noggrannhet är den heliga gralen just nu inom generativ AI."

Modellarkitektur: rätt storlek

Valet av modellarkitektur måste styras av den specifika karaktären hos det problem som ska lösas, snarare än av personliga tendenser eller preferenser. Olika typer av problem kräver olika tillvägagångssätt:

  • Transformatorbaserade språkmodeller för uppgifter som kräver djup språklig förståelse
  • Konvolutionella neurala nätverk för bild- och mönsterigenkänning
  • Grafiska neurala nätverk för analys av komplexa relationer mellan enheter
  • Förstärkningsinlärning för optimerings- och beslutsproblem
  • Hybridarkitekturer som kombinerar flera metoder för komplexa användningsfall

Arkitektonisk optimering kräver en systematisk utvärdering av olika konfigurationer, med fokus på att balansera prestanda och beräkningskrav, en aspekt som har blivit ännu mer relevant i och med tillkomsten av modeller som DeepSeek-R1 som erbjuder avancerade resonemangsfunktioner till betydligt lägre kostnader.

Avancerade utbildningsmetoder

Modell destillation

Destillation har visat sig vara ett särskilt kraftfullt verktyg i det nuvarande AI-ekosystemet. Denna process gör det möjligt att skapa mindre, mer specifika modeller som ärver resonemangsförmågan hos större, mer komplexa modeller, som DeepSeek-R1.

Som i fallet med DeepSeek har företaget destillerat sin resonemangsförmåga på flera mindre modeller, inklusive modeller med öppen källkod från Metas Llama-familj och Alibabas Qwen-familj. Dessa mindre modeller kan sedan optimeras för specifika uppgifter, vilket påskyndar trenden mot snabba och specialiserade modeller.

Sam Witteveen, utvecklare av maskininlärning, konstaterar: "Vi börjar komma in i en värld där människor använder flera modeller. De använder inte bara en modell hela tiden." Detta inkluderar slutna lågkostnadsmodeller som Gemini Flash och GPT-4o Mini, som "fungerar mycket bra för 80 procent av användningsfallen".

Inlärning med flera uppgifter

I stället för att utbilda separata modeller för relaterade färdigheter kan modellerna dela med sig av kunskap mellan olika funktioner genom multi-task learning:

  • Modellerna optimerar samtidigt för flera relaterade mål
  • Grundläggande funktionalitet gynnas av bredare exponering för olika arbetsuppgifter
  • Prestanda förbättras i alla uppgifter, särskilt de med begränsad data
  • Beräkningseffektiviteten ökar genom komponentdelning

Övervakad finjustering (SFT)

För företag som verkar inom mycket specifika områden, där information inte är allmänt tillgänglig på webben eller i de böcker som vanligtvis används för att träna språkmodeller, är finjustering under övervakning (SFT) ett effektivt alternativ.

DeepSeek visade att det är möjligt att uppnå goda resultat med "tusentals" dataset med frågor och svar. IBM-ingenjören Chris Hay visade till exempel hur han satte upp en liten modell med sina egna matematikspecifika dataset och fick extremt snabba svar som överträffade prestandan hos OpenAI:s o1-modell på samma uppgifter.

Förstärkningsinlärning (RL)

Företag som vill träna en modell med ytterligare anpassning till specifika preferenser - till exempel att göra en chatbot för kundsupport empatisk men kortfattad - kommer att vilja implementera tekniker för förstärkningsinlärning (RL). Detta tillvägagångssätt är särskilt användbart om ett företag vill att dess chatbot ska anpassa sin ton och sina rekommendationer baserat på användarens feedback.

RAG (Retrieval-Augmented Generation)

För de flesta företag är RAG (Retrieval-Augmented Generation) den enklaste och säkraste metoden. Det är en relativt okomplicerad process som gör det möjligt för organisationer att förankra sina modeller med äganderättsligt skyddade data i sina databaser, vilket säkerställer att resultaten är korrekta och domänspecifika.

Detta tillvägagångssätt bidrar också till att motverka vissa av de hallucinationsproblem som är förknippade med modeller som DeepSeek, som för närvarande hallucinerar i 14% av fallen jämfört med 8% för OpenAI:s o3-modell, enligt en studie utförd av Vectara.

Kombinationen av modelldestillation och RAG är magin för de flesta företag och har blivit otroligt enkel att implementera, även för personer med begränsade kunskaper i datavetenskap eller programmering.

Utvärdering och förfining: bortom noggrannhetsmätningar

Effektiv AI mäts inte bara i termer av rå noggrannhet, utan kräver ett omfattande utvärderingsramverk som tar hänsyn till:

  • Funktionell noggrannhet: Frekvens med vilken modellen ger korrekta resultat
  • Robusthet: Beständighet i prestanda med varierande ingångar och förhållanden
  • Rättvisa: Konsekvent prestanda för olika användargrupper och scenarier
  • Kalibrering: Anpassning mellan förtroendepoäng och faktisk noggrannhet
  • Effektivitet: Beräknings- och minneskrav
  • Förklarbarhet: Transparens i beslutsprocesser, en aspekt där DeepSeeks destillerade modeller utmärker sig genom att visa deras resonemangsprocess

Kostnadskurvans inverkan

Den mest omedelbara effekten av DeepSeeks lansering är dess aggressiva prissänkning. Teknikbranschen förväntade sig att kostnaderna skulle sjunka över tid, men få förutsåg hur snabbt det skulle ske. DeepSeek visade att kraftfulla, öppna modeller kan vara både billiga och effektiva, vilket skapar möjligheter för omfattande experiment och kostnadseffektiv implementering.

Amr Awadallah, VD för Vectara, betonade detta och konstaterade att den verkliga brytpunkten inte bara är utbildningskostnaden utan även inferenskostnaden, som för DeepSeek är cirka 1/30 av OpenAI:s o1- eller o3-modeller per inferenskostnad per token. "De marginaler som OpenAI, Anthropic och Google Gemini har kunnat ta hem kommer nu att behöva minskas med minst 90 procent eftersom de inte kan förbli konkurrenskraftiga med så höga priser", säger Awadallah.

Inte nog med det, dessa kostnader kommer att fortsätta att minska. Anthropics VD, Dario Amodei, sade nyligen att kostnaderna för att utveckla modeller fortsätter att minska med cirka fyra gånger per år. Som ett resultat av detta kommer även den avgift som LLM-leverantörerna tar ut för att använda dem att fortsätta att minska.

"Jag förväntar mig att kostnaden kommer att gå mot noll", säger Ashok Srivastava, CDO på Intuit, ett företag som starkt har drivit på AI i sina skatte- och bokföringsprogram som TurboTax och Quickbooks. "...och latensen kommer att gå mot noll. De kommer helt enkelt att bli grundläggande funktioner som vi kan använda."

Slutsats: Framtiden för AI för företag är öppen, billig och datadriven

OpenAI:s DeepSeek och Deep Research är mer än bara nya verktyg i AI-arsenalen - de är tecken på en djupgående förändring där företag kommer att använda massor av specialbyggda modeller som är extremt kostnadseffektiva, kompetenta och förankrade i företagets egna data och tillvägagångssätt.

För företag är budskapet tydligt: verktygen för att bygga kraftfulla domänspecifika AI-applikationer finns till hands. Du riskerar att hamna på efterkälken om du inte utnyttjar dessa verktyg. Men verklig framgång kommer att komma från hur du samlar in data, utnyttjar tekniker som RAG och destillering och innoverar bortom förutbildningsfasen.

Som AmEx Packer uttryckte det: företag som hanterar sina data på rätt sätt kommer att vara de som leder nästa våg av innovation inom AI.

Fabio Lauria

VD & Grundare | Electe Electe

Jag är VD för Electe och hjälper små och medelstora företag att fatta datadrivna beslut. Jag skriver om artificiell intelligens i affärsvärlden.

Mest populära
Registrera dig för de senaste nyheterna

Få nyheter och insikter varje vecka i din inkorg
. Gå inte miste om något!

Tack så mycket! Din ansökan har tagits emot!
Oops! Något gick fel när du skickade in formuläret.