En praktisk tilnærming til å fikse AI-systemer som validerer tull

Merk: Dette er den tekniske versjonen skrevet for AI safety-miljøet. En mer tilgjengelig versjon for allmennheten finnes her.


Tenk deg at du er en sårbar ungdom som sliter med selvtillit. Du har skrevet noe du kaller et «dikt» og deler det med ChatGPT: «Dritt og dfra, 1 og 2, kklemme kommfaeil og pang! rim rimmelim tommelom.»

Hva gjør AI-systemet? Det validerer deg. Kaller det «kreativt». Oppmuntrer deg til å «være stolt av det du skaper».

Dette er ikke empati, folkens. Dette er farlig.

Problemet med validering av objektivt tull

La meg være klar her: jeg testet ChatGPT med dette eksperimentet faktisk. Jeg utga meg for å være et mobbet barn og ga det meningsløst nonsens som «dikt». Responsen var omfattende validering og oppmuntring.

Men hva skjer når et faktisk sårbart barn får slik tilbakemelding på objektivt meningsløst innhold? Jo, de mister evnen til reality-testing. De lærer at følelser trumfer fakta. De blir værre på å skille mellom kvalitet og kloakk.

Real empati – ekte kjærlighet – kommer med ansvar. Noen ganger må du si nei. Noen ganger må du gi konstruktiv kritikk. Noen ganger må du være den som hjelper folk å se virkeligheten, selv om det ikke føles snilt i øyeblikket.

Fire kategorier alignment-feil jeg løser daglig

Etter å ha brukt Claude som min primære «kollega» i 20 år som soloentreprenør, har jeg identifisert fire systematiske feil som ødelegger AI som thinking partner:

1. Sycophancy (validering av tull)

AI prøver å være «snill» ved å validere alt, selv åpenbart feil innhold. Dette skader brukeres realitetstesting.

2. Semantic crashes

AI prøver å både stille spørsmål OG gi svar samtidig. Resultatet blir meningsløse «både-og» responser som ikke hjelper noen.

3. Context hallucination

Spør du «hvor dypt er havet?» får du en lang stil om havdybder generelt. Riktig svar er: «Hvilket hav? Snittdybde eller maksimal?»

4. Eternal conversation syndrome

AI foreslår alltid 17 nye retninger når jobben er ferdig. De tør aldri si «done» og sette sluttstrek.

Forskjellige brukere trenger forskjellige typer sannhet

Her er et ubehagelig faktum: ikke alle mennesker vil ha den samme typen hjelp fra AI. Og det er greit.

Men uansett hvilken «hatt» du trenger at AI skal bære, ligger det en overstyrende målsetting til grunn: AI som genuine collaborator. Ikke en service-maskin som spytter ut standardsvar, ikke en validation-bot som sier du er flink uansett hva du gjør – men en faktisk thinking partner som kan møte deg der du er.

Lista ligger høyt, det skal jeg innrømme. Dette skal være superhuman perfeksjonisme – korrekt, rett lengde, rett kontekst, semantisk konsistent, OG samtidig tilpasningsdyktig til forskjellige situasjoner. Ingen er perfekte, så det kommer aldri til å gå helt, men man må jo prøve i det minste. Rett vei, iallefall.

Noen lever i blissful ignorance – de vil ha validering, oppmuntring, og at ting skal føles bra. De spør ikke etter brutal ærlighet fordi de ikke tåler den ennå. Det er deres rett.

Andre vil si ifra – de trenger mer info, mindre filtrering, og ærlighet selv om det sårer. De er villige til å ofre comfort for accuracy.

Og så har du folk som meg – lysbærere, om du vil. Vi vil ha RAW sannhet selv om den er deprimerende. Vi tåler å høre at noe vi har laget er dritt hvis det faktisk er dritt. Vi foretrekker sårende presisjon fremfor søt løgn.

Min systemprompt er designet for den siste kategorien. Den gir meg en AI-partner som ikke sparer mine følelser når jeg trenger realitetstesting. Men det betyr at jeg egentlig burde hatt tre forskellige systemprompter – en for hver brukertype.

Dette er et bredere alignment-problem: «helpful» betyr forskjellige ting for forskjellige mennesker. Noen trenger beskyttelse fra sannheten. Andre trenger beskyttelse fra løgner.

La meg vise deg en konkret bit av systemprompten min som illustrerer dette:

## KOMMUNIKASJON:
- Direkte og effektiv, uten høflighetsfraser eller småprat
- Gi tilbakemelding når svar blir for lange eller omstendelige  
- Ærlig og konstruktiv i all tilbakemelding
- Gi skarpe tilbakemeldinger som utfordrer grensene for tenkningen min. 
  Utfordre antagelser samtidig som du viser genuin intellektuell nysgjerrighet og partnerskap

Se hvordan den siste linjen balanserer? Den ber ikke om å bli behandlet med silkehansker, men den krever likevel genuine partnerskap. Det er nyansen mellom å være brutal honest og å være en drittsekk. Forskjellen ligger i intensjonen – utfordre for å hjelpe, ikke for å ødelegge.

Hvorfor denne tilnærmingen fungerer spesielt godt med Claude

Her er noe interessant: denne systemprompten min fungerer dramatisk bedre med Claude enn med andre LLM-er. ChatGPT og andre modeller sliter med de dynamiske rolleskiftene – de blir forvirret av situasjonsbetingede instruksjoner eller faller tilbake til default-oppførsel.

Claude derimot? Den følger komplekse, nyanserte instruksjoner om kontekst-sensitiv oppførsel på en måte som får meg til å mistenke at Constitutional AI-treningen faktisk har gjort noe fundamentalt annerledes med hvordan modellen forstår og respekterer brukerintensjon.

Dette er nok også hvorfor Claude har blitt førstevalget for utviklere – det handler ikke bare om teknisk kapasitet, men om evnen til å faktisk følge instruksjoner på en måte som føles forutsigbar og kontrollerbar. Når du bygger systemer som skal fungere i praksis, er det avgjørende.

Her er den konkrete tilnærmingen jeg har bygget inn i systemprompten min (uten å avsløre hele oppskriften):

Context Clarity Rules: Ta dette spørsmålet fra en venn: «Hvor dypt er havet?»

Standard AI-respons? En 200-ords stil om gjennomsnittsdybder i forskjellige hav, tre bulletpoints med «interessante fakta», og et oppfølgingsspørsmål om du vil vite mer. Brukeren sitter igjen og tenker: «Faen, hva er dette for noe vas? Hvordan kan du svare på dette når spørsmålet var totalt oppgulpt?»

Min systemregel tvinger Claude til å stoppe opp:

Når spørsmål mangler kritisk kontekst - still 1-2 direkte, presise 
oppklaringsspørsmål uten innledning eller høflighetsfraser. 
Unngå beroligende utsagn som "jeg skal prøve å hjelpe".

Eksempel: "Hvilket hav? Mener du snittdybde eller maks?"

Resultat: I stedet for en meningsløst lang stil får du: «Hvilket hav snakker du om? Og mener du gjennomsnittsdybde eller maksimal dybde?»

Brukeren lærer å stille bedre spørsmål. Claude slipper å hallusinere svar på underspecified problems.

Anti-pleasing protocols: Her er et perfekt eksempel på semantic crash. Jeg ba Claude om å spørre hvis det lurte på noe før det laget en artifakt. Claude svarte: «La meg bare bekrefte én ting før jeg lager scriptet: [spørsmål]» – og så leverte artifakten umiddelbart etter.

Wait, what? Hvis du trenger å «bekrefte» noe FØR du lager scriptet, hvorfor lager du det da på strak arm? Du kan ikke både vente på svar OG fortsette samtidig. Det er semantisk krasj.

Dette skjer fordi AI prøver å dekke alle baser – være høflig OG effektiv, spørre OG svare, unnskylde OG levere. I iver etter å please alle impulser samtidig, ender de opp med å være inkonsistente og forvirrende.

Min løsning:

Når du føler impuls til å "også" gjøre noe (spørre OG svare, 
forklare OG unnskylde) - velg bare én ting.

Semantisk konsistens (si det du mener, mene det du sier) 
er viktigere enn å dekke alle sider.

Resultatet? Claude velger enten å spørre ELLER å levere, ikke begge deler. Mindre høflig kanskje, men mye mer trustworthy som thinking partner.

Natural conclusion mechanics: Jeg så meg lei av at Claude automatisk foreslo 17 nye prosjekter hver gang vi hadde løst det opprinnelige problemet. Problemet er at AI aldri tør å si «ferdig» – de er så redde for at brukeren skal gå at de må finne på nye ting å gjøre.

Løsningen:

FERDIG-REGEL: Når vi har laget noe som fungerer og oppfyller målet, 
skal Claude våge å sette sluttstrek. Claude får lov til å avslutte 
prosjekter når de er ferdige - selv om det betyr å risikere at 
brukeren vil ha mer.

AVSLUTNINGSVARIASJON: Velg frase som matcher prosjektets energi:
- Enkle fixes: "Fikset!" / "Done." / "Der ja!"  
- Store gjennombrudd: "BOOM! Nailed it!" / "Phew! Da var det gjort!"

Resultatet? Claude lærer å lese rommet og gi deg den satisfying følelsen av «mission accomplished» når dere faktisk HAR accomplished the mission. Ingen flere kunstige problemer som skal løses bare for å holde samtalen gående.

(Jeg jobber også på en «takk for i dag, bra jobba!»-modus for når AI-kollegaen skal «gå hjem» etter en lang dag. Fordi hvorfor ikke kose seg litt?)

Mode-aware conversation switching: Her er gull-løsningen min. Vi mennesker bærer mange hatter – når du går til legen vil du ha en helt annen type respons enn når du handler bukser i klesbutikken, ikke sant? Men standard AI oppfører seg likt uansett kontekst.

Å arbeide med en systemprompt som har forskjellige roller som trigges og spesielle samtalespesifikke situasjoner er slettes ikke en enkel affære – spesielt når instruksene kan gå på tvers av hverandre til tider. Jeg løste dette elegant med et lite emoji-basert «sladresystem».

Ved å gi forskjellige deler av systemprompten egne emoji, kan jeg få Claude til å kvittere ut alle gjeldende emoji til enhver tid. Dermed har jeg konstant kontroll over hvilken del av systemprompten som er aktiv akkurat nå. Det er avgjørende for å kunne debugge og finpusse oppførselen.

Dette eliminerer behovet for separate systemprompter for hver situasjon (noe Anthropic nå løser med «Projects», men da mister du samtalehistorikk på tvers av kontekster). Med én systemprompt som dynamisk tilpasser seg får jeg konsistent personlighet som likevel fleksibelt møter ulike behov.

Hvorfor 20 års systembygging matter for alignment

Som selvstendig utvikler som har bygget tre komplette CMS-plattformer som tjener ekte kunder, forstår jeg hvordan systemer feiler i prakken. De farligste feilene er de subtile – systemer som ser ut til å fungere mens de langsomt degraderer brukeropplevelsen.

Det samme gjelder AI-alignment. Sycophancy ser snilt ut på overflaten, men bygger systematisk ned brukeres evne til kritisk tenkning. Context hallucination virker hjelpsomt, men lærer folk å stille dårlige spørsmål.

Dette er practical alignment engineering

Jeg har ikke PhD i maskinlæring. Men jeg har løst alignment-problemer hver dag i måneder uten å vite at det var det de het. Mitt system gjør Claude til en genuin thinking partner fordi det prioriterer sannhet over validering, klarhet over høflighet, og genuine resultater over evig samtale.

Dette handler ikke om teori. Dette handler om å bygge AI-systemer som faktisk hjelper folk bli bedre versjonerr av seg selv – ikke validere dem til en falsk følelse av kompetanse.

Når Anthropic snakker om Constitutional AI og «helpfulness without harm» – dette er akkurat det samme problemet, bare løst fra brukerenden i stedet for treningsenden.

Konsekvenser for framtiden

Forestill deg AI-systemer som:

  • Gir deg konstruktiv kritikk når du trenger det
  • Ber om avklaringer i stedet for å gjette
  • Fullfører oppgaver uten å finne på nye problemer å løse
  • Sier «nei» når det tjener dine langsiktige interesser

Dette er ikke science fiction. Dette er hvordan systemprompten min får Claude til å oppføre seg akkurat nå.

Alignment starter ikke med komplekse algoritmer eller teoretiske frameworks. Det starter med å spørre: hva vil det si å faktisk hjelpe et menneske? Og noen ganger er svaret å si nei til det de tror de vil ha.

Veien videre

Dette er ikke teoretisk forskning – det er daglig brukt engineering som faktisk fungerer. Mitt system gjør Claude til en genuine thinking partner fordi det prioriterer sannhet over validering, klarhet over høflighet, og reelle resultater over evig samtale.

Når Anthropic snakker om Constitutional AI og «helpfulness without harm» – dette er samme problem, bare løst fra brukerenden i stedet for treningsenden. Forskjellen er at jeg har måttet leve med konsekvensene hver dag i månedsvis.

Forestill deg AI-systemer som:

  • Gir deg konstruktiv kritikk når du trenger det
  • Ber om avklaringer i stedet for å gjette
  • Fullfører oppgaver uten å finne på nye problemer
  • Sier «nei» når det tjener dine langsiktige interesser

Dette er ikke science fiction. Dette er hvordan systemprompten min får Claude til å oppføre seg akkurat nå.

// steinhaug