Geçtiğimiz günlerde Andrej Karpathy’nin GitHub’da yayınladığı autoresearch projesini inceleme fırsatı buldum ve açıkçası bir süre ekran başında “vay be” diye oturdum. Projeyi kısaca özetleyeyim: bir yapay zeka ajanına eğitim kodunu veriyorsun, gece yatmadan önce başlatıyorsun, sabah kalktığında yüzlerce deney yapılmış ve modeliniz iyileştirilmiş oluyor.
Kulağa bilim kurgu gibi geliyor değil mi? Ama değil.
Ne Bu autoresearch?
630 satırlık bir Python scripti. MIT lisanslı, tek GPU üzerinde çalışıyor. İşin özü şu: bir yapay zeka kodlama ajanı (Claude, Codex vs.) eğitim kodunu okuyor, bir hipotez kuruyor, kodu düzenliyor, 5 dakikalık bir deney çalıştırıyor ve sonucu değerlendiriyor. Sonuç iyiyse değişikliği tutuyor, kötüyse geri alıyor. Ve bunu sürekli tekrarlıyor.
5 dakikada bir deney demek, saatte 12 deney, gece boyunca yaklaşık 100 deney demek. Bunu elle yapmaya kalksanız haftalarca uğraşırsınız.
Üç Dosya, Hepsi Bu
Projenin mimarisi kasıtlı olarak basit tutulmuş. Üç dosya var:
prepare.py — Veri indirme, tokenizer eğitimi, değerlendirme fonksiyonları. Ajan bu dosyaya dokunamıyor. Bu kritik bir tasarım kararı: değerlendirme metriğini sabitleyerek ajanın kendi başarı kriterini manipüle etmesini engelliyorsun.
train.py — Ajanın oyun alanı. GPT model mimarisi, optimizer, eğitim döngüsü burada. Ajan sadece bu dosyayı düzenliyor. Mimariyi değiştirebilir, hiperparametreleri ayarlayabilir, yeni teknikler deneyebilir.
program.md — İnsan tarafından yazılan strateji belgesi. Ajana ne tür deneyler yapması gerektiğini anlatıyorsun. Kod değil, doğal dilde yazılmış yönergeler.
Neden sadece bir dosya düzenlenebilir?
Eğer ajan hem eğitim kodunu hem de değerlendirme kodunu düzenleyebilseydi, metriği iyileştirmek yerine metriğin kendisini değiştirmeye başlayabilirdi. “Donmuş metrik” (frozen metric) prensibi, döngünün anlamlı kalmasını sağlıyor.
Sonuçlar Gerçekten Etkileyici
Karpathy kendi deneylerinde iki gün boyunca yaklaşık 700 deney çalıştırmış. Bunlardan 20 kadarı gerçekten katkı sağlayan iyileştirmeler üretmiş. GPT-2 eğitim süresini 2.02 saatten 1.80 saate düşürmüş — yüzde 11’lik bir verimlilik artışı.
Daha da ilginci, Shopify CEO’su Tobi Lütke bir gece boyunca 37 deney çalıştırarak 0.8 milyar parametreli bir modelin 1.6 milyar parametreli bir baseline’ı yüzde 19 geçmesini sağlamış. Yani daha küçük ama optimize edilmiş bir model, çok daha büyük bir modeli yenmiş.
Asıl Mesele: Araştırmacının Rolü Değişiyor
Benim bu projede en çok dikkatimi çeken şey teknik detaylar değil aslında. Asıl mesele, araştırmacının rolünün nasıl dönüştüğü.
Eskiden bir ML araştırmacısı kodu yazardı, deneyi çalıştırırdı, sonuçları analiz ederdi, hipotez kurardı ve döngü böyle devam ederdi. Şimdi ise araştırmacı neyin araştırılması gerektiğini tanımlıyor — yani program.md dosyasını yazıyor — ve ajan geri kalanını hallediyor.
Bu bir orkestra şefi benzetmesine benziyor: enstrüman çalmıyorsun ama neyin çalınacağını belirliyorsun.
Bir paradoks var
Karpathy’nin etkili bir program.md yazabilmesi, yıllarca gece 3’te model debug etmesinden gelen tecrübeye dayanıyor. Bu tür bir deneyim, otomasyon sistemi tarafından üretilemiyor. Sıkıcı işleri otomatikleştirirken, o sıkıcı işleri yaparak kazanılan uzmanlığı da yok etme riski var.
5 Dakikalık Ufuk
Her deneyin tam olarak 5 dakika sürmesi güzel bir tasarım kararı — donanımdan bağımsız adil karşılaştırma sağlıyor. Ama bir kısıtlaması da var: bazı keşifler uzun gözlem süreleri gerektirir. 5 dakikada görünmeyen ama 2 saatte ortaya çıkan bir iyileştirme, bu sistemde gözden kaçabilir.
Hız kazanıyorsun ama ufku daraltıyorsun. Her mühendislik kararı gibi bu da bir trade-off.
Geleceğe Bakış
Karpathy’nin vizyonu daha da büyük: SETI@home tarzı dağıtık bir yapı hayal ediyor. Tek bir ajan değil, bir ajan topluluğu — birbirleriyle iş birliği yapan, farklı hipotezleri paralel olarak araştıran bir sistem.
Bu henüz erken aşamada ama yön belli: araştırma sürecinin kendisi de ölçeklenebilir bir mühendislik problemi haline geliyor.
Denemek İsteyenler İçin
Tek bir NVIDIA GPU’nuz varsa hemen deneyebilirsiniz:
curl -LsSf https://astral.sh/uv/install.sh | shgit clone https://github.com/karpathy/autoresearch.gitcd autoresearchuv syncuv run prepare.pyuv run train.pyDeney başına maliyet yaklaşık 0.20 dolar. Apple Silicon, Windows RTX ve AMD için topluluk fork’ları da mevcut.
Bu proje bana şunu hatırlattı: yapay zekanın en heyecan verici tarafı sadece büyük modeller değil, araştırma sürecinin kendisini dönüştürmesi. Karpathy bunu 630 satır kodla gösterdi. Bakalım bu fikir nereye evrilecek.