Uyurken Yapay Zeka Araştırması: Karpathy'nin autoresearch Projesi

index

Geçen hafta Twitter’da (artık X dememiz lazım ama alışamadım) dolaşırken Andrej Karpathy’nin yeni bir repo paylaştığını gördüm. autoresearch diye bir şey. İlk başta “haa yine bir framework falan” deyip geçecektim ama açıklamasını okuyunca durdum. Diyor ki gece yatmadan önce bunu başlat, sabah kalk, yüzlerce deney yapılmış olsun, modelin iyileşmiş olsun.

Tabii hemen clone’ladım.

Hani Neymiş Bu?

Anlatayım, aslında konsept çok basit ama uygulaması zekice. Elinizde bir eğitim kodu var, mesela bir GPT modeli eğitiyorsunuz. Normalde ne yaparsınız? Hiperparametrelerle oynarsınız, bir deney çalıştırırsınız, 20 dakika beklersiniz, sonuçlara bakarsınız, “hmm learning rate’i biraz düşüreyim” dersiniz, tekrar çalıştırırsınız… Bu döngü böyle saatlerce devam eder.

autoresearch’ün yaptığı şey tam olarak bu döngüyü bir yapay zeka ajanına devretmek. Claude olsun, Codex olsun, hangi kodlama ajanı kullanıyorsanız, o ajan kodunuzu okuyor, bir şeyler deniyor, çalıştırıyor, sonuca bakıyor ve tekrar deniyor. Durmadan.

Her deney tam 5 dakika sürüyor. Bu da saatte 12 deney, bir gecede 100 küsur deney demek. Ben bu yazıyı yazana kadar siz 3-4 deney yapabilirsiniz elle. O 100 tane yapıyor.

Repo’yu Açınca Şaşırdım Açıkçası

Çünkü toplam 630 satır kod. Ciddiyim. Ben “kesin devasa bir framework’tür” diye düşünüyordum ama hayır, gayet minimal. Üç tane dosya var, o kadar:

Birincisi prepare.py. Bu dosya veriyi indiriyor, tokenizer’ı eğitiyor, değerlendirme fonksiyonlarını barındırıyor. Önemli nokta şu, ajan bu dosyaya dokunamıyor. Neden dokunamıyor, birazdan geleceğim.

İkincisi train.py. Bu ajanın oyun alanı. GPT modeli burada tanımlı, optimizer burada, eğitim döngüsü burada. Ajan istediği gibi düzenleyebiliyor bu dosyayı. Katman sayısını değiştirir, attention mekanizmasıyla oynar, batch size’ı büyütür küçültür, ne isterse.

Üçüncüsü program.md. Bu da benim en çok hoşuma giden kısım. Düz metin, markdown formatında, insanın yazdığı bir “strateji belgesi”. Ajana diyorsun ki “şu tarz şeyleri dene”, “şuraya odaklan”, “bunu yapma” vesaire. Kod yok burada, dümdüz Türkçe (İngilizce tabii orijinali ama siz Türkçe de yazabilirsiniz) yazıyorsun.

Donmuş metrik meselesi

prepare.py’ye neden dokunulamıyor? Çünkü değerlendirme metriği orada. Eğer ajan hem eğitim kodunu hem de “başarılı mıyım” kararını veren kodu düzenleyebilseydi ne olurdu? Tahmin edin, metriği kendine göre ayarlardı. Sınavda hem soruları çöz hem de cevap anahtarını yaz gibi bir şey bu. Karpathy buna “frozen metric” diyor ve bence projenin en akıllıca kısmı bu.

Peki Gerçekten Çalışıyor Mu?

Karpathy kendi sonuçlarını paylaşmış. İki gün boyunca yaklaşık 700 deney çalıştırmış. Bunların çoğu işe yaramamış tabii ki bu normal, araştırma böyle bir şey zaten, çoğu deney başarısız olur. Ama 20 kadar deney gerçekten anlamlı iyileştirmeler getirmiş. Sonuç olarak GPT-2 eğitim süresi 2.02 saatten 1.80 saate düşmüş. Yüzde 11 diyelim kabaca.

“Yüzde 11 az değil mi?” diye düşünebilirsiniz. Hayır, değil. Bu tür iyileştirmeler normalde araştırmacıların haftalarca çalışarak bulduğu şeyler ve bunları bir gece uyuyarak elde etmek… nasıl desem, perspektif meselesi.

Ama asıl çarpıcı olan Shopify CEO’su Tobi Lütke’nin deneyimi. Adam bir gece autoresearch’ü çalıştırmış, 37 deney yapmış. Sonuç? 0.8 milyar parametreli bir model, 1.6 milyar parametreli bir modeli yüzde 19 geçmiş. Yani yarısı kadar büyüklükteki bir model, dev bir modeli yenmiş. Düşünsenize, belki de modelleri büyütmek yerine mevcut modelleri daha iyi optimize etmek daha mantıklı. autoresearch bize bunu gösterdi bir nevi.

Aslında Bu Sadece ML İle Sınırlı Değil

Ben bunu kurcalarken şunu fark ettim, buradaki fikir aslında herhangi bir “dene - ölç - tekrarla” döngüsüne uygulanabilir. ML eğitimi en bariz kullanım alanı ama mesela Eric Siu denen adam (Single Grain’in kurucusu) bunu pazarlama deneylerine uygulamaktan bahsediyordu. Diyor ki, “çoğu pazarlama ekibi yılda 30 deney yapar, bundan sonraki nesil 36.500+ yapacak”. Abartıyor mu bilmiyorum ama yön doğru.

Veya düşünün, bir web sitesinin A/B testleri. Renk, buton pozisyonu, metin değişikliği. Bunları otomatik deneyip hangisi daha iyi dönüşüm getiriyor diye test eden bir sistem. Prensip aynı.

Benim Kafama Takılan Birkaç Şey

Her şey güllük gülistanlık değil tabii. Birkaç şey var ki düşününce “hmm” dedirtiyor.

5 Dakika Yeterli Mi?

Her deney 5 dakika sürüyor. Bu güzel çünkü donanımdan bağımsız adil bir karşılaştırma oluyor. İster H100’de çalıştır ister RTX 4090’da, 5 dakikada ne kadar eğitim yapabiliyorsan o kadar. Ama bazı şeyleri 5 dakikada göremezsiniz. Overfitting mesela, belki 2 saat sonra ortaya çıkacak bir sorun 5 dakikada hiç belli olmaz. Veya bazı mimari değişiklikler ancak uzun eğitimlerde kendini gösterir.

Karpathy de bunun farkında muhtemelen, bilinçli bir trade-off bu. Hız kazanıyorsun ama ufku daraltıyorsun.

Program.md’yi Kim Yazacak?

Bu benim en çok düşündüğüm konu. Karpathy’nin etkili bir program.md yazabilmesinin sebebi ne? Yıllarca model eğitmiş olması. Gece 3’te gradient explosion debug etmiş olması. Hangi hiperparametrenin ne yaptığını derinden bilmesi.

Şimdi bir paradoks var burada. Eğer sıkıcı ve tekrarlayan deneyleri otomatikleştirirseniz, gelecekteki araştırmacılar bu deneyleri yaparak kazanılan deneyimi nasıl edinecek? Yani otomasyon, otomasyon yapabilecek insanları yetiştiren süreci de baltalıyor olabilir.

Bir blog yazısında bunu “deneyim pipeline’ı problemi” diye adlandırmışlardı ve bence çok doğru bir tespit. Junior araştırmacı işi öğrenecek, ama öğreneceği iş artık mevcut değil. Biraz paradoksal.

Düşündüren bir paradoks

Otomasyon sistemi, onu tasarlayacak uzmanlığı üreten süreci ortadan kaldırıyor olabilir. Bugünün kıdemli araştırmacıları harika program.md dosyaları yazabilir ama bu deneyimi hiç yaşamayan yarının araştırmacıları yapabilecek mi?

Tek Metrik Sorunu

autoresearch’te başarı kriteri tek bir sayı, validation bits per byte (val_bpb). Ne kadar düşükse o kadar iyi. Basit, temiz, karşılaştırılabilir. Ama gerçek dünyada işler nadiren tek bir metrikle ölçülür. Bir model hem hızlı olmalı, hem doğru olmalı, hem de güvenli olmalı. Bu tür çok boyutlu optimizasyon problemlerinde tek bir sayıya indirgeme yapmak bilgi kaybına yol açıyor.

Tabii bu bir v1, ilk sürüm. Karpathy zaten bunu bir “tool” olarak değil bir “recipe” olarak tanımlıyor. Yani “al kullan” değil, “bu fikri al, kendi problemine uygula” diyor.

Topluluk Ne Demiş?

Proje dört günde 20.000 star almış GitHub’da. Topluluk hemen fork’lamaya başlamış. Apple Silicon için MLX portu yapılmış, Windows RTX için ayrı bir fork çıkmış, AMD desteği eklenmiş. Bir de AgentHub diye bir yan proje türemiş, o da 48 saatte 1000 star almış.

Ekşi Sözlük’te bile entry’leri var, millet Karpathy’nin “Software 3.0” konseptini tartışıyor. Software 1.0 insanın yazdığı kod, Software 2.0 sinir ağlarının öğrendiği ağırlıklar, Software 3.0 da insanın doğal dilde yazdığı yönergeler, yani program.md. İlginç bir çerçeve.

Karpathy Ne Hedefliyor?

Adam Twitter’da bir tweet atmış, diyor ki, “autoresearch’ün bir sonraki adımı, ajanlar için asenkron olarak devasa ölçekte iş birliği yapılabilir olması lazım. SETI@home gibi düşünün. Amaç tek bir doktora öğrencisini taklit etmek değil, bir araştırmacı topluluğunu taklit etmek.”

Bu bana şunu düşündürdü. Belki gelecekte ML araştırması, binlerce ajanın paralel olarak farklı hipotezleri test ettiği, başarılı sonuçları birbirleriyle paylaştığı devasa bir dağıtık sistem olacak. Her ajanın 5 dakikalık deneyleri, toplamda milyonlarca deney-saatine karşılık gelecek.

Şimdilik tabii bu bir vizyon. Ama Karpathy’nin track record’ına bakarsak, adam söylediğini yapıyor genelde.

Denemek İsterseniz

Elinizde NVIDIA GPU varsa kurulumu çok basit:

# uv kur (Python paket yöneticisi)
curl -LsSf https://astral.sh/uv/install.sh | sh

# Repo'yu klonla
git clone https://github.com/karpathy/autoresearch.git
cd autoresearch

# Bağımlılıkları kur
uv sync

# Veriyi hazırla (bir kerelik, ~2 dk)
uv run prepare.py

# Tek bir deney çalıştır (~5 dk)
uv run train.py

Sonra kodlama ajanınıza (Claude Code, Cursor, Copilot ne kullanıyorsanız) diyorsunuz ki, “program.md’yi oku ve bir deney başlat.” Geri kalanı o hallediyor.

Deney başına maliyet kiralık GPU’da 0.20 dolar civarı. Apple Silicon kullanıyorsanız topluluk fork’larına bakmanızı öneririm, MLX versiyonu oldukça stabil görünüyor.

Daha küçük GPU’nuz varsa veya sadece denemek istiyorsanız, Karpathy TinyStories dataset’ini öneriyor, daha dar bir scope’ta küçük modellerle de anlamlı sonuçlar alabiliyorsunuz.

Bu projeyi inceledikten sonra aklımda kalan şey şu oldu, yapay zeka sadece “daha büyük model” yarışı değil. Belki de asıl devrim, araştırma sürecinin kendisinin nasıl yapıldığında. Karpathy 630 satır kodla bunu gösterdi.

Ve bir şey daha, adam bu projeyi MIT lisansıyla açık kaynak yaptı. Yani alın, deneyin, kendi alanınıza uyarlayın. ML olmak zorunda değil. Herhangi bir “dene ve ölç” döngüsü olan problem için bu pattern uygulanabilir.

Bakalım 6 ay sonra bu yazıya dönüp baktığımda ne değişmiş olacak.