Eğitim Müfredatlarının 21. Yüzyıl Becerileri Açısından Değerlendirilmesi için Bir Makine Öğrenimi Çerçevesi

Arş. Gör. Fatih DEMİR
Karadeniz Teknik Üniversitesi
[email protected]

Eğitim Müfredatlarının 21. Yüzyıl Becerileri Açısından Değerlendirilmesi için Bir Makine Öğrenimi Çerçevesi: Bir Yöntem Önerisi ve Olabilirlik Analizi

Küresel ekonomi ve iş gücü piyasaları, 21. yüzyıl becerileri olarak bilinen eleştirel düşünme, yaratıcılık ve işbirliği gibi üst düzey yetkinliklere giderek daha fazla talep göstermektedir (WEF, 2023; OECD, 2018). Bu talebe yanıt olarak, dünya çapındaki eğitim otoriteleri, ulusal müfredat programlarını bu becerileri kapsayacak şekilde reforme etme taahhüdünde bulunmuşlardır. Ancak, politika beyanları ile bu niyetlerin fiili müfredat dokümanlarına (ders planları, öğrenim çıktıları) ne ölçüde yansıdığı arasındaki boşluğu analiz etmek, mevcut yöntemlerle zorluğunu korumaktadır. Müfredatların uzman panelleri tarafından manuel olarak incelenmesi, doğası gereği zaman alıcı, maliyetli, öznel ve büyük ölçekli analizler için ölçeklenebilir değildir. Bu durum, politika yapıcıların reformların etkisini nicel olarak izlemesini engellemektedir.

Bu makale, bu metodolojik boşluğu doldurmak amacıyla, Doğal Dil İşleme (NLP) ve Makine Öğrenimi (ML) tekniklerini temel alan bir kavramsal çerçeve (conceptual framework) ve yöntem önerisi sunmaktadır. Ampirik bir modelin sonuçlarını sunmak yerine, bu çalışma, eğitim müfredatlarının 21. yüzyıl becerileri açısından büyük ölçekte ve otomatik olarak değerlendirilmesini sağlayacak bir sistemin

Gerekliliğini savunmayı,
Teknik ve pedagojik yol haritasını detaylandırmayı ve
Olabilirliğini (feasibility) analiz etmeyi amaçlamaktadır.

Önerilen metodolojik çerçeve, iki ana aşamaya dayanmaktadır.

Birinci aşama, “altın standart” (ground truth) bir veri setinin oluşturulmasıdır. Bu, müfredat metinlerindeki “analiz birimlerinin” (örn: öğrenim kazanımları) eğitim uzmanları tarafından “Eleştirel Düşünme”, “Yaratıcılık”, “İşbirliği” veya “Diğer” olarak etiketlenmesini ve etiketleyici-arası güvenilirliğin (örn: Krippendorff’s Alpha) hesaplanmasını gerektiren titiz bir süreci tanımlar.
İkinci aşama, bu etiketli veriyi kullanarak bir metin sınıflandırma modelinin geliştirilmesidir.

Bu kapsamda, metnin bağlamsal nüanslarını yakalamak için BERT (Devlin vd., 2019) gibi Transformer tabanlı mimarilerin “ince ayarlanması” (fine-tuning) ve performansının F1-Score gibi metriklerle değerlendirilmesi önerilmektedir.

Makale, Bloom Taksonomisi’nin otomatik sınıflandırılmasındaki mevcut akademik başarıları (Örn: Moreno-Marcos vd., 2020), önerilen çerçevenin teknik olabilirliğinin bir kanıtı olarak sunmaktadır. Bununla birlikte, bu yaklaşımın önündeki “etiketleme darboğazı” (annotation bottleneck) ve modelin “yazılı müfredatı” (intended curriculum) ölçtüğü, “uygulanan müfredatı” (enacted curriculum) ölçemediği gerçeğini içeren “yapı geçerliliği” (construct validity) gibi temel zorluklar da derinlemesine tartışılmaktadır.

Bu çalışma, 21. yüzyıl becerileri gibi nitel bir eğitim problemini, Eğitimsel Veri Madenciliği (EDM) alanının veri güdümlü ve ölçeklenebilir dünyasına taşımak için somut bir yol haritası sunarak literatüre katkıda bulunmaktadır. Önerilen sistem, başarıyla uygulandığı takdirde, eğitim politikası yapıcılarına reformları izlemek için nicel bir araç, müfredat geliştiricilere ise programlarındaki beceri boşluklarını tespit etmek için bir “otomatik denetim” mekanizması sunma potansiyeline sahiptir.

Anahtar Kelimeler: 21. Yüzyıl Becerileri, Müfredat Analizi, Doğal Dil İşleme (NLP), Makine Öğrenimi, Metin Sınıflandırma, BERT, Eleştirel Düşünme, Yaratıcılık, Kavramsal Çerçeve

1. GİRİŞ

İçinde bulunduğumuz 21. yüzyıl; dijitalleşme, otomasyon, yapay zekâ ve küreselleşmenin yön verdiği, benzeri görülmemiş bir sosyo-ekonomik dönüşüm çağıdır. Bu yeni çağda, bireylerin ve toplumların başarılı olması için gereken yetkinlikler de köklü bir değişim göstermiştir. Dünya Ekonomik Forumu (WEF) tarafından yayımlanan “İşlerin Geleceği” (Future of Jobs) raporları, geleneksel, rutin görevlerin otomasyona devredilmesiyle birlikte “Analitik Düşünme”, “Yaratıcılık” ve “Problem Çözme” gibi becerilerin iş gücü piyasasında en çok talep edilen yetkinlikler haline geldiğini tutarlı bir şekilde vurgulamaktadır (WEF, 2023).

Eğitim literatüründe bu yetkinlikler, genellikle Partnership for 21st Century Learning (P21) tarafından popülerleştirilen ve “4C” (Critical Thinking, Creativity, Communication, Collaboration – Eleştirel Düşünme, Yaratıcılık, İletişim ve İşbirliği) olarak kodlanan 21. yüzyıl becerileri çerçevesi altında toplanmaktadır (P21, 2019).

Bu küresel eğilim, dünya genelindeki eğitim sistemleri üzerinde, müfredatlarını yeniden gözden geçirmeleri ve öğrencileri sadece temel akademik bilgiyle değil, aynı zamanda bu üst düzey becerilerle donatmaları yönünde ciddi bir baskı oluşturmaktadır. Nitekim birçok ulusal eğitim otoritesi, eğitim reformlarında ve politika belgelerinde 21. yüzyıl becerilerinin müfredata entegre edilmesini bir öncelik olarak belirlemiştir (OECD, 2018). Ancak, eğitim reformları literatüründe sıklıkla vurgulandığı gibi, politika beyanları (policy) ile bu politikaların fiili uygulamaya dönüştüğü müfredat dokümanları (practice) arasında genellikle belirgin bir uçurum bulunmaktadır (Fullan, 2013). Eğitim politikalarının etkinliğini değerlendirebilmek ve gerekli iyileştirmeleri yapabilmek için, mevcut müfredatların (ders planları, öğrenim çıktıları, içerik tanımları) bu modern becerileri gerçekten ne ölçüde yansıttığını ve vurguladığını bilmek kritik bir öneme sahiptir.

Geleneksel olarak müfredat analizi ve değerlendirmesi, eğitim uzmanları veya akademisyen panelleri tarafından yürütülen nitel içerik analizi süreçlerine dayanmaktadır (Ornstein & Hunkins, 2018). Bu manuel yöntemler, metnin derinlemesine ve bağlamsal bir analizini sunabilse de, ciddi sınırlılıklara sahiptir:

Son derece zaman alıcı ve emek yoğundur;
Değerlendirmeyi yapan uzmanın bireysel yorumlarına bağlı olarak öznellik (subjectivity) barındırabilir ve
Büyük ölçekli (örn: bir ülkenin tüm ulusal müfredatı veya bir üniversitenin binlerce ders izlencesi) ve sürekli (her yıl güncellenen) analizler için ölçeklenebilir (scalable) değildir.

Bu durum, müfredatların güncel ihtiyaçlara ne hızda adapte olduğuna dair gerçek zamanlı ve nicel veriye dayalı bir anlayış geliştirmemizi engellemektedir.

Son yıllarda, Yapay Zekâ (AI), özellikle Doğal Dil İşleme (NLP) ve Makine Öğrenimi (ML) alanlarındaki gelişmeler, eğitim metinlerinin büyük ölçekte ve otomatik olarak analizi için yeni ufuklar açmıştır. Özellikle, öğrenme hedeflerinin veya sınav sorularının, bilişsel karmaşıklığı ölçen Bloom Taksonomisi’ne (örn: Anlama, Uygulama, Analiz) göre otomatik olarak sınıflandırılması üzerine başarılı akademik çalışmalar yürütülmüştür (Örn: Moreno-Marcos vd., 2020; Shamsuddin & Yusof, 2021). Bu çalışmalar, NLP modellerinin (özellikle Transformer tabanlı BERT gibi mimarilerin), eğitim metinlerindeki pedagojik niyeti ve bilişsel karmaşıklık düzeyini yüksek bir doğrulukla tespit edebildiğini kanıtlamıştır. Bu başarı, benzer tekniklerin 21. yüzyıl becerilerini analiz etmek için de uyarlanabileceğine dair güçlü bir kanıt sunmaktadır.

Ancak, literatürdeki bu ilerlemelere rağmen, Bloom Taksonomisi’nin ötesine geçerek, doğrudan “Eleştirel Düşünme”, “Yaratıcılık” ve “İşbirliği” gibi daha karmaşık, çok boyutlu ve bağlamsal 21. yüzyıl becerilerini müfredat metinleri üzerinden tespit edebilecek bütüncül bir otomatik analiz çerçevesi henüz mevcut değildir. Bu makale, bu boşluğu doldurmaya yönelik bir “kavramsal inceleme” (conceptual review) ve “yöntem önerisi” çalışmasıdır. Ampirik bir model sunmak yerine, bu makalenin temel amacı;

Eğitim müfredatlarının 21. yüzyıl becerileri açısından otomatik olarak değerlendirilmesinin gerekliliğini ve potansiyelini tartışmak,
Bu tür bir analizi gerçekleştirmek için izlenmesi gereken detaylı bir metodolojik çerçeve (veri toplama, etiketleme, modelleme) önermek ve
Bu çerçevenin uygulanabilirliğini (feasibility) ve önündeki temel zorlukları (örn: etiketli veri seti oluşturma, yapı geçerliliği) analiz etmektir.

Bu çalışma ile alandaki araştırmacılara ve politika yapıcılara, müfredat analizinde veri güdümlü yaklaşımlara geçiş için bir yol haritası sunulması hedeflenmektedir.

2. Kavramsal Arka Plan ve Literatür Taraması

Önerilen metodolojik çerçevenin temelini ve gerekliliğini ortaya koymak için, bu bölüm iki ana eksende ilerleyecektir: Birincisi, analiz edilmek istenen 21. yüzyıl becerilerinin (Eleştirel Düşünme, Yaratıcılık, İşbirliği) akademik tanımları ve bu soyut kavramların müfredat metinlerindeki gözlemlenebilir göstergeleri incelenecektir. İkincisi, eğitim metinlerinin analizi için mevcut Doğal Dil İşleme (NLP) ve Makine Öğrenimi (ML) uygulamaları, özellikle de Bloom Taksonomisi sınıflandırmasındaki başarılar ve bu çalışmaların önerdiğimiz çerçeve için bir “olabilirlik kanıtı” (proof of feasibility) olarak nasıl hizmet ettiği tartışılacaktır.

2.1. 21. Yüzyıl Becerilerinin Metin Tabanlı Göstergeleri

Bir makine öğrenimi modelinin müfredat metinlerini sınıflandırabilmesi için, ölçülmek istenen soyut kavramların (constructs) metin içinde somut ve tespit edilebilir göstergelere (textual indicators) dönüştürülmesi gerekmektedir.

Eleştirel Düşünme (Critical Thinking): Eğitim literatüründeki en köklü becerilerden biri olan eleştirel düşünme, basitçe olumsuz eleştiri değil, “neye inanılacağına veya ne yapılacağına odaklanan makul ve yansıtıcı düşünme” olarak tanımlanır (Ennis, 1985, s. 45). Bu becerinin metin tabanlı analiz için daha operasyonel bir tanımı, Facione’nin (1990) uzman görüşlerine dayalı Delphi Raporu’nda bulunmaktadır.

Facione, eleştirel düşünmeyi altı temel bilişsel beceriye ayırır: Yorumlama (interpretation), analiz (analysis), değerlendirme (evaluation), çıkarım (inference), açıklama (explanation) ve öz-düzenleme (self-regulation). Önerdiğimiz çerçeve için bu tanım kritik bir öneme sahiptir; zira bir öğrenim çıktısı metninde yer alan “karşılaştırır”, “analiz eder”, “argümanları değerlendirir”, “sonuç çıkarır” veya “kanıtları sorgular” gibi fiiller, eleştirel düşünme becerisinin hedeflendiğine dair güçlü metinsel göstergeler olarak kabul edilebilir.

Yaratıcılık (Creativity): Yaratıcılık, genellikle “orijinal” (original) ve “etkili” (effective) veya “göreve uygun” (task-appropriate) bir ürünün ortaya çıkarılması süreci olarak tanımlanır (Plucker, Beghetto, & Dow, 2004). Müfredat bağlamında bu, sadece sanatsal üretimle sınırlı değildir; aynı zamanda bilimsel hipotez kurmayı, mühendislikte yeni bir çözüm tasarlamayı veya sosyal bilimlerde alternatif bir model önermeyi de kapsar. Guilford’un (1967) “ıraksak düşünme” (divergent thinking) kavramı, bu becerinin müfredattaki izlerini sürmek için önemlidir. Öğrenim çıktılarında geçen “tasarlar”, “hipotez geliştirir”, “özgün bir… üretir”, “alternatif çözümler önerir” veya “yeni bir… sentezler” gibi eylemler, yaratıcılık becerisini hedefleyen pedagojik niyetin doğrudan göstergeleridir.

İşbirliği (Collaboration): Eleştirel düşünme ve yaratıcılığın aksine, işbirliği bireysel bir bilişsel beceriden ziyade, sosyal ve etkileşimsel bir süreçtir (Dillenbourg, 1999). Bu durum, onun metin üzerinden tespitini daha zorlu hale getirir. İşbirliği, “ortak bir sorunu çözmek veya ortak bir anlayış oluşturmak için eşgüdümlü, senkronize bir faaliyet” olarak tanımlanabilir (Roschelle & Teasley, 1995). Bir müfredat metninde (örn: ders izlencesi), bu beceri doğrudan bilişsel bir fiil yerine, bir aktivite tanımı veya değerlendirme yöntemi olarak ortaya çıkar. “Grup projesi”, “ekip çalışması”, “akran değerlendirmesi” (peer review), “ortak bir sunum hazırlama” veya “takım içi sorumluluk alma” gibi anahtar ifadeler, modelin işbirliği becerisini tespit etmesi için eğitilebileceği temel metinsel özelliklerdir.

2.3. Araştırma Boşluğu: Bloom’dan 21. Yüzyıl Becerilerine Geçiş

Bloom Taksonomisi üzerine yapılan bu başarılı çalışmalar, önerdiğimiz çerçevenin teknik olarak mümkün (technically feasible) olduğunun en güçlü kanıtıdır. Eğer bir ML modeli “Analiz” veya “Yaratma” seviyesindeki bilişsel hedefi tanıyabiliyorsa, bu modeli “Eleştirel Düşünme” veya “Yaratıcılık” becerilerini tanımak için eğitmek de mümkündür.
Ancak, bu geçiş doğrudan veya basit değildir ve mevcut literatürdeki temel boşluğu oluşturur. Boşluk iki yönlüdür:

Kavramsal Uyumsuzluk: Bloom’un “Analiz” ve “Değerlendirme” seviyeleri “Eleştirel Düşünme” ile, “Yaratma” seviyesi ise “Yaratıcılık” ile güçlü bir şekilde örtüşse de (P21, 2019), bu birimler arasında tam bir 1:1 eşleşme yoktur. 21. yüzyıl becerileri, Bloom’un hiyerarşik bilişsel merdiveninden daha geniş ve farklı bağlamları (örn: sosyal, duygusal) içerebilir.
Kapsam Eksikliği (En Önemli Boşluk): Bloom Taksonomisi, doğası gereği bireysel bilişsel süreçlere odaklanır. “İşbirliği” (Collaboration) veya “İletişim” (Communication) gibi temel 21. yüzyıl sosyal becerileri için bu taksonomide bir karşılık bulunmamaktadır.

Dolayısıyla, Bloom sınıflandırması için geliştirilen yöntemler (örn: BERT kullanımı, metin ön işleme) bizim için değerli bir temel sağlarken, 21. yüzyıl becerilerinin tamamını (özellikle sosyal olanları) kapsayacak yeni bir kavramsal çerçeveye ve bu çerçeveye göre özel olarak etiketlenmiş yeni bir veri setine (corpus) ihtiyaç duyulmaktadır. Bu makale, tam olarak bu yeni çerçevenin nasıl tasarlanması, oluşturulması ve uygulanması gerektiğini tartışmayı amaçlamaktadır.

3. Önerilen Yöntemsel Çerçeve (Proposed Methodological Framework)

Bu bölümde, eğitim müfredat dokümanlarındaki (ulusal müfredat programları, ders izlenceleri vb.) metinleri 21. yüzyıl becerileri (Eleştirel Düşünme, Yaratıcılık, İşbirliği) açısından otomatik olarak sınıflandıracak bir Makine Öğrenimi (ML) sisteminin geliştirilmesi için izlenmesi gereken çok aşamalı bir metodolojik çerçeve önerilmektedir. Bu çerçeve, Eğitimsel Veri Madenciliği (Educational Data Mining – EDM) ve Doğal Dil İşleme (NLP) alanlarındaki yerleşik en iyi uygulamalara dayanmaktadır.

3.1. Aşama 1: Veri Seti Geliştirme ve Etiketleme (“Ground Truth” Oluşturma)

Herhangi bir denetimli makine öğrenimi modelinin temel taşı, yüksek kaliteli, uzman etiketli bir veri setidir (“ground truth”). Literatür Taraması bölümünde belirtildiği gibi, bu spesifik problem (E/Y/İ sınıflandırması) için hazır bir veri seti bulunmadığından, bu çerçevenin ilk adımı bu veri setinin titizlikle oluşturulmasıdır.

3.1.1. Veri Kaynağı (Corpus Collection) ve Analiz Birimi (Unit of Analysis)

İlk olarak, analiz edilecek metin külliyatının (corpus) tanımlanması gerekir. Bu külliyat, ulusal eğitim otoriteleri (örn: Talim Terbiye Kurulu) tarafından yayınlanan resmi müfredat programları veya üniversiteler tarafından sağlanan ders izlencelerinden (syllabi) oluşmalıdır. Bu dokümanlar, eğitimin “amaçlanan müfredatını” (intended curriculum) temsil eder (Ornstein & Hunkins, 2018).

Analiz birimi (unit of analysis) olarak, tüm paragraf veya doküman yerine, pedagojik niyeti en açık şekilde ifade eden “öğrenim çıktıları” (learning objectives) veya “kazanımlar” seçilmelidir. Bu yaklaşım, Bloom Taksonomisi sınıflandırması üzerine yapılan başarılı NLP çalışmaları ile tutarlıdır (örn: Moreno-Marcos vd., 2020).

3.1.2. Etiketleme Rubriği (Annotation Rubric) Geliştirme

Bu, çalışmanın kavramsal geçerliliği için en kritik adımdır. Bölüm 2.1’de tartışılan teorik çerçevelere (örn: Facione, 1990; Plucker vd., 2004) dayalı olarak, dört kategorili bir etiketleme rubriği (derecelendirme anahtarı) geliştirilmelidir:

Eleştirel Düşünme: Analiz, değerlendirme, sorgulama, argüman geliştirme eylemlerini içeren çıktılar.
Yaratıcılık: Tasarlama, hipotez kurma, sentezleme, özgün bir ürün ortaya koyma eylemlerini içeren çıktılar.
İşbirliği: Grup çalışması, akran değerlendirmesi, ortak proje, ekip içi iletişim gibi sosyal etkileşimleri belirten çıktılar.
Diğer: Yukarıdaki becerileri hedeflemeyen, daha çok alt düzey bilişsel eylemleri (hatırlama, anlama, uygulama) içeren çıktılar.

3.1.3. Etiketleme Süreci ve Güvenilirlik (Annotation and Reliability)

Veri seti, eğitim bilimleri alanında en az iki, tercihen üç uzman (annotator) tarafından bağımsız olarak etiketlenmelidir. Sınıflandırmadaki öznelliği en aza indirmek ve etiket kalitesini güvence altına almak için etiketleyiciler arası güvenilirlik (Inter-Rater Reliability – IRR) mutlaka hesaplanmalıdır. Bu hesaplama için yaygın olarak kabul gören istatistiksel ölçütler olan Cohen’s Kappa (K) (çift etiketleyici için) veya Krippendorff’s Alpha (α) (ikiden fazla etiketleyici için) kullanılmalıdır (Hayes & Krippendorff, 2007). Literatürde, α ≥ 0.70 değeri genellikle “yeterli” veya “güçlü” bir güvenilirlik seviyesi olarak kabul edilir. Güvenilirliğin düşük çıkması durumunda, rubrik (3.1.2) netleştirilmeli ve etiketleme süreci tekrarlanmalıdır.

3.2. Aşama 2: Makine Öğrenimi Modeli Geliştirme ve Değerlendirme

Yüksek güvenilirliğe sahip etiketli veri seti (“altın standart”) oluşturulduktan sonra, bu veriyi öğrenerek yeni müfredat metinlerini otomatik olarak sınıflandıracak model geliştirilebilir.

3.2.1. Metin Ön İşleme ve Öznitelik Çıkarımı (Pre-processing and Feature Extraction)

Metin verisi, modellerin işleyebileceği sayısal bir formata dönüştürülmelidir.

Temel (Baseline) Yöntem: Metinler küçük harfe çevrilmeli, noktalama işaretleri ve “durdurma kelimeleri” (stop-words) kaldırılmalı ve kök/gövde (stemming/lemmatization) işlemi uygulanmalıdır. Ardından, metinler TF-IDF (Term Frequency-Inverse Document Frequency) vektörlerine dönüştürülmelidir (Salton & Buckley, 1988).
İleri Düzey (Önerilen) Yöntem: Kelimelerin bağlamsal anlamlarını yakalayabilen, önceden eğitilmiş (pre-trained) dil modelleri kullanılmalıdır. BERT (Devlin vd., 2019) ve türevleri (örn: Türkçe için BERTurk), metnin nüanslarını anlamada TF-IDF’ye göre çok daha üstündür. Bu yöntemde, her bir öğrenim çıktısı metni, BERT tarafından bağlamsal bir vektör (contextual embedding) olarak temsil edilir.

3.2.2. Model Seçimi ve Sınıflandırma (Model Selection and Classification)

Bu problem, bir “çoklu sınıf metin sınıflandırma” (multi-class text classification) problemidir.

Temel Modeller (Baseline): TF-IDF öznitelikleri ile birlikte Lojistik Regresyon (Logistic Regression) ve özellikle metin sınıflandırmada güçlü performans gösteren Destek Vektör Makineleri (Support Vector Machines – SVM) (Cortes & Vapnik, 1995) gibi geleneksel ML modelleri denenmelidir.
İleri Düzey Model (SOTA – State-of-the-Art): BERT modelinin (3.2.1) üzerine basit bir sınıflandırma katmanı (classification layer) eklenerek, tüm modelin etiketli veri seti üzerinde “ince ayarlanması” (fine-tuning) önerilmektedir. Bu yaklaşım, Bloom Taksonomisi sınıflandırması gibi benzer eğitimsel görevlerde en yüksek başarıyı göstermiştir (Moreno-Marcos vd., 2020).

3.2.3. Model Değerlendirme Metrikleri (Model Evaluation)

Etiketli veri seti tipik olarak Eğitim (%70), Doğrulama (%15) ve Test (%15) olarak ayrılmalıdır. Modelin performansı, daha önce hiç görmediği “Test Seti” üzerinde ölçülmelidir.

Sınıf dağılımının dengesiz olması (örn: “Diğer” sınıfının “Yaratıcılık” sınıfından çok daha fazla olması) kuvvetle muhtemeldir. Bu nedenle, genel doğruluk (accuracy) metriği yanıltıcı olabilir. Bunun yerine, her bir sınıf (E/Y/İ/Diğer) için Precision (Kesinlik), Recall (Duyarlılık) ve bu ikisinin harmonik ortalaması olan F1-Score metriklerinin raporlanması şarttır (Sokolova & Lapalme, 2009). Modelin hangi sınıfları birbiriyle karıştırdığını görmek için bir Hata Matrisi (Confusion Matrix) analizi de yapılmalıdır.

4. Olabilirlik Analizi, Potansiyel Zorluklar ve Tartışma

Bu makale, 21. yüzyıl becerilerinin müfredat metinleri üzerinden otomatik tespiti için ampirik bir model sunmak yerine, bu modeli geliştirmeye yönelik bir metodolojik çerçeve önermektedir. Bu bölümde, Bölüm 3’te sunulan çerçevenin teknik olabilirliği (feasibility), bu süreçte karşılaşılması kaçınılmaz olan temel zorluklar ve böyle bir sistemin başarıyla uygulanmasının eğitim alanı için doğuracağı potansiyel sonuçlar (implikasyonlar) tartışılmaktadır.

4.1. Teknik Olabilirlik ve “Kanıt” Olarak Bloom Çalışmaları

Önerdiğimiz çerçevenin teknik olarak uygulanabilirliğinin en güçlü kanıtı, Bölüm 2.2’de detaylandırılan ve Bloom Taksonomisi’nin otomatik sınıflandırılması üzerine yürütülen başarılı çalışmalardır. Moreno-Marcos vd. (2020) ve Shamsuddin & Yusof (2021) gibi araştırmalar, BERT gibi Transformer tabanlı modellerin, eğitimsel metinlerdeki bilişsel karmaşıklık seviyelerini (örn: “Analiz”, “Değerlendirme”, “Yaratma”) yüksek bir doğrulukla ayırt edebildiğini göstermiştir.

Bloom’un üst düzey bilişsel seviyeleri ile 21. yüzyıl becerileri arasındaki güçlü kavramsal örtüşme (örn: “Analiz” → Eleştirel Düşünme; “Yaratma” → Yaratıcılık) göz önüne alındığında, bu başarılı modellerin, önerdiğimiz E/Y/İ (Eleştirel Düşünme/Yaratıcılık/İşbirliği) etiketlerine göre yeniden eğitilmesi (fine-tuning) halinde benzer bir başarı göstermesi kuvvetle muhtemeldir. Teknik açıdan bakıldığında, problem “çözülemez” değil, “çözülmesi için yeterli kaynak gerektiren” bir problemdir.

4.2. Temel Yöntemsel Zorluklar ve Sınırlılıklar

Bu sistemin hayata geçirilmesindeki asıl zorluk, teknik performanstan ziyade, pedagojik ve kavramsal temellerin sağlam atılmasındadır.

4.2.1. “Etiketleme Darboğazı” (The Annotation Bottleneck)

Önerilen denetimli (supervised) öğrenme yaklaşımı, Bölüm 3.1’de belirtildiği gibi, yüksek kaliteli, uzman etiketli bir “altın standart” veri setine (ground truth dataset) bağlıdır. Böyle bir veri setinin oluşturulması, projenin en maliyetli ve zaman alıcı “darboğazı” (bottleneck) olacaktır. Yeterli sayıda eğitim uzmanının işe koşulması, bu uzmanlar arasında tutarlı bir anlayış birliği sağlamak için etiketleme rubriğinin defalarca yinelenmesi ve Krippendorff’s Alpha (Krippendorff, 2011) gibi istatistiksel yöntemlerle yüksek bir etiketleyici-arası güvenilirliğin (IRR) kanıtlanması, bu çalışmanın başarısı için kritik öneme sahiptir.

4.2.2. “Yapı Geçerliliği” (Construct Validity) Sorunu: Neyi Ölçüyoruz?

Bu çerçevenin belki de en önemli felsefi zorluğu “yapı geçerliliği” ile ilgilidir. Modelin bir öğrenim çıktısını “Yaratıcılık” olarak etiketlemesi, o derste gerçekten yaratıcılığın öğretildiği veya öğrencilerin yaratıcı olduğu anlamına mı gelir?

Cevap, kaçınılmaz olarak “hayır”dır. Bu model, eğitimin “niyet edilen” veya “yazılı” müfredatını (intended curriculum or curriculum-as-written) analiz eder; sınıfta “uygulanan” müfredatı (enacted curriculum) veya “öğrenilen” müfredatı (learned curriculum) ölçemez (Ornstein & Hunkins, 2018). Bir müfredat belgesinde “eleştirel düşünme” vurgusunun yüksek çıkması, sadece politika yapıcıların niyetini gösterir; bu niyetin öğretmen tarafından nasıl uygulandığını veya öğrenci tarafından nasıl kazanıldığını göstermez. Bu sınırlılık, modelin üreteceği sonuçların yorumlanmasında mutlaka göz önünde bulundurulmalıdır.

4.2.3. “İşbirliği” Becerisinin Tespitindeki Zorluk

“Eleştirel Düşünme” ve “Yaratıcılık” genellikle “analiz et”, “tasarla” gibi spesifik bilişsel fiillerle temsil edilebilirken, “İşbirliği” doğası gereği sosyal ve süreç odaklı bir beceridir (Dillenbourg, 1999). Bu becerinin metindeki göstergeleri (örn: “grup projesi”, “akran değerlendirmesi”) fiillerden ziyade aktivite tanımlarıdır. Bu durum, “İşbirliği” sınıfının tespit edilmesini diğer iki bilişsel beceriye göre daha zorlu hale getirebilir ve modelin bu sınıf için daha düşük performans (örn: daha düşük F1-Score) göstermesi beklenebilir.

4.3. Potansiyel Katkılar ve Sonuçlar (Implications)

Bu zorluklara rağmen, önerilen çerçevenin başarıyla uygulanması durumunda eğitim alanı için devrim niteliğinde katkılar sunma potansiyeli vardır:

Politika Yapıcılar için: Eğitim otoriteleri, uyguladıkları müfredat reformlarının (örn: “Eğitimde 21. yüzyıl becerilerine geçiş”) belgelere ne düzeyde yansıdığını nicel olarak ve büyük ölçekte izleyebilirler. Model, bir “müfredat panosu” (curriculum dashboard) işlevi görerek politika ile uygulama arasındaki boşluğu görünür kılabilir.
Müfredat Geliştiriciler için: Üniversiteler veya okullar, kendi ders izlencelerini bu sisteme yükleyerek programlarının “beceri haritası”nı çıkarabilirler. Sistem, “İşletme bölümü müfredatınız ‘Eleştirel Düşünme’ konusunda güçlü, ancak ‘Yaratıcılık’ konusunda zayıf” gibi otomatik geri bildirimler sağlayabilir.
Akademik Araştırmacılar için: Bu araç, daha önce imkansız olan karşılaştırmalı analizlere olanak tanır. Örneğin, farklı ülkelerin matematik müfredatları 21. yüzyıl becerileri açısından karşılaştırılabilir veya bir disiplinin (örn: Tıp) müfredatının son 20 yılda beceri odaklılığının nasıl evrildiğine dair boylamsal çalışmalar yapılabilir.
Sonuç olarak, bu makalede önerilen metodolojik çerçeve, 21. yüzyıl becerilerinin müfredata entegrasyonu gibi “yumuşak” ve “nitel” bir eğitim problemini, “veri güdümlü”, “nicel” ve “ölçeklenebilir” bir alana taşımayı vadetmektedir.

5. Sonuç ve Gelecek Çalışmalar İçin Yönlendirmeler

Eğitim sistemleri, 21. yüzyılın ekonomik ve sosyal taleplerine yanıt verme baskısı altındayken, bu taleplerin merkezinde yer alan eleştirel düşünme, yaratıcılık ve işbirliği gibi becerilerin müfredata nasıl entegre edileceği sorunu, eğitim politikasının en kritik gündem maddesi olmaya devam etmektedir (OECD, 2018; WEF, 2023). Ancak bu makalenin giriş bölümünde de vurgulandığı gibi, politika niyetleri ile bu niyetlerin somutlaştığı müfredat dokümanları arasındaki uyumu büyük ölçekte, nesnel ve sürekli olarak analiz edebilecek metodolojik araçlardan yoksunuz. Geleneksel manuel içerik analizi yöntemleri (Ornstein & Hunkins, 2018), bu ölçek ve hız gereksinimini karşılamada yetersiz kalmaktadır.

Bu çalışma, söz konusu metodolojik boşluğu doldurmak amacıyla, Doğal Dil İşleme (NLP) ve Makine Öğrenimi (ML) tekniklerine dayalı bir kavramsal çerçeve ve yöntem önerisi sunmuştur. Makale boyunca savunulan temel tez; Bloom Taksonomisi’nin otomatik sınıflandırılmasındaki kanıtlanmış başarıların (örn: Moreno-Marcos vd., 2020), 21. yüzyıl becerileri gibi daha karmaşık ve çok boyutlu pedagojik yapıların analizi için de uyarlanabileceğidir. Bu makalede, bu uyarlamanın “eğer”i değil, “nasıl”ı tartışılmış; veri seti oluşturma (annotation), etiketleyici güvenilirliği (Krippendorff, 2011) ve BERT (Devlin vd., 2019) gibi bağlamsal modellerin kullanımı için spesifik bir yol haritası çizilmiştir.

Önerilen bu çerçevenin uygulanmasındaki en büyük zorluğun, teknik modellemeden ziyade, pedagojik olarak sağlam ve yüksek güvenilirliğe sahip bir “altın standart” (ground truth) veri setinin oluşturulmasındaki “etiketleme darboğazı” (annotation bottleneck) olduğu kabul edilmiştir. Ayrıca, böyle bir sistemin, doğası gereği eğitimin “yazılı müfredatını” (intended curriculum) ölçtüğü, “uygulanan” (enacted) veya “öğrenilen” (learned) müfredat hakkında doğrudan bir çıkarım yapamayacağı (Fullan, 2013) ve bu sınırlılığın bilinciyle kullanılması gerektiği vurgulanmıştır.

Bu sınırlılıklara rağmen, önerilen çerçevenin potansiyel katkıları, zorluklarından çok daha ağır basmaktadır. Başarıyla uygulandığı takdirde bu sistem;

Eğitim Politikası Yapıcılarına; müfredat reformlarının etkisini izleyebilecekleri nicel bir “gösterge paneli” (dashboard) sunacaktır.
Müfredat Tasarımcılarına; programlarındaki beceri eksikliklerini (örn: “Yaratıcılık” vurgusunun düşük olması) tespit edebilecekleri bir “otomatik denetim” (audit) aracı sağlayacaktır.
Akademik Araştırmacılara; farklı ülkelerin veya disiplinlerin müfredatlarını karşılaştıran, daha önce imkânsız olan büyük ölçekli ve boylamsal analizler yapma fırsatı tanıyacaktır.

Sonuç olarak, bu makale, 21. yüzyıl becerileri gibi “nitel” bir eğitim alanını, Eğitimsel Veri Madenciliği (Educational Data Mining) ve Öğrenme Analitiği (Learning Analytics) disiplinlerinin “nicel” ve “ölçeklenebilir” dünyasıyla birleştirmek için somut bir köprü önermektedir. Bu çalışma, bu alandaki araştırmacılara, eğitim bilimcilerle bilgisayar bilimcilerin disiplinlerarası işbirliğini gerektiren yeni ve acil bir araştırma alanı için bir “eylem çağrısı” (call to action) niteliğindedir.

KAYNAKÇA

Anderson, L. W., & Krathwohl, D. R. (Eds.). (2001). A taxonomy for learning, teaching, and assessing: A revision of Bloom’s taxonomy of educational objectives. Longman.

Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20(3), 273-297.

Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 4171-4186.

Dillenbourg, P. (1999). What do you mean by ‘collaborative learning’? In P. Dillenbourg (Ed.), Collaborative-learning: Cognitive and computational approaches (pp. 1-19). Elsevier.

Ennis, R. H. (1985). A logical basis for measuring critical thinking skills. Educational Leadership, 43(2), 44-48.

Facione, P. A. (1990). Critical thinking: A statement of expert consensus for purposes of educational assessment and instruction (The Delphi Report). American Philosophical Association.

Fullan, M. (2013). The new meaning of educational change (5th ed.). Teachers College Press.

Guilford, J. P. (1967). The nature of human intelligence. McGraw-Hill.

Hayes, A. F., & Krippendorff, K. (2007). Answering the call for a standard reliability measure for coding data. Communication Methods and Measures, 1(1), 77-89.

Krippendorff, K. (2011). Agreement and information in the reliability of coding. Communication Methods and Measures, 5(2), 93-112.

Moreno-Marcos, P. M., Alario-Hoyos, C., Muñoz-Merino, P. J., & Kloos, C. D. (2020). BERT-based approach for the automatic classification of learning objectives according to Bloom’s taxonomy. IEEE Access, 8, 184597-184610.

OECD (2018). The Future of Education and Skills: Education 2030. OECD Publishing.

Ornstein, A. C., & Hunkins, F. P. (2018). Curriculum: Foundations, principles, and issues (7th ed.). Pearson.

P21 (Partnership for 21st Century Learning). (2019). P21 Framework for 21st Century Learning. Battelle for Kids. http://static.battelleforkids.org/documents/p21/P21_Framework_Definitions_New_Logo_2019.pdf

Page, E. B. (1966). The imminence of… grading essays by computer. The Phi Delta Kappan, 47(5), 238-243.

Plucker, J. A., Beghetto, R. A., & Dow, G. T. (2004). Why isn’t creativity more important to educational psychologists? Potentials, pitfalls, and future directions in creativity research. Educational Psychologist, 39(2), 83-96.

Roschelle, J., & Teasley, S. D. (1995). The construction of shared knowledge in collaborative problem solving. In C. E. O’Malley (Ed.), Computer-supported collaborative learning (pp. 69-97). Springer-Verlag.

Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), 513-523.

Shamsuddin, N., & Yusof, M. A. M. (2021). Automatic classification of exam questions based on Bloom’s Taxonomy using machine learning. International Journal of Advanced Computer Science and Applications, 12(6).

Shermis, M. D., & Burstein, J. (Eds.). (2013). Handbook of automated essay evaluation: Current applications and new directions. Routledge.

Sokolova, M., & Lapalme, G. (2009). A systematic analysis of performance measures for classification tasks. Information Processing & Management, 45(4), 427-437.

Wen, M., Yang, D., & Rosé, C. P. (2014). Sentiment analysis in MOOC discussion forums: What does it tell us? Proceedings of the 7th International Conference on Educational Data Mining (EDM 2014).

World Economic Forum (WEF). (2023). The Future of Jobs Report 2023. WEF.