Sessi 16 — Review & Ujian Akhir Semester (UAS)
Sesi terakhir ini merangkum seluruh pembelajaran Sessi 1–15 serta menampilkan format dan kisi-kisi UAS untuk mengevaluasi pemahaman konseptual dan praktik mahasiswa.
Tujuan: Mahasiswa dapat memahami hubungan antar topik (pipeline NLP), mengaitkan teori dan implementasi, serta menerapkan etika AI dalam konteks praktikal.
1) Ringkasan Materi Sessi 1–15
| Sessi | Topik Inti | Kompetensi Kunci |
|---|---|---|
| 1–3 | Text preprocessing & NLP pipeline | Tokenisasi, stopword, stemming, lemmatization, normalisasi. |
| 4 | TF–IDF & n‑gram | Representasi sparse & statistik kata. |
| 5 | Cosine similarity & search engine mini | Pemahaman jarak vektor & evaluasi retrieval. |
| 6–7 | KNN & Regresi untuk klasifikasi | Model dasar supervised learning untuk teks. |
| 8 | UTS & review | Integrasi pipeline & evaluasi mid. |
| 9 | SVM | Margin, kernel linear/RBF, evaluasi F1/ROC. |
| 10 | Sentiment analysis | Perbandingan TF–IDF vs Word2Vec dense vector. |
| 11 | Clustering | K‑Means, DBSCAN, evaluasi Silhouette/ARI. |
| 12 | Embedding lanjutan | fastText, Doc2Vec, Semantic Search. |
| 13 | Generative NLP | n‑gram LM, LSTM generator, overview LLM. |
| 14 | AI Ethics | Bias, fairness, explainability, privacy. |
| 15 | Final project | Blueprint, rubrik, checklist evaluasi. |
2) Format & Ketentuan UAS
- UAS terdiri dari dua bagian: Teori (40%) dan Praktik (60%).
- Durasi total: 120 menit.
- Teori dilaksanakan secara tertulis (pilihan ganda + uraian singkat).
- Praktik dilakukan melalui notebook Google Colab (dengan dataset sederhana).
- Mahasiswa wajib mengunggah file
.ipynbdan hasil.pdfke LMS.
3) Kisi‑Kisi UAS
| Kompetensi | Indikator Soal | Bobot |
|---|---|---|
| Preprocessing | Tokenisasi, stopword, stemming, normalisasi teks. | 10% |
| Representasi | TF–IDF, Word2Vec, Doc2Vec, cosine similarity. | 15% |
| Model klasifikasi | KNN, LogReg, SVM (konsep & implementasi). | 15% |
| Evaluasi | F1, AP, ROC‑AUC, confusion matrix, interpretasi. | 10% |
| Clustering & embedding | K‑Means/DBSCAN, LSA, evaluasi Silhouette. | 10% |
| Generatif | n‑gram LM, LSTM dasar, konsep LLM. | 10% |
| Etika & fairness | Bias, fairness metrics, explainability, privacy. | 10% |
| Analisis kasus | Interpretasi hasil eksperimen, rekomendasi mitigasi. | 20% |
4) Contoh Soal Teori
- Jelaskan perbedaan antara stemming dan lemmatization dalam konteks bahasa alami.
- Apa makna nilai TF–IDF yang tinggi untuk sebuah kata dalam dokumen?
- Jelaskan fungsi kernel dalam algoritma SVM dan beri contoh kasus penggunaannya pada teks.
- Bagaimana peran temperature dalam proses generasi teks menggunakan LSTM?
- Apa yang dimaksud dengan Demographic Parity dan bagaimana mengukurnya?
5) Contoh Soal Praktik (Google Colab)
# 1. Load dataset dan lakukan praproses dasar
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/Sentiment%20Analysis%20Dataset.csv'
df = pd.read_csv(url, nrows=5000)[['SentimentText','Sentiment']]
X_train, X_test, y_train, y_test = train_test_split(df['SentimentText'], df['Sentiment'], test_size=0.25, random_state=42)
# 2. TF–IDF + Logistic Regression
from sklearn.linear_model import LogisticRegression
vec = TfidfVectorizer(ngram_range=(1,2), min_df=3, max_df=0.9)
Xtr = vec.fit_transform(X_train); Xte = vec.transform(X_test)
clf = LogisticRegression(max_iter=300).fit(Xtr, y_train)
# 3. Evaluasi
from sklearn.metrics import classification_report
print(classification_report(y_test, clf.predict(Xte)))
# 4. Analisis 5 fitur positif dan negatif teratas
feat = vec.get_feature_names_out()
coef = clf.coef_.ravel()
print('Top positif:', [feat[i] for i in coef.argsort()[-5:]])
print('Top negatif:', [feat[i] for i in coef.argsort()[:5]])
6) Studi Kasus UAS (Essay)
Analisis berikut diberikan sebagai studi kasus:
“Sebuah model analisis sentimen pada ulasan toko online menunjukkan akurasi tinggi (92%), tetapi dalam audit fairness ditemukan bahwa TPR untuk kelompok A (40%) jauh di bawah kelompok B (75%).”
- Jelaskan mengapa kondisi ini berpotensi berbahaya secara etika.
- Usulkan 2 metode mitigasi yang dapat dilakukan untuk memperbaiki kesenjangan fairness tersebut.
- Bagaimana Anda mengevaluasi ulang performa model setelah mitigasi dilakukan?
7) Rubrik Penilaian UAS
| Komponen | Deskripsi | Bobot |
|---|---|---|
| Konseptual | Ketepatan teori & pemahaman konsep (preprocessing, model, etika). | 30% |
| Implementasi | Kode Colab berjalan tanpa error, hasil evaluasi akurat. | 40% |
| Analisis | Kemampuan interpretasi hasil & rekomendasi perbaikan. | 20% |
| Presentasi | Kejelasan penulisan & visualisasi (grafik, tabel). | 10% |