Sessi 16 — Review & Ujian Akhir Semester (UAS)

Sesi terakhir ini merangkum seluruh pembelajaran Sessi 1–15 serta menampilkan format dan kisi-kisi UAS untuk mengevaluasi pemahaman konseptual dan praktik mahasiswa.

Tujuan: Mahasiswa dapat memahami hubungan antar topik (pipeline NLP), mengaitkan teori dan implementasi, serta menerapkan etika AI dalam konteks praktikal.

1) Ringkasan Materi Sessi 1–15

Sessi	Topik Inti	Kompetensi Kunci
1–3	Text preprocessing & NLP pipeline	Tokenisasi, stopword, stemming, lemmatization, normalisasi.
4	TF–IDF & n‑gram	Representasi sparse & statistik kata.
5	Cosine similarity & search engine mini	Pemahaman jarak vektor & evaluasi retrieval.
6–7	KNN & Regresi untuk klasifikasi	Model dasar supervised learning untuk teks.
8	UTS & review	Integrasi pipeline & evaluasi mid.
9	SVM	Margin, kernel linear/RBF, evaluasi F1/ROC.
10	Sentiment analysis	Perbandingan TF–IDF vs Word2Vec dense vector.
11	Clustering	K‑Means, DBSCAN, evaluasi Silhouette/ARI.
12	Embedding lanjutan	fastText, Doc2Vec, Semantic Search.
13	Generative NLP	n‑gram LM, LSTM generator, overview LLM.
14	AI Ethics	Bias, fairness, explainability, privacy.
15	Final project	Blueprint, rubrik, checklist evaluasi.

2) Format & Ketentuan UAS

UAS terdiri dari dua bagian: Teori (40%) dan Praktik (60%).
Durasi total: 120 menit.
Teori dilaksanakan secara tertulis (pilihan ganda + uraian singkat).
Praktik dilakukan melalui notebook Google Colab (dengan dataset sederhana).
Mahasiswa wajib mengunggah file .ipynb dan hasil .pdf ke LMS.

3) Kisi‑Kisi UAS

Kompetensi	Indikator Soal	Bobot
Preprocessing	Tokenisasi, stopword, stemming, normalisasi teks.	10%
Representasi	TF–IDF, Word2Vec, Doc2Vec, cosine similarity.	15%
Model klasifikasi	KNN, LogReg, SVM (konsep & implementasi).	15%
Evaluasi	F1, AP, ROC‑AUC, confusion matrix, interpretasi.	10%
Clustering & embedding	K‑Means/DBSCAN, LSA, evaluasi Silhouette.	10%
Generatif	n‑gram LM, LSTM dasar, konsep LLM.	10%
Etika & fairness	Bias, fairness metrics, explainability, privacy.	10%
Analisis kasus	Interpretasi hasil eksperimen, rekomendasi mitigasi.	20%

4) Contoh Soal Teori

Jelaskan perbedaan antara stemming dan lemmatization dalam konteks bahasa alami.
Apa makna nilai TF–IDF yang tinggi untuk sebuah kata dalam dokumen?
Jelaskan fungsi kernel dalam algoritma SVM dan beri contoh kasus penggunaannya pada teks.
Bagaimana peran temperature dalam proses generasi teks menggunakan LSTM?
Apa yang dimaksud dengan Demographic Parity dan bagaimana mengukurnya?

5) Contoh Soal Praktik (Google Colab)

# 1. Load dataset dan lakukan praproses dasar
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer

url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/Sentiment%20Analysis%20Dataset.csv'
df = pd.read_csv(url, nrows=5000)[['SentimentText','Sentiment']]
X_train, X_test, y_train, y_test = train_test_split(df['SentimentText'], df['Sentiment'], test_size=0.25, random_state=42)

# 2. TF–IDF + Logistic Regression
from sklearn.linear_model import LogisticRegression
vec = TfidfVectorizer(ngram_range=(1,2), min_df=3, max_df=0.9)
Xtr = vec.fit_transform(X_train); Xte = vec.transform(X_test)
clf = LogisticRegression(max_iter=300).fit(Xtr, y_train)

# 3. Evaluasi
from sklearn.metrics import classification_report
print(classification_report(y_test, clf.predict(Xte)))

# 4. Analisis 5 fitur positif dan negatif teratas
feat = vec.get_feature_names_out()
coef = clf.coef_.ravel()
print('Top positif:', [feat[i] for i in coef.argsort()[-5:]])
print('Top negatif:', [feat[i] for i in coef.argsort()[:5]])

6) Studi Kasus UAS (Essay)

Analisis berikut diberikan sebagai studi kasus:

“Sebuah model analisis sentimen pada ulasan toko online menunjukkan akurasi tinggi (92%), tetapi dalam audit fairness ditemukan bahwa TPR untuk kelompok A (40%) jauh di bawah kelompok B (75%).”

Jelaskan mengapa kondisi ini berpotensi berbahaya secara etika.
Usulkan 2 metode mitigasi yang dapat dilakukan untuk memperbaiki kesenjangan fairness tersebut.
Bagaimana Anda mengevaluasi ulang performa model setelah mitigasi dilakukan?

7) Rubrik Penilaian UAS

Komponen	Deskripsi	Bobot
Konseptual	Ketepatan teori & pemahaman konsep (preprocessing, model, etika).	30%
Implementasi	Kode Colab berjalan tanpa error, hasil evaluasi akurat.	40%
Analisis	Kemampuan interpretasi hasil & rekomendasi perbaikan.	20%
Presentasi	Kejelasan penulisan & visualisasi (grafik, tabel).	10%