Sessi 16 — Review & Ujian Akhir Semester (UAS)

Sesi terakhir ini merangkum seluruh pembelajaran Sessi 1–15 serta menampilkan format dan kisi-kisi UAS untuk mengevaluasi pemahaman konseptual dan praktik mahasiswa.

Tujuan: Mahasiswa dapat memahami hubungan antar topik (pipeline NLP), mengaitkan teori dan implementasi, serta menerapkan etika AI dalam konteks praktikal.

1) Ringkasan Materi Sessi 1–15

SessiTopik IntiKompetensi Kunci
1–3Text preprocessing & NLP pipelineTokenisasi, stopword, stemming, lemmatization, normalisasi.
4TF–IDF & n‑gramRepresentasi sparse & statistik kata.
5Cosine similarity & search engine miniPemahaman jarak vektor & evaluasi retrieval.
6–7KNN & Regresi untuk klasifikasiModel dasar supervised learning untuk teks.
8UTS & reviewIntegrasi pipeline & evaluasi mid.
9SVMMargin, kernel linear/RBF, evaluasi F1/ROC.
10Sentiment analysisPerbandingan TF–IDF vs Word2Vec dense vector.
11ClusteringK‑Means, DBSCAN, evaluasi Silhouette/ARI.
12Embedding lanjutanfastText, Doc2Vec, Semantic Search.
13Generative NLPn‑gram LM, LSTM generator, overview LLM.
14AI EthicsBias, fairness, explainability, privacy.
15Final projectBlueprint, rubrik, checklist evaluasi.

2) Format & Ketentuan UAS

3) Kisi‑Kisi UAS

KompetensiIndikator SoalBobot
PreprocessingTokenisasi, stopword, stemming, normalisasi teks.10%
RepresentasiTF–IDF, Word2Vec, Doc2Vec, cosine similarity.15%
Model klasifikasiKNN, LogReg, SVM (konsep & implementasi).15%
EvaluasiF1, AP, ROC‑AUC, confusion matrix, interpretasi.10%
Clustering & embeddingK‑Means/DBSCAN, LSA, evaluasi Silhouette.10%
Generatifn‑gram LM, LSTM dasar, konsep LLM.10%
Etika & fairnessBias, fairness metrics, explainability, privacy.10%
Analisis kasusInterpretasi hasil eksperimen, rekomendasi mitigasi.20%

4) Contoh Soal Teori

  1. Jelaskan perbedaan antara stemming dan lemmatization dalam konteks bahasa alami.
  2. Apa makna nilai TF–IDF yang tinggi untuk sebuah kata dalam dokumen?
  3. Jelaskan fungsi kernel dalam algoritma SVM dan beri contoh kasus penggunaannya pada teks.
  4. Bagaimana peran temperature dalam proses generasi teks menggunakan LSTM?
  5. Apa yang dimaksud dengan Demographic Parity dan bagaimana mengukurnya?

5) Contoh Soal Praktik (Google Colab)

# 1. Load dataset dan lakukan praproses dasar
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer

url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/Sentiment%20Analysis%20Dataset.csv'
df = pd.read_csv(url, nrows=5000)[['SentimentText','Sentiment']]
X_train, X_test, y_train, y_test = train_test_split(df['SentimentText'], df['Sentiment'], test_size=0.25, random_state=42)

# 2. TF–IDF + Logistic Regression
from sklearn.linear_model import LogisticRegression
vec = TfidfVectorizer(ngram_range=(1,2), min_df=3, max_df=0.9)
Xtr = vec.fit_transform(X_train); Xte = vec.transform(X_test)
clf = LogisticRegression(max_iter=300).fit(Xtr, y_train)

# 3. Evaluasi
from sklearn.metrics import classification_report
print(classification_report(y_test, clf.predict(Xte)))

# 4. Analisis 5 fitur positif dan negatif teratas
feat = vec.get_feature_names_out()
coef = clf.coef_.ravel()
print('Top positif:', [feat[i] for i in coef.argsort()[-5:]])
print('Top negatif:', [feat[i] for i in coef.argsort()[:5]])

6) Studi Kasus UAS (Essay)

Analisis berikut diberikan sebagai studi kasus:

“Sebuah model analisis sentimen pada ulasan toko online menunjukkan akurasi tinggi (92%), tetapi dalam audit fairness ditemukan bahwa TPR untuk kelompok A (40%) jauh di bawah kelompok B (75%).”

7) Rubrik Penilaian UAS

KomponenDeskripsiBobot
KonseptualKetepatan teori & pemahaman konsep (preprocessing, model, etika).30%
ImplementasiKode Colab berjalan tanpa error, hasil evaluasi akurat.40%
AnalisisKemampuan interpretasi hasil & rekomendasi perbaikan.20%
PresentasiKejelasan penulisan & visualisasi (grafik, tabel).10%