PDF Google Drive Downloader v1.1


Report a problem

Content text Modul 3 STK - Week #4 - Pemrosesan Teks menggunakan NLTK.pdf

Modul 3 STK - Week #4 - Pemrosesan Teks menggunakan NLTK September 11, 2025 1 Modul 3 - Pemrosesan Teks menggunakan NLTK Modul ini bertujuan untuk memperkenalkan mahasiswa pada proses pemrosesan teks menggunakan teknik-teknik yang digunakan dalam sistem temu kembali informasi. Pemrosesan teks merupakan tahapan penting dalam mempersiapkan data teks mentah agar dapat diolah oleh mesin pencari atau model berbasis pembelajaran mesin. Dalam konteks Sistem Temu Kembali (Information Retrieval), teks yang belum diproses sering kali mengandung banyak elemen yang tidak relevan atau sulit dipahami oleh mesin. Teknik- teknik seperti tokenisasi, stemming, lemmatization, penghilangan stop words, dan pembersihan teks adalah langkah-langkah dasar yang perlu diterapkan agar teks tersebut menjadi lebih ter- struktur dan dapat diproses lebih lanjut. Dengan mempelajari modul ini, mahasiswa diharapkan mampu memahami dan menerapkan teknik pemrosesan teks dasar sehingga dapat meningkatkan kinerja dan akurasi dari sistem temu kembali informasi, serta mampu mengolah data teks dalam skala besar untuk kebutuhan analisis lebih lanjut. 1.1 Tujuan Praktikum 1) Mahasiswa memahami konsep dasar pemrosesan teks dalam konteks Sistem Temu Kembali. 2) Mahasiswa mampu membedakan teknik-teknik pemrosesan teks seperti tokenisasi, stemming, lemmatization, dan penghilangan stop words. 3) Mahasiswa mampu mengimplementasikan teknik-teknik pemrosesan teks menggunakan Python dengan library seperti NLTK 4) Mahasiswa mampu mengolah teks mentah menjadi teks yang siap dianalisis dalam studi kasus Sistem Temu Kembali. 1.2 Alat dan Bahan: 1) Laptop atau Komputer 2) Akses ke Jupyter Notebook/Google Colab/VSC 3) Instalasi Python 3.10 4) Berkas teks 5) Akses Internet 1.3 Materi Dalam dunia pengolahan teks, proses pre-processing merupakan tahap awal yang krusial sebelum data teks dapat digunakan dalam analisis lebih lanjut atau model pembelajaran mesin. Pre- 1
processing bertujuan untuk membersihkan dan mempersiapkan data teks agar lebih mudah diproses dan dianalisis. Di Python, berbagai teknik pre-processing tersedia untuk memanipulasi dan menyi- apkan data teks sesuai kebutuhan. Dalam konteks pre-processing, Python menyediakan berbagai library dan module yang mendukung teknik-teknik ini. Misalnya, library NLTK dan Sastrawi menyediakan alat untuk tokenisasi, stop- word removal, stemming, dan lemmatisasi. Menggunakan library ini, pengguna dapat dengan mudah mengimplementasikan teknik-teknik pre-processing untuk mempersiapkan data teks untuk analisis lebih lanjut. Dengan memahami dan menerapkan teknik-teknik pre-processing ini, kita dapat meningkatkan kualitas dan efisiensi analisis teks, serta memperoleh wawasan yang lebih dalam dari data teks yang tersedia. 1.3.1 Tokenization Tokenization adalah proses memecah teks menjadi unit-unit yang lebih kecil, seperti kata atau kalimat. Dalam pemrosesan teks, tokenisasi merupakan langkah dasar yang penting karena memu- ngkinkan pengolahan setiap unit kata secara individual. [2]: from nltk.tokenize import word_tokenize text = "Sistem temu kembali adalah teknik yang digunakan dalam pencarian␣ ↪dokumen." tokens = word_tokenize(text) print(tokens) ['Sistem', 'temu', 'kembali', 'adalah', 'teknik', 'yang', 'digunakan', 'dalam', 'pencarian', 'dokumen', '.'] 1.3.2 Casefolding Case folding adalah proses mengubah semua huruf dalam teks menjadi huruf kecil (lowercase). Ini dilakukan untuk memastikan bahwa pencarian kata kunci tidak terpengaruh oleh perbedaan huruf kapital dan huruf kecil, yang sering kali tidak bermakna. [3]: # Contoh Case Folding text = "Sistem Temu Kembali Informasi Sangat Penting" lower_text = text.lower() print(lower_text) sistem temu kembali informasi sangat penting 1.3.3 Stopword Removal Stop words adalah kata-kata umum yang sering muncul dalam teks, namun biasanya tidak mem- berikan banyak informasi (misalnya “dan”, “di”, “ke”). Dalam Sistem Temu Kembali, stop words sering dihapus untuk mengurangi kebisingan dalam teks. 2
[4]: import nltk from nltk.corpus import stopwords from nltk.tokenize import word_tokenize nltk.download('punkt') nltk.download('stopwords') # Teks dalam Bahasa Indonesia text = "Sistem temu kembali informasi adalah teknologi yang sangat penting␣ ↪dalam pencarian dokumen." # Tokenisasi tokens = word_tokenize(text.lower()) # Stopword Removal (Bahasa Indonesia) stop_words = set(stopwords.words('indonesian')) filtered_tokens = [word for word in tokens if word not in stop_words] # Hasil setelah stopword removal print("Teks Asli:", text) print("Token Setelah Stopword Removal:", filtered_tokens) Teks Asli: Sistem temu kembali informasi adalah teknologi yang sangat penting dalam pencarian dokumen. Token Setelah Stopword Removal: ['sistem', 'temu', 'informasi', 'teknologi', 'pencarian', 'dokumen', '.'] [nltk_data] Downloading package punkt to [nltk_data] C:\Users\ranis\AppData\Roaming\nltk_data... [nltk_data] Package punkt is already up-to-date! [nltk_data] Downloading package stopwords to [nltk_data] C:\Users\ranis\AppData\Roaming\nltk_data... [nltk_data] Package stopwords is already up-to-date! 1.3.4 Stemming Stemming adalah proses mengurangi kata ke bentuk dasar atau akarnya, yang mungkin bukan bentuk kata yang valid dalam bahasa tersebut. Teknik ini bertujuan untuk mengelompokkan kata- kata yang memiliki makna serupa. Algoritma stemming populer untuk Bahasa Inggris termasuk Porter Stemmer dan Snowball Stemmer, sedangkan untuk Bahasa Indonesia, stemmer yang dapat digunakan adalah salah satunya Sastrawi Stemmer. Contoh Stemming (Bahasa Inggris) Dalam teks Bahasa Inggris, salah satu stemmer yang dapat digunakan adalah Porter Stemmer [5]: from nltk.stem import PorterStemmer ps = PorterStemmer() words = ["running", "runs", "easily", "faster"] 3

Related document

x
Report download errors
Report content



Download file quality is faulty:
Full name:
Email:
Comment
If you encounter an error, problem, .. or have any questions during the download process, please leave a comment below. Thank you.