BAB
I
PENDAHULUAN
1.1
Latar
Belakang
Dewasa ini perkembangan
teknologi semakin pesat terutama di bidang mobile. Dengan semakin berkembangnya teknologi
mobile, kebutuhan untuk mendapatkan sebuah informasi terutama artikel berita
akan lebih mudah dan cepat, karena teknologi internet kini berada dalam
genggaman. Pada umumnya orang – orang
lebih memilih membaca sebuah ringkasan artikel dari pada keseluruhan artikel. Ringkasan dapat membantu seseorang untuk
menentukan apakah akan membaca keseluruhan teks tersebut atau tidak. Ringkasan dari sebuah artikel juga lebih
diminati karena isinya lebih pendek
tetapi mengandung informasi penting yang terdapat pada sebuah artikel. Dengan ringkasan teks pembaca akan lebih
menghemat waktu (Hovy, 2001).
Kebutuhan
untuk mendapatkan informasi tidak cukup hanya mengandalkan media yang mendukung
untuk mengakses internet tersebut, tetapi aplikasi yang memudahkan untuk
mendapatkan informasi tersebut secara cepat dan akurat. Informasi sangat diperlukan dalam hubungannya dengan
keberhasilan, karena informasi saat ini dipandang sebagai sebuah aset, jadi
bukan sekedar data saja. Salah satu
bentuk informasi yaitu sebuah berita, sekarang banyak sekali website yang
menyajikan berita secara online misalnya detik.com, kompas.com, republika.com
dan lain sebagainya. Dengan jumlah media
berita online yang tersaji sekarang ini, masyarakat akan membutuhkan cukup
waktu yang lama untuk mengakses semua media berita online tersebut.
Oleh
karena itu, berdasarkan latar belakang tersebut, maka peneliti ingin mengembangkan
sebuah Aplikasi “Sistem Peringkas Berita Bahasa Indonesia Berbasis Android”. Dalam penelitian ini dikembangkan menggunakan Algoritma HITS (Hypertext - Induced Topic
Search). Algoritma HITS adalah salah
satu metode pemeringkatan graf untuk mendapatkan kalimat – kalimat yang
relevan. untuk membantu masyarakat
memperoleh berita secara ringkas, cepat, mudah dan akurat. karena Aplikasi
Sistem Peringkas Berita Bahasa Indonesia Berbasis Android ini menyajikan berita
dari berbagai sumber berita kemudian berita tersebut sudah teringkas yang
berisi inti dari sebuah berita tersebut.
1.2 Rumusan
Masalah
Melihat
latar belakang dari masalah tersebut maka diambil beberapa rumusan masalah
sebagai berikut :
1.
Bagaimana membangun Sebuah Sistem peringkas
berita berbahasa indonesia ?
2.
Bagaimana
caranya menerapkan
3.
Layanan service apa saja yang bisa
diperoleh masyarakat dengan menggunakan Aplikasi Sistem Peringkas Berita
Berbasis Android ini ?
4.
Apa kelebihan dan kekurangan dari Aplikasi
Sistem Peringkas Berita Berbasis Android ini ?
5.
Komponen apa saja yang diperlukan untuk
membangun sebuah Aplikasi Peringkas Berita berbasis Android ini ?
1.3 Batasan
Masalah
Agar pembahasan penelitian ini tidak menyimpang dari apa
yang telah dirumuskan dan tidak meluasnya pokok permasalahan yang harus
diselesaikan. Maka diperlukan batasan –
batasan. Batasan – batasan dalam
penelitian ini adalah sebagai berikut :
1.
Menerapkan Aplikasi Sistem Peringkas
Berita Bahasa Indonesia Berbasis Android.
2.
Hasil ringkasan berupa kalimat – kalimat
yang memiliki nilai pemeringkatan yang tinggi berdasarkan metode pemeringkatan
yang digunakan dalam hal ini metode pemeringkatan yang digunakan adalah
algoritma HITS.
3.
Bagaimana Aplikasi Sistem Peringkas Berita
Berbasis Android ini dapat membantu masyarakat menghemat waktu dalam membaca
sebuah berita .
4.
Analisis masalah hanya membahas tentang
penggunaan, pemanfaatan, penerapan Aplikasi Sistem Peringkas Berita Berbasis Android.
1.4 Tujuan
Berdasarkan rumusan masalah diatas, maka tujuan dari
penelitian ini adalah sebagai berikut :
1.
Mengtahui
bagaimana caranya membangun Aplikasi Sistem Peringkas Berita Berbasis Android.
2.
Mengtahui
layanan service yang ditawarkan Aplikasi Sistem Peringkas Berita Berbasis Android.
3.
Memahami
kelebihan dan kekurangan Aplikasi Sistem Peringkas Berita Berbasis Android.
4.
Mengetahui
komponen – kompnen yang diperlukan untuk membangun Aplikasi Sistem Peringkas
Berita Berbasis Android.
5.
Menerapkan
Algoritma Pemeringkatan HITS untuk ekstraksi kalimat dalam peringkasan teks
otomatis.
1.5 Manfaat
Manfaat dari penelitian membangun Aplikasi Sistem Peringkas
Berita Berbasis Android ini adalah sebagai beikut :
1.
Sebagai bahan referensi untuk membangun sebuah
Aplikasi Sistem Peringkas Data bukan hanya berupa berita tetapi document
lainnya.
2.
Meminimalisir
penggunaan penggunaan waktu untuk membaca sebuah berita.
3.
Meningkatkan
kinerja individu untuk mengerjakan pekerjaan lain selain membaca sebuah berita,
karena dengan Aplikasi Sistem Peringkas Berita Berbasis Android membaca tidak
memakan banyak waktu.
1.6
Metodologi Penelitian
Metodologi penelitian yang digunakan dalam penelitian ini
adalah sebagai berikut :
1. Studi Literatur
Penelitian ini bertujuan untuk mengumpulkan, mempelajari
serta menyeleksi bahan-bahan yang diperlukan untuk penulisan skripsi ini.
2. Pengumpulan Data
Melakukan pengumpulan
data dari buku-buku, jurnal – jurnal dan seminar – seminar ilmiah yang
berkaitan dan sumber informasi lainnya.
3. Analisis Sistem
Menganalisa kebutuhan
sistem seperti tools, database dan bahasa pemrograman dalam membangun prototipe
Aplikasi Sistem Peringkas Berita
Berbasis Android.
4. Dokumentasi Sistem
Pembuatan laporan.
1.7
Sistematika Penulisan
1. BAB
I Pendahuluan
Membahas
tentang latar belakang penelitian, manfaat dan tujuan penelitian, rumusan
masalah, batasan masalah, sistematika penulisan dan metodologi penelitian.
2. BAB
II Landasan Teori
Bab
ini berisi tentang teori – teori yang berhubungan dengan topik yang dibahas.
3. BAB
III Analisis Sistem
Pada bab ini membahas mengenai
analisa dan perancangan Aplikasi
Sistem Peringkas Berita Berbasis Android.
4. BAB
IV Implementasi Sistem
Dalam bab ini akan berisi
implementasi penggunaan Aplikasi
Sistem Peringkas Berita Berbasis Android.
5. BAB
V Kesimpulan dan Saran
Pada bab ini
berisi kesimpulan dan saran yang didapatkan selama proses perencanaan dari
sistem.
BAB
II
TINJAUAN
PUSTAKA
2.1.
Summarization
Menurut Dallianis, Peringkasan Otomatis (Automatic
Summari) adalah penyusunan sebuah ringkasan teks atau dokumen dengan
memanfaatkan aplikasi yang berjalan di komputer. Sebuah sitem peringkas
diberikan inputan berupa teks, kemudian diringkas, dan menghasilkan output teks
yang lebih singkat dari teks aslinya.
Hasil ringkasan tersebut berupa poin - poin penting yang terdapat pada
sebuah teks (Dalianis, 2005).
2.1.1 Karakteristik Peringkasan Teks
Terdapat dua pendekatan pada
peringkasan teks, yaitu ekstraksi (shallower approaches) dan abstraksi (deeper
approaches). Pada teknik ekstraksi, sistem menyalin unit-unit teks yang
dianggap paling penting atau paling informatif dari teks sumber menjadi
ringkasan. Unit-unit teks yang disalin dapat berupa klausa utama, kalimat
utama, atau paragraf utama. Sedangkan teknik abstraksi melibatkan parafrase
dari teks sumber. Teknik abstraksi mengambil intisari dari teks sumber,
kemudian membuat ringkasan dengan menciptakan kalimat-kalimat baru yang
merepresentasikan intisari teks sumber dalam bentuk berbeda dengan
kalimat-kalimat pada teks sumber. Pada umumnya, abstraksi dapat meringkas teks
lebih kuat daripada ekstraksi, tetapi sistemnya lebih sulit dikembangkan karena
mengaplikasikan teknologi natural language generation yang merupakan bahasan
yang dikembangkan tersendiri.
Berdasarkan jumlah sumbernya,
sebuah ringkasan dapat dihasilkan dari satu sumber (single-document) atau dari
banyak sumber (multi-document). Peringkasan single-document masukannya berupa
sebuah teks dan keluarannya berupa sebuah teks baru yang lebih singkat. Pada
peringkasan multi-document, masukan adalah beberapa dokumen teks yang memiliki
tema sama, biasanya sudah ada dalam satu klaster kemudian akan dihasilkan
keluaran berupa sebuah teks yang lebih singkat yang merangkum
informasi-informasi utama pada klaster masukan (Mihalcea & Radev, 2011).
2.2.
Stoplist
Merupakan daftar istilah yang sering muncul dalam dokumen dan
tidak dapat membedakan antara do kume yang satu dengan yang lain. Daftar kata buang dapat berupa daftar yang
dibuat untuk koleksi dokumen tertentu atau daftar yang dibuat untuk koleksi
dokumen tertentu atau daftar yang dibuat secara umum untuk digunakan pada
berbagai jenis dokumen (Ruthven & Lalmas, 2003). Istilah – istilah dapat dihilangkan untuk
efisiensi ruang penyimpanan dan waktu pada proses pengindeksan.
2.3. Tokenizer
Tokenizer
merupakan
suatu algoritme yang digunakan untuk menghasilkan himpunan token dari sebuah teks (Ridha, 2002). Tokenizer
melakukan pemisahan terhadap isi dokumen menjadi unit yang palig kecil atau
biasa disebut token.
Proses tokenisasi memeriksa setiap
karakter pada dokumen dan memecah string
kalimat menjadi token, dakam hal ini berupa
kata unik. Pada proses ini juga
dilakukan pembersihan terhadap kata buang (stoplist)
yang biasanya tidak mencerminkan identitas dari suatu dokumen.
2.4. Stemming
Stemming
adalah proses pemotongan imbuhan dari kata untuk mendapat bentuk dasarnya (Porter,
1980). Penggunaan stemming penting
dalam system temu kembali informasi berbahasa Indonesia karena tingginya
penggunaan prefiks dan sufiks, walaupun dari segi kinerja temu kembali tidak
signifikan. Selain itu proses stemming juga dapat mengurangi ruang penyimpanan
indeks (Ridha, 2002).
Dua hal yang menjadi tujuan dari stemming , yaitu efisiensi dan
keefektifan. Dalam efisiensi, stemming mengurangi umlah kata – kata
yang unik dalam indeks yang mengakibatkan berkurangnya kebutuhan akan ruang
penyimpanan untuk indeks dan mempercepat proses pencarian. Dalam hal ini kefektifan, stemming meningkatkan recall dengan mengurangi bentuk – bentuk
istilah ke dalam bentuk dasarnya atau bentuk term, sehingga menjadikannya memiliki kecenderungan yang sama untuk
ditemukembalikan. Selain itu, stemming pun memiliki kelemahan yaitu
dapat menurunkan tingkat precision apabila
kenyataannya kueri yang relevan bagi pengguna berasal dari bentuk yang sama
dengan yang digunakan dalam kueri.
2.5. Pembobotan
TF-Idf
Pembobotan dalam system temu kembali
informasi digunakan untuk menghitung bobot dari suatu term, baik yang terdapat pada dokumen maupun kueri pembobotan pada
term dapat mempermudah penemukembalian informasi yang relevan dengan kueri.
Untuk menghitung bobot suatu term, ada dua tahap. Tahap pertama
adalah menghitung term frequency (tf). Yaitu
penghitungan frekuensi kemunculan suatu term
dalam dokumen, dengan rums :
Tf(t, d) = occ(t,d) / occ(tmax , d),
Dengan
occ(t,d) adalah kemunculan term t dalam dokumen d, dan occ(tmax ,
d), mempresentasikan
kemunculan term tertinggi dalam
dokumen d.
Tahap
kedua adalah penghitungan inverse
document idf. Penghitungan idf dilakukan dengan rumus :
Idf(t,d) = log(
N / n(t)),
Dengan
N adalah banyak dokumen dalam
koleksi, dan n(t) adalah banyak
dokumen dalam koleksi yang memiliki term
t. Nilai tf dan idf digunakan untuk mencari bobot term, dengan rumus :
Weight(t,d) = tf(t,d)*idf(t),
Dengan
Weight(t,d) adalah bobot term t dalam dokumen d (Salton, 1989).
2.6.
Similarity
Dalam
sistem temu kembali informasi, terdapat berbagai macam ukuran kesamaan yang
digunakan, antara lain : Asymmetric,
Cosine, Dice, Euclidian Distance, Jaccard, Matching, Overlap, dan Cosine. Pada penelitian ini menggunakan
ukuran kesamaan cosine dan overlap. Rumus kesamaan cosine (Mihalcea & Radev, 2011) :
Sumber
: (Mihalcea & Radev, 2011)
Dengan
:
Cx,y
adalah korelasi antara kalimat x dan
kalimat y,
Wx,i
adalah
bobot term i pada kalimat x.
Alas
an penggunaan ukuran kesamaan cosine karena
sering digunakan secara luas pada sistem temu kembali informasi karena
kekonsistenan unuran ini secara geomerik terhadap model vector.
Ukuran kesamaan ini nantinya digunakan
untuk membentuk matriks kesamaan kalimat yang berisi nilai kesamaan antar
kalimat dalam dokumen. Penghitungannya
dengan mengembangkan ukuran kesamaan cosine,
yaitu :
Sumber
: (Mihalcea & Radev, 2011)
Dengan
:
Si adalah vektor kalimat ke i,
Sik,
Sjk adalah
bobot term ke-k untuk kalimat Si
dan Sj
Ukuran
kesamaan overlap juga digunakan sebagai dasar ukuran kesamaan dalam penelitian
ini karena merupakan acuan pada peneltian sebelumnya dalam penggunaan HITS
sebagai algoritme pemeringkas. Ukuran
kesamaan overlap atau content overlap antara dua kalimat yaitu
menghitung jumlah kata (term) yang
sama antara kedua kalimat, fomulasinya sebagai berikut :
Sumber
: (Mihalcea & Radev, 2011)
Dengan :
wk adalah jumlah kata (term) yang sama antar kalimat Si
dan Sj,
Si dan Sj adalah representasi panjang kalimat.
2.7.
Algoritma
HITS (Hypertext - Induced Topic Search)
Algoritma
Hyperlinked Induced Topic Search
(HITS) yang merupakan algoritma peringkasan berbasis graf. Pada dasarnya HITS
melakukan perangkingan kalimat dengan memperhitungkan keterhubungan antar
kalimat. Perangkingan dilakukan dengan cara memberi bobot kalimat dan diurutkan
berdasarkan tingkat kepentingannya. Kalimat dengan bobot besar akan diekstrak
untuk dijadikan ringkasan. Metode HITS direpresentasikan dengan graf tidak berarah
(undirect graph), graf berarah maju (direct forward), dan graf berarah
mundur (direct backward) serta
dilakukan iterasi hanya sekali dan iterasi mencapai konvergen.
Non-converging
pseudocode
Sumber : (Li,
2002)
2.8 Unified
Modeling Language
(UML)
Unified Modeling
Language (UML) adalah bahasa pemodelan visual yang digunakan
untuk menspesifikasikan, memvisualisasikan, membangun, dan mendokumentasikan
rancangan dari suatu sistem perangkat lunak (Akil, 2013).
Pada
tahun 1995, terdapat
3 pemimpin industri
besar bersama-sama menciptakan sebuah
pendekatan tunggal terhadap
metode pengembangan berorientasi
objek. Grady Booch,
Ivar Jacobson, dan
James Rumbaugh bersama yang
lainnya menciptakan satu set standar pembuatan diagram bernama Unified Modeling Language
(UML). Tujuan dari
UML adalah untuk
menyediakan kosakata umum berorientasi
objek dan merupakan
teknik diagram yang cukup kaya untuk semua model pengembangan
sebuah sistem mulai dari analisis hingga implementasi (Dennis, Wixom, &
David, 2004).
Pada UML terdiri
dari beberapa struktur diagram dan diagram perilaku seperti use case diagram,
sequence diagram. Adapun penjelasan mengenai diagram – diagram tersebut adalah
sebagai berikut :
2.8.1 Use Cases Diagram
Use
case diagram memungkinan seorang sistem analis untuk
memodelkan interaksi suatu informasi sistem dan lingkungannya. Lingkungan dari
suatu sistem informasi mencakup pengguna
akhir dan sistem
eksternal yang berin teraksi dengan sistem informasi.
Keutamaan penggunaan diagram use case
adalah untuk menyediakan sarana untuk
mendokumentasikan dan memahami
kebutuhan dari sistem informasi
yang sedang dikembangkan (Dennis,
Wixom, & David, 2004).
Komponen – komponen yang terlibat dalam use case diagram, yaitu :
1. Actor
Dalam use case, sesuatu
diluar sistem yang berinteraksi dengan sistem disebut actor. Actor class
digunakan untuk memodelkan dan menyatakan peran untuk user dari sistem termasuk manusia dan sistem lain. Actor sebaiknya diberi nama menggunakan
kata benda. Lambang actor dapat
dilihat pada gambar 2.1.
Gambar 2.1
Lambang Actor
Sumber : (Dharwiyanti, 2003)
1 2. Use
Case
Use Case
adalah suatu teknik untuk menangkap kebutuhan
fungsional Sistem (Martin, 2004).
Use Case menggambarkan
interaksi khas antara pengguna Sistem dan
Sistem itu sendiri, memberikan
gambaran tentang bagaimana sistem yang digunakan (Martin, 2004).
Karakteristik
use case (Dharwiyanti, 2003):
- Use case adalah interaksi atau
dialog antara sistem dan actor, termasuk pertukaran pesan dan tindakan yang dilakukan
oleh sistem.
- Use case diprakarsai oleh actor dan
mungkin melibatkan peran actor lain.
- Use case bisa memiliki perluasan
yang mendefinisan tindakan khusus dalam interaksi atau use case lain mungkin disisipkan.
Use case dilambangkan dengan elips dan
diberi nama di dalam atau di bawahnya. Seperti
terlihat pada gambar 2.2.
Gambar 2.2 Use Case
Sumber : (Dharwiyanti, 2003)
- Use case bisa memiliki perluasan yang
mendefinisan tindakan khusus dalam interaksi atau use case lain mungkin
disisipkan.
3. Komunikasi
Garis
yang menghubungkan antara Aktor dan use case untuk memperlihatkan peran actor
terhadap use case tersebut. Tujuan dari komunikasi adalah
menperlihatkan keterlibatan actor terhadap use case, tidak untuk secara tidak
langsung menyatakan pertukaran informasi dalam arah tertentu atau actor memulai
use case.
<<include>>
Kita dapat menambahkan use case baru yang dapat
digunakan oleh kedua use case lain. Hubungan
<<include>> mendeklaraasikan bahwa use case - use case penunjuk
memakai secara penuh semua langkah dalam use case yang dimasukkan. Notasi <<include>> dapat di lihat
pada Gambar 2.3.
Gambar 2.3 Notasi <<include>>
Sumber : (Dharwiyanti, 2003).
<<extend>>
Pemakaiannya sama seperti
<<include>> hanya saja untuk extend bersifat optional dan
tergantung keputusan saat runtime atau saat penerapan sistem. Notasi <<extend>> dapat di lihat
pada Gambar 2.4.
Gambar 2.4 Notasi <<extend>>
Sumber : (Dharwiyanti, 2003)
2.8.2 Class Diagram
Class diagram adalah sebuah model statis yang menunjukkan kelas-kelas
dan hubungan antar kelas yang tetap konstan dalam sebuah sistem dari
waktu ke waktu. Diagram kelas menggambarkan kelas yang mencakup
perilaku dan sebuah pernyataan dalam hubungan antar kelas. Adapun
elemen-elemen dari class diagram adalah sebagai berikut (Dennis,
Wixom, & David, 2004) :
Asosiasi Class Diagram (Dennis, Wixom, & David, 2004) :
2.8.3 Sequence Diagram
Sequence
diagram merupakan model dinamis yang menunjukkan urutan eksplisit sebuah pesan yang melewati antar objek dalam interaksi yang didefinisikan. Adapun elemen-elemen dari sequence diagram adalah sebagai berikut ( Dennis, Wixom, & David, 2004) :
Tabel 2.1 Sequence Diagram
Sumber : (
Dennis, Wixom, & David, 2004)
Contoh pembuatan Sequence Diagram terdapat pada Gambar 2.5.
Gambar 2.5 Contoh Sequence Diagram
untuk pendataan barang
Sumber:
(Hermawan, 2013)
DAFTAR
PUSTAKA
Porter, M.F. (1980). An algorithm for suffix stripping. Program,
Vol. 14 No.3, pp. 130-7.
Salton, G.
(1989).
Automatic
Text Processing. Addison- Wesley.
Hovy,
E. (2001).
Automated text summarisation. In
Handbook of Computational Linguistics, R. Mitkov (ed.). Oxford: Oxford
University Press.
Ruthven, I., Lalmas, M. (2003). A survey on the use of relevance
feedback for information access systems.
Knowledge Engineering Review, 18(2): 95-145. 9.
Li,
L.; Shang, Y.; Zhang, W. (2002). "Improvement of
HITS-based Algorithms on Web Documents".
Proceedings of the 11th International World Wide Web Conference (WWW 2002).
Honolulu, HI. ISBN 1-880672-20-0.
Dharwiyanti, S. (2003). Pengantar Unified Modeling
Languange (UML). Retrieved from Ilmukomputer.com.
Martin, F. (2004). UML Distilled Third Edition.
Boston: Pearson Education, Inc.
Mihalcea, R., & Radev, D. (2011). Graph-Based Natural
Language Processing and Information Retrieval. United States: CAMBRIDGE
UNIVERSITY PRESS.
Triasanti, D. (2013). KONSEP DASAR PYTHON. jakarta:
dini3asa.staff.gunadarma.ac.id.
Dennis, A., Wixom, B.
H., & D. T. (2004). Systems Analysis and Design with UML Version 2.0: An
Object-Oriented Approach, 2nd Edition. Wiley.









Comments
Post a Comment