Skip to main content

TUGAS AKHIR 1 : BAB 1 PENDAHULUAN & BAB 2 TINJAUAN PUSTAKA



BAB I
PENDAHULUAN


1.1           Latar Belakang          

Dewasa ini perkembangan teknologi semakin pesat terutama di bidang mobile.  Dengan semakin berkembangnya teknologi mobile, kebutuhan untuk mendapatkan sebuah informasi terutama artikel berita akan lebih mudah dan cepat, karena teknologi internet kini berada dalam genggaman.  Pada umumnya orang – orang lebih memilih membaca sebuah ringkasan artikel dari pada keseluruhan artikel.  Ringkasan dapat membantu seseorang untuk menentukan apakah akan membaca keseluruhan teks tersebut atau tidak.  Ringkasan dari sebuah artikel juga lebih diminati  karena isinya lebih pendek tetapi mengandung informasi penting yang terdapat pada sebuah artikel.  Dengan ringkasan teks pembaca akan lebih menghemat waktu (Hovy, 2001).
            Kebutuhan untuk mendapatkan informasi tidak cukup hanya mengandalkan media yang mendukung untuk mengakses internet tersebut, tetapi aplikasi yang memudahkan untuk mendapatkan informasi tersebut secara cepat dan akurat.  Informasi  sangat diperlukan dalam hubungannya dengan keberhasilan, karena informasi saat ini dipandang sebagai sebuah aset, jadi bukan sekedar data saja.  Salah satu bentuk informasi yaitu sebuah berita, sekarang banyak sekali website yang menyajikan berita secara online misalnya detik.com, kompas.com, republika.com dan lain sebagainya.  Dengan jumlah media berita online yang tersaji sekarang ini, masyarakat akan membutuhkan cukup waktu yang lama untuk mengakses semua media berita online tersebut.
            Oleh karena itu, berdasarkan latar belakang tersebut, maka peneliti ingin mengembangkan sebuah Aplikasi “Sistem Peringkas Berita Bahasa Indonesia Berbasis Android”.  Dalam penelitian ini dikembangkan menggunakan Algoritma HITS (Hypertext - Induced Topic Search).  Algoritma HITS adalah salah satu metode pemeringkatan graf untuk mendapatkan kalimat – kalimat yang relevan. untuk membantu masyarakat memperoleh berita secara ringkas, cepat, mudah dan akurat. karena Aplikasi Sistem Peringkas Berita Bahasa Indonesia Berbasis Android ini menyajikan berita dari berbagai sumber berita kemudian berita tersebut sudah teringkas yang berisi inti dari sebuah berita tersebut.

1.2     Rumusan Masalah

Melihat latar belakang dari masalah tersebut maka diambil beberapa rumusan masalah sebagai berikut :
1.   Bagaimana membangun Sebuah Sistem peringkas berita berbahasa indonesia ?
2.   Bagaimana caranya menerapkan
3.   Layanan service apa saja yang bisa diperoleh masyarakat dengan menggunakan Aplikasi Sistem Peringkas Berita Berbasis Android ini ?
4.   Apa kelebihan dan kekurangan dari Aplikasi Sistem Peringkas Berita Berbasis Android ini ?
5.   Komponen apa saja yang diperlukan untuk membangun sebuah Aplikasi Peringkas Berita berbasis Android ini ?

1.3     Batasan Masalah

Agar pembahasan penelitian ini tidak menyimpang dari apa yang telah dirumuskan dan tidak meluasnya pokok permasalahan yang harus diselesaikan.  Maka diperlukan batasan – batasan.  Batasan – batasan dalam penelitian ini adalah sebagai berikut :
1.   Menerapkan Aplikasi Sistem Peringkas Berita Bahasa Indonesia Berbasis Android.
2.   Hasil ringkasan berupa kalimat – kalimat yang memiliki nilai pemeringkatan yang tinggi berdasarkan metode pemeringkatan yang digunakan dalam hal ini metode pemeringkatan yang digunakan adalah algoritma HITS.
3.   Bagaimana Aplikasi Sistem Peringkas Berita Berbasis Android ini dapat membantu masyarakat menghemat waktu dalam membaca sebuah berita .
4.   Analisis masalah hanya membahas tentang penggunaan, pemanfaatan, penerapan Aplikasi Sistem Peringkas Berita Berbasis Android.

1.4     Tujuan

Berdasarkan rumusan masalah diatas, maka tujuan dari penelitian ini adalah sebagai berikut :
1.   Mengtahui bagaimana caranya membangun Aplikasi Sistem Peringkas Berita Berbasis Android.
2.   Mengtahui layanan service yang ditawarkan Aplikasi Sistem Peringkas Berita Berbasis Android.
3.   Memahami kelebihan dan kekurangan Aplikasi Sistem Peringkas Berita Berbasis Android.
4.   Mengetahui komponen – kompnen yang diperlukan untuk membangun Aplikasi Sistem Peringkas Berita Berbasis Android.
5.   Menerapkan Algoritma Pemeringkatan HITS untuk ekstraksi kalimat dalam peringkasan teks otomatis.

1.5     Manfaat

Manfaat dari penelitian membangun Aplikasi Sistem Peringkas Berita Berbasis Android ini adalah sebagai beikut :
1.    Sebagai bahan referensi untuk membangun sebuah Aplikasi Sistem Peringkas Data bukan hanya berupa berita tetapi document lainnya.
2.   Meminimalisir penggunaan penggunaan waktu untuk membaca sebuah berita.
3.   Meningkatkan kinerja individu untuk mengerjakan pekerjaan lain selain membaca sebuah berita, karena dengan Aplikasi Sistem Peringkas Berita Berbasis Android membaca tidak memakan banyak waktu.

1.6        Metodologi Penelitian

Metodologi penelitian yang digunakan dalam penelitian ini adalah sebagai berikut :
1.   Studi Literatur
Penelitian ini bertujuan untuk mengumpulkan, mempelajari serta menyeleksi bahan-bahan yang diperlukan untuk penulisan skripsi ini.
2.   Pengumpulan Data
Melakukan pengumpulan data dari buku-buku, jurnal – jurnal dan seminar – seminar ilmiah yang berkaitan dan sumber informasi lainnya.
3. Analisis Sistem
Menganalisa kebutuhan sistem seperti tools, database dan bahasa pemrograman dalam membangun prototipe Aplikasi Sistem Peringkas Berita Berbasis Android.
4. Dokumentasi Sistem
Pembuatan laporan.

1.7        Sistematika Penulisan

1.   BAB I Pendahuluan
Membahas tentang latar belakang penelitian, manfaat dan tujuan penelitian, rumusan masalah, batasan masalah, sistematika penulisan dan metodologi penelitian.

2.   BAB II Landasan Teori
Bab ini berisi tentang teori – teori yang berhubungan dengan topik yang dibahas.



3.   BAB III Analisis Sistem
Pada bab ini membahas mengenai analisa dan perancangan Aplikasi Sistem Peringkas Berita Berbasis Android.

4.   BAB IV Implementasi Sistem
Dalam bab ini akan berisi implementasi penggunaan Aplikasi Sistem Peringkas Berita Berbasis Android.

5.   BAB V Kesimpulan dan Saran
Pada bab ini berisi kesimpulan dan saran yang didapatkan selama proses perencanaan dari sistem.

   
  


BAB II
TINJAUAN PUSTAKA


2.1.    Summarization

            Menurut Dallianis, Peringkasan Otomatis (Automatic Summari) adalah penyusunan sebuah ringkasan teks atau dokumen dengan memanfaatkan aplikasi yang berjalan di komputer. Sebuah sitem peringkas diberikan inputan berupa teks, kemudian diringkas, dan menghasilkan output teks yang lebih singkat dari teks aslinya.  Hasil ringkasan tersebut berupa poin - poin penting yang terdapat pada sebuah teks (Dalianis, 2005).

2.1.1  Karakteristik Peringkasan Teks

              Terdapat dua pendekatan pada peringkasan teks, yaitu ekstraksi (shallower approaches) dan abstraksi (deeper approaches). Pada teknik ekstraksi, sistem menyalin unit-unit teks yang dianggap paling penting atau paling informatif dari teks sumber menjadi ringkasan. Unit-unit teks yang disalin dapat berupa klausa utama, kalimat utama, atau paragraf utama. Sedangkan teknik abstraksi melibatkan parafrase dari teks sumber. Teknik abstraksi mengambil intisari dari teks sumber, kemudian membuat ringkasan dengan menciptakan kalimat-kalimat baru yang merepresentasikan intisari teks sumber dalam bentuk berbeda dengan kalimat-kalimat pada teks sumber. Pada umumnya, abstraksi dapat meringkas teks lebih kuat daripada ekstraksi, tetapi sistemnya lebih sulit dikembangkan karena mengaplikasikan teknologi natural language generation yang merupakan bahasan yang dikembangkan tersendiri.
               Berdasarkan jumlah sumbernya, sebuah ringkasan dapat dihasilkan dari satu sumber (single-document) atau dari banyak sumber (multi-document). Peringkasan single-document masukannya berupa sebuah teks dan keluarannya berupa sebuah teks baru yang lebih singkat. Pada peringkasan multi-document, masukan adalah beberapa dokumen teks yang memiliki tema sama, biasanya sudah ada dalam satu klaster kemudian akan dihasilkan keluaran berupa sebuah teks yang lebih singkat yang merangkum informasi-informasi utama pada klaster masukan (Mihalcea & Radev, 2011).

2.2.   Stoplist
        Merupakan daftar istilah yang sering muncul dalam dokumen dan tidak dapat membedakan antara do kume yang satu dengan yang lain.  Daftar kata buang dapat berupa daftar yang dibuat untuk koleksi dokumen tertentu atau daftar yang dibuat untuk koleksi dokumen tertentu atau daftar yang dibuat secara umum untuk digunakan pada berbagai jenis dokumen (Ruthven & Lalmas, 2003).  Istilah – istilah dapat dihilangkan untuk efisiensi ruang penyimpanan dan waktu pada proses pengindeksan.            

2.3.   Tokenizer
        Tokenizer merupakan suatu algoritme yang digunakan untuk menghasilkan himpunan token dari sebuah teks (Ridha, 2002).  Tokenizer melakukan pemisahan terhadap isi dokumen menjadi unit yang palig kecil atau biasa disebut token.
        Proses tokenisasi memeriksa setiap karakter pada dokumen dan memecah string kalimat menjadi token, dakam hal ini berupa kata unik.  Pada proses ini juga dilakukan pembersihan terhadap kata buang (stoplist) yang biasanya tidak mencerminkan identitas dari suatu dokumen.

2.4.   Stemming
        Stemming adalah proses pemotongan imbuhan dari kata untuk mendapat bentuk dasarnya (Porter, 1980). Penggunaan stemming penting dalam system temu kembali informasi berbahasa Indonesia karena tingginya penggunaan prefiks dan sufiks, walaupun dari segi kinerja temu kembali tidak signifikan.  Selain itu proses stemming juga dapat mengurangi ruang penyimpanan indeks (Ridha, 2002).
        Dua hal yang menjadi tujuan dari stemming , yaitu efisiensi dan keefektifan.  Dalam efisiensi, stemming mengurangi umlah kata – kata yang unik dalam indeks yang mengakibatkan berkurangnya kebutuhan akan ruang penyimpanan untuk indeks dan mempercepat proses pencarian.  Dalam hal ini kefektifan, stemming meningkatkan recall dengan mengurangi bentuk – bentuk istilah ke dalam bentuk dasarnya atau bentuk term, sehingga menjadikannya memiliki kecenderungan yang sama untuk ditemukembalikan.  Selain itu, stemming pun memiliki kelemahan yaitu dapat menurunkan tingkat precision apabila kenyataannya kueri yang relevan bagi pengguna berasal dari bentuk yang sama dengan yang digunakan dalam kueri.

2.5.   Pembobotan TF-Idf
        Pembobotan dalam system temu kembali informasi digunakan untuk menghitung bobot dari suatu term, baik yang terdapat pada dokumen maupun kueri pembobotan pada term dapat mempermudah penemukembalian informasi yang relevan dengan kueri.
        Untuk menghitung bobot suatu term, ada dua tahap. Tahap pertama adalah menghitung term frequency (tf). Yaitu penghitungan frekuensi kemunculan suatu term dalam dokumen, dengan rums :

Tf(t, d) = occ(t,d) / occ(tmax , d),

Dengan occ(t,d) adalah kemunculan term t dalam dokumen d, dan occ(tmax , d), mempresentasikan kemunculan term tertinggi dalam dokumen d.
        Tahap kedua adalah penghitungan inverse document idf. Penghitungan idf  dilakukan dengan rumus :

Idf(t,d) = log( N / n(t)),

Dengan N adalah banyak dokumen dalam koleksi, dan n(t) adalah banyak dokumen dalam koleksi yang memiliki term t. Nilai tf dan idf digunakan untuk mencari bobot term, dengan rumus :

Weight(t,d) = tf(t,d)*idf(t),
Dengan Weight(t,d)  adalah bobot term t dalam dokumen d (Salton, 1989).
       
2.6.   Similarity
        Dalam sistem temu kembali informasi, terdapat berbagai macam ukuran kesamaan yang digunakan, antara lain : Asymmetric, Cosine, Dice, Euclidian Distance, Jaccard, Matching, Overlap, dan Cosine. Pada penelitian ini menggunakan ukuran kesamaan cosine dan overlap.  Rumus kesamaan cosine (Mihalcea & Radev, 2011)  :

Sumber : (Mihalcea & Radev, 2011)
Dengan :
        Cx,y adalah korelasi antara kalimat x dan kalimat y,
        Wx,i adalah bobot term i pada kalimat x.

Alas an penggunaan ukuran kesamaan cosine karena sering digunakan secara luas pada sistem temu kembali informasi karena kekonsistenan unuran ini secara geomerik terhadap model vector.
        Ukuran kesamaan ini nantinya digunakan untuk membentuk matriks kesamaan kalimat yang berisi nilai kesamaan antar kalimat dalam dokumen.  Penghitungannya dengan mengembangkan ukuran kesamaan cosine, yaitu :

Sumber : (Mihalcea & Radev, 2011)

Dengan :
        Si  adalah vektor kalimat ke  i,
        Sik, Sjk adalah bobot term ke-k  untuk  kalimat Si dan Sj
Ukuran kesamaan overlap juga digunakan sebagai dasar ukuran kesamaan dalam penelitian ini karena merupakan acuan pada peneltian sebelumnya dalam penggunaan HITS sebagai algoritme pemeringkas.  Ukuran kesamaan overlap atau content overlap antara dua kalimat yaitu menghitung jumlah kata (term) yang sama antara kedua kalimat, fomulasinya sebagai berikut :


Sumber : (Mihalcea & Radev, 2011)
Dengan :
        wk  adalah jumlah kata (term) yang sama antar kalimat Si dan Sj,
        Si dan Sj adalah representasi panjang kalimat.

2.7.   Algoritma HITS (Hypertext - Induced Topic Search)
        Algoritma Hyperlinked Induced Topic Search (HITS) yang merupakan algoritma peringkasan berbasis graf. Pada dasarnya HITS melakukan perangkingan kalimat dengan memperhitungkan keterhubungan antar kalimat. Perangkingan dilakukan dengan cara memberi bobot kalimat dan diurutkan berdasarkan tingkat kepentingannya. Kalimat dengan bobot besar akan diekstrak untuk dijadikan ringkasan. Metode HITS direpresentasikan dengan graf tidak berarah (undirect graph), graf berarah maju (direct forward), dan graf berarah mundur (direct backward) serta dilakukan iterasi hanya sekali dan iterasi mencapai konvergen.
Non-converging pseudocode

Sumber : (Li, 2002)
2.8 Unified Modeling Language (UML)
          Unified Modeling Language (UML) adalah bahasa pemodelan visual yang digunakan untuk menspesifikasikan, memvisualisasikan, membangun, dan mendokumentasikan rancangan dari suatu sistem perangkat lunak (Akil, 2013).
    Pada  tahun  1995,  terdapat  3  pemimpin  industri  besar  bersama-sama menciptakan  sebuah  pendekatan  tunggal  terhadap  metode  pengembangan  berorientasi  objek.  Grady  Booch,  Ivar  Jacobson,  dan  James Rumbaugh  bersama yang lainnya menciptakan satu set standar pembuatan diagram bernama  Unified Modeling  Language  (UML).  Tujuan  dari  UML  adalah  untuk  menyediakan kosakata  umum  berorientasi  objek  dan  merupakan  teknik diagram  yang  cukup kaya untuk semua model pengembangan sebuah sistem mulai dari analisis hingga implementasi (Dennis, Wixom, & David, 2004).
         Pada UML terdiri  dari beberapa struktur diagram dan diagram perilaku seperti use case diagram, sequence diagram. Adapun penjelasan mengenai diagram – diagram tersebut adalah sebagai berikut :
2.8.1  Use Cases Diagram
          Use case diagram memungkinan seorang sistem analis untuk memodelkan interaksi suatu informasi sistem dan lingkungannya. Lingkungan dari suatu sistem informasi  mencakup  pengguna  akhir  dan  sistem  eksternal  yang  berin teraksi dengan sistem informasi. Keutamaan penggunaan diagram use case adalah untuk menyediakan  sarana  untuk  mendokumentasikan  dan  memahami  kebutuhan dari sistem informasi  yang sedang dikembangkan  (Dennis, Wixom, & David, 2004).

             Komponen – komponen yang terlibat dalam use case diagram, yaitu :



1. Actor
   Dalam use case, sesuatu diluar sistem yang berinteraksi dengan sistem disebut actor. Actor class digunakan untuk memodelkan dan menyatakan peran untuk user dari sistem termasuk manusia dan sistem lain. Actor sebaiknya diberi nama menggunakan kata benda. Lambang actor dapat dilihat pada gambar 2.1.

Gambar 2.1 Lambang Actor
Sumber : (Dharwiyanti, 2003)



 
1     2.  Use Case
    Use Case adalah suatu teknik untuk menangkap kebutuhan fungsional Sistem (Martin, 2004).   Use Case menggambarkan interaksi khas antara pengguna Sistem dan Sistem itu sendiri, memberikan gambaran tentang bagaimana sistem yang digunakan (Martin, 2004).
Karakteristik use case (Dharwiyanti, 2003):
-   Use case adalah interaksi atau dialog antara sistem dan actor, termasuk  pertukaran pesan dan tindakan yang dilakukan oleh sistem.
-       Use case diprakarsai oleh actor dan mungkin melibatkan peran     actor lain.
-     Use case bisa memiliki perluasan yang mendefinisan tindakan khusus dalam interaksi atau use case lain mungkin disisipkan.
Use case dilambangkan dengan elips dan diberi nama di dalam atau di bawahnya.  Seperti terlihat pada gambar 2.2.


Gambar 2.2 Use Case
         Sumber : (Dharwiyanti, 2003)


-      Use case bisa memiliki perluasan yang mendefinisan tindakan khusus dalam interaksi atau use case lain mungkin disisipkan.


3. Komunikasi
Garis yang menghubungkan antara Aktor dan use case untuk memperlihatkan peran actor terhadap use case tersebut. Tujuan dari komunikasi adalah menperlihatkan keterlibatan actor terhadap use case, tidak untuk secara tidak langsung menyatakan pertukaran informasi dalam arah tertentu atau actor memulai use case. 
<<include>>
Kita dapat menambahkan use case baru yang dapat digunakan oleh kedua use case lain.  Hubungan <<include>> mendeklaraasikan bahwa use case - use case penunjuk memakai secara penuh semua langkah dalam use case yang dimasukkan.  Notasi <<include>> dapat di lihat pada Gambar 2.3.

Gambar 2.3 Notasi <<include>>  
Sumber : (Dharwiyanti, 2003).
<<extend>>  
Pemakaiannya sama seperti <<include>> hanya saja untuk extend bersifat optional dan tergantung keputusan saat runtime atau saat penerapan sistem.  Notasi <<extend>> dapat di lihat pada Gambar 2.4.

Gambar 2.4 Notasi <<extend>>
Sumber : (Dharwiyanti, 2003)
2.8.2  Class Diagram

        Class diagram adalah sebuah model statis  yang menunjukkan kelas-kelas dan hubungan antar  kelas  yang tetap konstan dalam sebuah  sistem dari waktu ke waktu. Diagram kelas menggambarkan kelas  yang mencakup perilaku dan sebuah pernyataan  dalam  hubungan  antar  kelas.  Adapun  elemen-elemen  dari  class diagram adalah sebagai berikut (Dennis, Wixom, & David, 2004) :


Asosiasi Class Diagram (Dennis, Wixom, & David, 2004) :


2.8.3  Sequence Diagram

           Sequence  diagram  merupakan  model  dinamis  yang menunjukkan  urutan  eksplisit  sebuah  pesan  yang  melewati  antar  objek  dalam interaksi  yang  didefinisikan.  Adapun  elemen-elemen  dari  sequence  diagram adalah sebagai berikut ( Dennis, Wixom, & David, 2004) :
Tabel 2.1 Sequence Diagram

Sumber : ( Dennis, Wixom, & David, 2004)
 

Contoh pembuatan Sequence Diagram  terdapat pada Gambar 2.5.




Gambar 2.5 Contoh Sequence Diagram untuk pendataan barang
Sumber: (Hermawan, 2013)









DAFTAR PUSTAKA

Porter, M.F. (1980). An algorithm for suffix stripping. Program, Vol. 14 No.3, pp. 130-7.
Salton, G. (1989). Automatic Text Processing. Addison- Wesley.
Hovy, E. (2001). Automated text summarisation. In Handbook of Computational Linguistics, R. Mitkov (ed.). Oxford: Oxford University Press.
Ruthven, I., Lalmas, M. (2003). A survey on the use of relevance feedback for information access systems. Knowledge Engineering Review, 18(2): 95-145. 9.
Li, L.; Shang, Y.; Zhang, W. (2002). "Improvement of HITS-based Algorithms on Web Documents". Proceedings of the 11th International World Wide Web Conference (WWW 2002). Honolulu, HI. ISBN 1-880672-20-0.
Dharwiyanti, S. (2003). Pengantar Unified Modeling Languange (UML). Retrieved from Ilmukomputer.com.
Martin, F. (2004). UML Distilled Third Edition. Boston: Pearson Education, Inc.
Mihalcea, R., & Radev, D. (2011). Graph-Based Natural Language Processing and Information Retrieval. United States: CAMBRIDGE UNIVERSITY PRESS.
Triasanti, D. (2013). KONSEP DASAR PYTHON. jakarta: dini3asa.staff.gunadarma.ac.id.
Dennis, A., Wixom, B. H., & D. T. (2004). Systems Analysis and Design with UML Version 2.0: An Object-Oriented Approach, 2nd Edition. Wiley.



Comments

Popular posts from this blog

Algoritma LexRank

note : sebelumnya tugas akhir saya yaitu meringkas sebuah dokumen berita dengan menggunakan Algoritma HITS, setelah dipikir - pikir Algoritma nya akan di ganti menjadi Algoritma LexRank karena materi yang terkait lebih banyak. :D

Skema Alur Sistem Peringkasan