Penerapan Teknik Google Dorking Untuk Identifikasi Kerentanan Sensitive Data Exposure Menggunakan Google Hacking Database (GHDB) Dengan Metode Focused Crawling: Studi Kasus Situs NASA
Main Article Content
Abstract
Di era digital saat ini, kebocoran data sensitif (Sensitive Data Exposure) menjadi ancaman serius bagi integritas organisasi, sering kali disebabkan oleh kesalahan konfigurasi izin akses misalnya studi kasus ini yaitu pada layanan penyimpanan awan seperti Google Drive dan Spreadsheet. Penelitian ini bertujuan untuk merancang dan mengimplementasikan sistem audit keamanan otomatis bernama DorkWatch untuk mengidentifikasi potensi kebocoran data pada domain nasa.gov. Penelitian ini memanfaatkan sumber data primer berupa aset digital yang terindeks pada domain nasa.gov dan subdomain terkait, yang dikumpulkan secara real-time melalui pemanfaatan 5 kueri dork spesifik dari Google Hacking Database (GHDB) yang menargetkan ekosistem Google Workspace. Dalam proses pengujian yang dilakukan, dengan limit 25 hasil pencarian sistem berhasil mengekstraksi dataset yang mencakup tautan layanan penyimpanan awan publik (Google Drive dan Docs) dari konten HTML serta metadata file PDF menggunakan Regular Expression (Regex) dengan metode Focused Crawling. Dataset yang dihasilkan kemudian diklasifikasikan secara otomatis ke dalam 2 kategori utama, yaitu Docs Exposure dan Drive Exposure. Sistem ini dibangun menggunakan bahasa pemrograman Python dengan kerangka kerja Flask, dan menerapkan teknik Google Dorking berbasis Google Hacking Database (GHDB) untuk pencarian dokumen publik dan metode Focused Crawling untuk penelusuran aset digital secara lebih terarah, serta melakukan analisis risiko otomatis berdasarkan validasi status HTTP dan deteksi kata kunci sensitif. Hasil pengujian menunjukkan bahwa sistem DorkWatch efektif dalam menemukan dan mengklasifikasikan aset NASA yang terekspos ke publik, termasuk tautan file Google Docs serta folder dan file Google Drive yang tidak muncul pada hasil pencarian standar, sehingga membuktikan bahwa integrasi metode ini efisien dalam memitigasi risiko kebocoran informasi.
Article Details

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
References
A. Hasibuan and E. Dalimunthe, “Implementasi Metode Client Server pada Penerapan Aplikasi Simulasi Ujian Akhir,” vol. 5, no. 2, pp. 152–161, 2020.
J. E. Lantu, K. Santa, F. I. Sangko, and O. Kembuan, “Development of a Web-Based File Encryption System Using the Advanced Encryption Standard Method,” 2025.
Q. C. Kainde et al., “BONGKAR RAHASIA CYBERCRIME,” 2024.
S. Ghundare, A. Patil, and R. Lad, “Importance of Cyber Security,” Int. J. Eng. Res. Technol., vol. 8, 2020, [Online]. Available: https://consensus.app/papers/importance-of-cyber-security-ghundare-patil/9cbac46a2d4a506e88b32294ab64c6ae/
A. Kenap, E. Kembuan, E. Usoh, and H. Tondo, Optimizing the Digital Education Technology in Learning Management System Design During and Post-Covid-19 Pandemic in Society 5 . 0, vol. 1. Atlantis Press SARL, 2023. doi: 10.2991/978-2-494069-35-0.
S. Kashman, “Google Dorking or Legal Hacking: From the Cia Google Dorking or Legal Hacking: From the Cia Compromise To Your Cameras At Home, We Are Not As Compromise To Your Cameras At Home, We Are Not As Safe As We Think Safe As We Think,” Technol. Arts Washingt. J. Law, vol. 18, no. February, pp. 1–2, 2023, [Online]. Available: https://digitalcommons.law.uw.edu/wjltahttps://digitalcommons.law.uw.edu/wjlta/vol18/iss2/1Electroniccopyavailableat:https://ssrn.com/abstract=4369984
P. S. S. Kiran Gandikota, D. Valluri, S. B. Mundru, G. K. Yanala, and S. Sushaini, “Web Application Security through Comprehensive Vulnerability Assessment,” Procedia Comput. Sci., vol. 230, no. 2023, pp. 168–182, 2023, doi: 10.1016/j.procs.2023.12.072.
F. E. Kawatu, R. Sumenge, and M. F. Suharto, “Perancangan Oceanarium dengan Pendekatan Arsitektur Kontemporer di Manado,” vol. 11, no. 02, pp. 39–48, 2023.
Vegesna, “Utilising VAPT Technologies (Vulnerability Assessment & Penetration testing) as a Method for Actively Preventing Cyberattacks,” Int. J. Manag. Technol. Eng., vol. XII, no. Vii, pp. 81–94, 2022, [Online]. Available: https://ssrn.com/abstract=4612524
M. S. Ikbal, B. D. Utami, and A. Halimah, “Development of Practicum Assessment Rubric Assisted by Google Spreadsheet in Basics Electronics Material,” J. Ilm. Pendidik. Fis., vol. 7, no. 3, p. 471, 2023, doi: 10.20527/jipf.v7i3.9698.
A. Santos, “Doing peer feedback in a high school EFL writing class via Google Docs and Sheets: A workshop.,” JALTCALL Publ., vol. PCP2021, no. 1, 2022, doi: 10.37546/jaltsig.call.pcp2021-08.
A. R. Paul, “Analyzing the User Experience of Google Drive Storage Management with Alert Notification,” 2025 Intermt. Eng. Technol. Comput., no. May, pp. 1–5, 2025, doi: 10.1109/IETC64455.2025.11039452.
S. A. S. A. Abdulaziz Mohammed Ali Al Bin Yahya, “Discovering Security Gaps Using the Google Dorks,” pp. 87–92, 2023.
P. van der Linden, “Sensitive Data Exposure &Web Scraping with Python,” 2022, [Online]. Available: https://scholarworks.calstate.edu/downloads/4t64gt62b
J. Fox, E. H. Il, and G. Z. Il, “MINIMIZING SENSITIVE DATA EXPOSURE DURING PREPARATION OF REDACTED DOCUMENTS,” vol. 2, 2019.
J. R. G. Evangelista, R. J. Sassi, and M. Romero, “Google Hacking Database Attributes Enrichment and Conversion to Enable the Application of Machine Learning Techniques,” Indian J. Sci. Technol., vol. 16, no. 42, pp. 3771–3777, 2023, doi: 10.17485/ijst/v16i42.1799.
P. R. Yunelfi, Y. Purwanto, M. F. Ruriawan, A. S. Popalia, and F. Fahrani, “DarkWeb Crawling using Focused and Classified Algorithm,” [CEPAT] J. Comput. Eng. Progress, Appl. Technol., vol. 1, no. 02, p. 1, 2022, doi: 10.25124/cepat.v1i02.4879.
National Aeronautics and Space Administration (NASA), “National Aeronautics and Space Administration (NASA) - Vulnerability Disclosure Program,” Bugcrowd. [Online]. Available: https://bugcrowd.com/engagements/nasa-vdp
N. Samarasinghe, A. Adhikari, M. Mannan, and A. Youssef, Et tu, Brute? Privacy Analysis of Government Websites and Mobile Apps, vol. 1, no. 1. Association for Computing Machinery, 2022. doi: 10.1145/3485447.3512223.