無標題文件

Google Search進階使用

詳細內容

Google Search進階使用

轉載自:瑞麟科技 http://www.ringline.com.tw/zh/support/techpapers/network-security/163-google-search-.html


前言
相信很多人都有使用過Google Search在浩瀚的Internet上搜尋資料,近來常被討論的Google入侵(Google Hack)其實是一門駭客工具課也是一門藝術,利用Google強大的搜尋引擎在Internet上搜索出大量的電腦安全方面的問題,這些資訊可被駭客利用來入侵電腦網路,但也可以被安全人員當成安全測試的結果,藉此以強化安全或找出網路中隱藏的敏感資訊。其中部份的技巧也可運用在MSN及YAHOO的Search上,請有興趣的讀者自行測試。本篇文章不再對Google Search的基本搜尋語法及運算元(Operator)多做說明,我希望可以直接切入到實用的入侵方法及相關的思索方向。讀者可以在下方參考到一般常用來做為Google Search的運算元。


Google Search基本指令:
+ :強制包含某query、 - :排除某query、 " :組合多個term成為一個query、 . :match單一character、 * :match任意數量的character、 | :OR運算


Google Search進階指令: 
filetype, inurl, allinurl, site, intitle, allintitle, intext, allintext, numrange, daterange。

Google Search的搜索技術範圍相當廣泛,包括針對網站、伺服器、目錄、預設出廠設定、Web頁面、Apache、Netscape 、IIS等Web指紋(fingerprint)技術、文件、錯誤訊息、Login page、密碼、管理頁面、敏感資訊及文件等等。以下作者舉出部份相關實用的技巧讓讀者感受一下Google Search的威力,也請讀者用您的靈感與創意自行組合出可以揭露重大安全問題的query。


E-Mail地址收集
在Google Group Advanced Search中使用@gmail.com查詢可以搜尋到在Usenet上很多的gmail.com的電子郵件地址,或者您也可以使用@gmail.com site:group.google.com搭配其它運算元來過濾掉一些搜尋結果的雜訊,值得一提的是,www.sensepost.com上有篇文章(Putting the Tea Back into CyberTerrorism)提到,可以利用註冊Google API key加上使用SOAP等的Perl套件,再加上一支由SensePost作者所寫的Perl程式email-maine.pl來萃取出相當數量的gmail電子郵件地址。


網路探勘
從駭客的角度來看,其實最容易得手的目標是那些最得不到系統管理員照顧的設備。駭客可能不會想要從黑一台經百般照顧、加固過且有特別資安設備防護的主機(走前門)為開始,反而會想從那些可能已被系統管理者遺忘的設備(走後門)開始。Google Search在網路探勘技術上也有很多用處,利用這些訣竅可以讓你快速的鎖定目標網路或主機:


1.網站挖掘(Site Crawling) – 使用site運算元可以快速過濾出很多目標網域,例如使用site:Microsoft.com可以列出十幾個微軟註冊的網域,而site:Microsoft.com –site:www.microsoft.com –site:msdn.microsoft.com則可以快速地搜索出除www.microsoft.com及msdn.microsoft.com外的微軟網域資訊。相同地,之前提到的一個SensePost裏的作者也寫了一個Perl程式dns-maine.pl(一樣是使用唯一由Google認可的Google API)來更精準且廣泛的搜尋出microsoft.com的所有子網域。


2.網站連結挖掘(Line Mapping) – 之前提到,駭客最容易得手的目標是那些最得不到系統管理員照顧的設備,想當然,這些設備存在漏洞的機會也最高。網站連結挖掘的手法就是利用網站連結的資訊來找出連結的受信任網站,從而發現可以黑掉主要目標主機的管道。但是話說回來,有連結不表示跟目標主機有關係存在,因為我們可以輕易地做一個連結到任意網站,因此我們要留意的是跟目標主機存在有高連結性的網站(比方說Site A連到Site B,Site B也有連結到Site A。受限於link這個運算元本身,我們可以使用更強大的工具來代替link;BiLE(Bi-directional Link Extractor)是使用Google API實作的Perl程式,它具有加權(Weighting)的功能可以提高目標主機與連結主機間連結關係的可靠度。



搜尋弱點主機


很多套件或多或少會有一些特有的關於描述產品本身的關鍵字,例如CubeCart是有關電子商務的一個套裝軟體,它曾在2004年10月被公佈了一個安全性漏洞,所以我們可以用Google Search來搜尋還有使用CubeCar 2.x版的網站。若你想當一下駭客的話,就可以到弱點資料庫網站去查一下相關弱點資訊,然後找到合適的工具就可以嘗試一下。再舉一個例子,國內很多網站會使用Endiva來編輯網頁,使用如下的運算元”powered by endiva”就可搜索出使用此網頁編輯軟體的網站。
 

圖一


還有很多這方面的關鍵字可以使用,您可以參考Johnny Long所建立的GHDB(Google Hacking Database)資料庫網站 http://johnny.ihackstuff.com,如圖二所示。讀者可以進去逛逛看是否自己公司或自己的網站有被Johnny列在GHDB中。

 

圖二

在幾年前有用過Scanner來找漏洞主機的讀者應該知道,CGI Scanner可以幫你在目標網路中找到那些此Scanner列出的具漏洞的程式,所以利用簡單的運算元inurl:/cgi-bin/maillist.cgi就可使用Google Search找到還執行著maillist.cgi漏洞程式的網站。但要記住,因為它只是判斷檔名,所以不能保證一定是具有漏洞的原始程式。一個很有名的CGI Scanner就是www.sensepost.com開發的Wikto,針對其Google Hack功能而言,其實Wikto並非直接對目標主機做掃瞄,而是利用Google API對Google做查詢;此外,Johnny Long開發了一個自動化的Google搜尋程式Gooscan,在本文後面會對自動化工具做說明。


還有很多搜尋的技巧例如可以使用運算元site搭配關鍵字error或warning,也可以搜尋出大量有用的資訊揭露(Information Disclosure)訊息。您可以試試搜尋看看,您應該可以發現相當多的關於Access Denied及SQL連線的錯誤訊息,這些訊息對於駭客而言可說是珍貴的資訊呢!有些網站會將一些輔助的登入資訊在使用者登入錯誤後教導使用者如何正確登入或尋求幫助的Help Desk資訊,利用運算元site及關鍵字login、logon或password也可搜尋到相當數量的資訊揭露資料。時下流行的網頁應用程式攻擊就可以利用這些技巧收集到很多有利於攻擊的資訊,比方說Login Portal,通常是駭客會利用SQL Injection穿透登入認證的一個很好的起始點。


有些管理者有自訂管理功能的習慣,通常會建一個虛擬目錄比方http://www.mycompany.com/Admin以為神不知鬼不覺,但此類的Obfuscation問題利用Google Search也可找到很多會被利用來攻擊的資訊。例如使用inurl:/admin可以找到很多可利用的網頁。有些粗心的程式開發人員會把更改過的舊版原始程式以bak副檔名存放在網頁目錄中,這種作法很容易就會將舊版原始程式給曝露出去,只要利用inrul:bak及inurl:temp就有機會搜尋到舊版的原始程式碼,又因為網頁伺服器一般會將bak副檔名的程式內容直接顯示出來,那駭客就直接看到你的原始程式了,如果你又將連接資料庫的密碼hardcoded在程式裏,那駭客就不費吹灰之力拿到你資料庫的密碼了。


網頁伺服器的profiling

網頁伺服器算是Internet上最容易找到的機器了,而探測網頁伺服器最方便簡單的方法就是使用掃瞄軟體(Scanner),例如使用NMAP或Nessus等。但這些Scanner都必須要與目標主機實際接觸以獲取相關服務的訊息,而使用Google Search並不需要與目標主機直接接觸,所獲得的資訊也不在話下。Apache Server在目錄瀏覽(Directory Listing)狀況下會在網頁的最下方顯示Apache版本及server at的字樣,相同地,Microsoft IIS也會在網頁的最下方顯示IIS版本及server at的字樣。我們可以使用關鍵字”Apache/2.0.61 server at”來搜尋出執行著Apache版本2.0.61的網頁伺服器。網頁伺服器的錯誤訊息也可用來判斷伺服器版本,例如IIS會顯示HTTP 404 - 找不到檔案Internet Information Services訊息,當它找不到你要求的網頁時。所以我們可以利用Microsoft-IIS 5.0 intitle:”找不到檔案”來搜尋出執行IIS 5.0的伺服器。但我們要如何更進一步的找出其中的規則呢?Apache中的網頁錯誤訊息是根據error目錄裏的一堆var檔案來定義的,例如:


HTTP_BAD_GAYTEWAY.html.var、HTTP_BAD_REQUEST.html.var、HTTP_FORBIDDEN.html.var、HTTP_INTERNAL_SERVER_ERROR.html.var、HTTP_LENGTH_REQUIRED.html.var、HTTP_METHOD_NOT_ALLOWED.html.var、HTTP_NOT_FOUND.html.var、HTTP_REQUEST_URI_TOO_LARGE.html.var、HTTP_SERVICE_UNAVAILABLE.html.var、HTTP_UNAUTHORIZED.html.var等等,我們可以針對這些檔案內容的關鍵字來做搜索,一樣可以找出很豐富的資訊揭露訊息。我以最容易出現的錯誤訊息HTTP_NOT_FOUND為例,讓讀者看看其中的關鍵字寫些甚麼。底下為我從HTTP_NOT_FOUND.html.var檔案裏截取出語言為English的設定:
Content-language: en
Content-type: text/html; charset=ISO-8859-1
Body:----------en--
<!--#set var="TITLE" value="Object not found!"
--><!--#include virtual="include/top.html" -->
    The requested URL was not found on this server.
  <!--#if expr="$HTTP_REFERER" -->
    The link on the
    <a href="/<!--#echo encoding="url" var="HTTP_REFERER" -->">referring
    page</a> seems to be wrong or outdated. Please inform the author of
    <a href="/<!--#echo encoding="url" var="HTTP_REFERER" -->">that page</a>
    about the error.
  <!--#else -->
    If you entered the URL manually please check your
    spelling and try again.
  <!--#endif -->
<!--#include virtual="include/bottom.html" -->


從以上片段可以看出,TITLE是顯示Object not found,所以我們可以使用Google Search的intitle運算元來搜索,寫法為intitle:”Object not found”。但是這樣的話搜索範圍太大,可能傳回數十萬比記錄,所以必須在加一些限制條件才行;在上面片段可發現,include命令的地方有呼叫top.html及bottom.html,如果把bottom.html打開看的話會發現它又去include一個contact.html.var檔。
</p>
<p>
<!--#include virtual="../contact.html.var" -->
</p>
<h2>Error <!--#echo encoding="none" var="REDIRECT_STATUS" --></h2>
<address>
  <a href="/"><!--#echo var="SERVER_NAME" --></a><br />
  <!--#config timefmt="%c" -->
  <span><!--#echo var="DATE_LOCAL" --><br />
  <!--#echo var="SERVER_SOFTWARE" --></span>
</address>
</body>
</html>
用notepad編輯contact.html.var後可以發現一些關鍵字眼:” If you think this is a server error, please contact”,所以我們最後可以使用Google Search的技巧,利用intitle:”Object not found” “this is a server error”此pattern就可以找到比較精準的有關Apache Server的資訊揭露訊息了。
Content-language: en
Content-type: text/html; charset=ISO-8859-1
Body:----------en--
If you think this is a server error, please contact
the <a href="mailto:<!--#echo encoding="url" var="SERVER_ADMIN" -->">webmaster</a>.
----------en—

如果說不想用intitle(內容對應於HTTP錯誤訊息var檔案裏的TITLE內容)的方式來搜索,也可以使用HTTP錯誤訊息var檔案裏的特定內容說明,如下表所示,列出了各HTTP錯誤訊息var檔案裏的完整關鍵字:
Client Request Errors:
400 Bad Request
401 Authorization Required
402 Payment Required (not used yet)
403 Forbidden
404 Not Found
405 Method Not Allowed
406 Not Acceptable (encoding)
407 Proxy Authentication Required
408 Request Timed Out
409 Conflicting Request
410 Gone
411 Content Length Required
412 Precondition Failed
413 Request Entity Too Long
414 Request URI Too Long
415 Unsupported Media Type

Server Errors:
500 Internal Server Error
501 Not Implemented
502 Bad Gateway
503 Service Unavailable
504 Gateway Timeout
505 HTTP Version Not Supported
    400    Bad Request — there is a syntax error in the request, and it is denied.
401    The request header did not contain the necessary authentication codes, and the client is denied access.
402    Payment is required. This code is not yet in operation.
403    Forbidden — the client is not allowed to see a certain file. This is also returned at times when the server doesn't want any more visitors.
404    Document not found — the requested file was not found on the server. Possibly because it was deleted, or never existed before. Often caused by misspellings of URLs.
405    The method you are using to access the file is not allowed.
406    The requested file exists but cannot be used as the client system doesn't understand the format the file is configured for.
407    The request must be authorised before it can take place.
408    Request Timeout — the server took longer than its allowed time to process the request. Often caused by heavy net traffic.
409    Too many concurrent requests for a single file.
410    The file used to be in this position, but is there no longer.
411    The request is missing its Content-Length header.
412    A certain configuration is required for this file to be delivered, but the client has not set this up.
413    The requested file was too big to process.
414    The address you entered was overly long for the server.
415    The filetype of the request is unsupported.
500    Internal Server Error — nasty response that is usually caused by a problem in your Perl code when a CGI program is run.
501    The request cannot be carried out by the server.
502    Bad Gateway — the server you're trying to reach is sending back errors.
503    Temporarily Unavailable — the service or file that is being requested is not currently available.
504    The gateway has timed out. Like the 408 timeout error, but this one occurs at the gateway of the server.
505    The HTTP protocol you are asking for is not supported.

除了以上討論HTTP Server預設的錯誤訊息可用來判斷執行的HTTP Server的種類外,也可以從HTTP Server的預設Help文件及預設的程式範例來加以以判斷。Inurl:iishelp可以找到IIS伺服器,inurl:cfdocs可以找到安裝有ColdFusion軟體的HTTP Server,inurl:WebSphereSamples可以找到Web Sphere伺服器,inurl:samples/Search/queryhit可以找到Microsoft Index Server,inurl:siteserver/docs可以找到Microsoft Site Server,inurl:/pls/simpledad/admin_可以找到Oracle 9i等等。


登入首頁的搜尋有時可獲取執行中軟體系統的版本,藉由獲取版本訊息後就可以繼續搜尋與此版本相關的系統漏洞並利用相關工具進行攻擊。之前提過,針對Login Portals可獲取的訊息,GHDB裏也有相關的討論與說明,底下我列出部份內容以供讀者參考,你也可以試試看是否你公司的Login Portals也很容易被Google Search到:
Apache Tomcat Admin intitle:”Tomcat Server Administration”
ASP.NET inurl:ASP.login_aspx
Citrix Metaframe inurl:/Citrix/Nfuse17/
Citrix Metaframe inurl:citrix/metaframexp/default/login.asp
ColdFusion Admin intitle:”ColdFusion Administrator Login”
ColdFusion Generic inurl:login.cfm
Lotus Domino Admin inurl:”webadmin” filetype:nsf
Lotus Domino inurl:names.nsf?opendatabase
Microsoft Certificate Server intitle:”microsoft certificate services”
inurl:certsrv
Microsoft Outlook Web Access allinurl:”exchange/logon.asp”
Microsoft Outlook Web Access inurl:”exchange/logon.asp” or
intitle:”Microsoft Outlook Web Access –
Logon”
Microsoft Remote Desktop intitle:Remote.Desktop.Web.Connection
inurl:tsweb
Network Appliance Admin inurl:na_admin
Novell Groupwise Web Access inurl:/servlet/webacc Novell
Shockwave Flash Login inurl:login filetype:swf swf
Tivoli Server Administration intitle:”Server Administration” “Tivoli power”
VNC “VNC Desktop” inurl:5800

搜尋使用者名稱與密碼及其他有用文件


其實要黑別人的電腦最簡單的方法就是猜使用者名稱與密碼,歷史經驗告訴我們即使是重金打造的資安系統也有可能因為設了簡單的密碼而使整個系統被輕易入侵。我們所利用的是系統管理員的疏忽以及某些特定軟體的認證特性,使得藉由簡單的Google Search即可搜尋到頗有價值的使用者及密碼資訊。Filetype運算元可以搜尋特定副檔名檔案,使用filetype:mdb有很大機會可以搜索到使用者名稱及密碼資料,因為有很多大意的系統管理員或網頁程式設計師會把登入的使用者名稱及密碼檔存在虛擬網頁的根目錄中,因此只要搜尋到mdb檔案即可下載並開啟內容。還有像是MySQL會把密碼放在connect.inc或globals.inc檔案中,所以利用intitle:”index of” intext:connect.inc或intext:globals.inc也可搜尋到一些機會。其他像是Microsoft Frontpage Web Password可以使用intitle:index.of administrators.pwd、PHP連接資料庫資訊可使用intitle:index.of config.php或inurl:config.php dbuname dbpass、UNIX Password檔可使用intitle:”index of..etc” passwd或intitle:index.of passwd passwd.bak、WS_FTP的使用者密碼檔可使用”index of/” ”ws_ftp.ini” ”parent directory”等等。


Log檔也是駭客常會收集的文件之一,因為很多Log檔裡頭常含有一些IP資訊、存取記錄、時間記錄或甚至是使用者登入名稱及密碼等等。最簡單的搜尋方法是使用filetype:log inurl:log。GHDB中也列出了很多應用程式常用的Log檔名稱,我們可以藉由搜尋這些檔名來增加找到有用資訊的機會。
inurl:error.log filetype:log -cvs Apache error log
inurl:access.log filetype:log –cvs Apache access log (Windows)
filetype:log inurl:cache.log Squid cache log
filetype:log inurl:store.log RELEASE Squid disk store log
filetype:log inurl:access.log TCP_HIT Squid access log
filetype:log inurl:useragent.log Squid useragent log
filetype:log hijackthis “scan saved” Hijackthis scan log
ext:log “Software: Microsoft IIS server log files
Internet Information Services *.*”
filetype:log iserror.log MS Install Shield logs
intitle:index.of .bash_history UNIX bash shell history file
intitle:index.of .sh_history UNIX shell history file
“Index of” / “chat/logs” Chat logs
filetype:log username putty Putty SSH client logs
filetype:log inurl:”password.log” Password logs
filetype:log cron.log UNIX cron logs
filetype:log access.log –CVS HTTPD server access logs
+htpasswd WS_FTP.LOG filetype:log WS_FTP client log files
“sets mode: +k” IRC logs, channel key set
“sets mode: +s” IRC logs, secret channel set
intitle:”Index Of” -inurl:maillog Mail log files
maillog size

近來最被討論的資安議題非網頁應用程式安全的範疇,其中的重點除了OWASP中列出的10大網頁應用程式安全弱點外,就是有關資料庫因這些弱點所導致的資料洩露問題了,最廣為人知的就是SQL Injection問題。Google Search在網頁應用程式安全方面的應用主要並不是針對如何黑掉別人的資料庫,而是利用Goole Search強大的搜尋功能來找出有利於駭客進一步攻擊的資訊,所謂知己知彼百戰百勝就是這個道理,盲目的攻擊只會讓駭客自己增加被逮到的機會而已,若先將情報工作做好則將事半功倍。Login Portals後端通常就是資料庫使用以下搜尋運算元可以找到很多Login Portals,然後從這些Login Protals就可以約略的得到後端資料庫的一些訊息。底下列出GHDB中提到的幾個比較well-known的Login Portals:Lotus Domino可利用inurl:names.nsf?opendatabase、MSSQL可利用intitle:”Web Data Administrator - Login”、 Oracle HTTP Server可使用intitle:”oracle http server index” “Copyright *Oracle Corporation.”、phpMyAdmin可使用“phpMyAdmin” “running on” inurl:”main.php”等等。之前提到HTTP錯誤訊息可以被用來判斷所執行的HTTP Server,相同的,資料庫的錯誤訊息也可被用來做為判斷資料庫種類的依據。底下照舊我列出GHDB裏提到一些長見的錯誤訊息,其他若讀者有興趣可前往Johnny Long的網站參考:“MySQL error with query”、 “supplied argument is not a valid MySQL result resource”是MySQL的一些錯誤訊息、“ORA-00921: unexpected end ofSQL command”、 “ORA-00933: SQL command not properly ended”是Oracle的錯誤訊息的幾個例子、“detected an internal error [IBM] [CLI Driver][DB2/6000]”、 An unexpected token “END-OF-STATEMENT” was found是DB2的錯誤訊息的幾個例子。


搜尋攻擊程式

網路上有很多網站有提供攻擊程式的分享,作者在此並不是要教讀者如何去黑別人的電腦,而已從Google Search的研究方向出發,讓資安工作者可以分享這些知識,用這些知識來幫助您在組織內做合法的滲透測試,看看您所在組織的網路系統是否安全。在Google上搜尋攻擊程式的最簡單方法當然就是利用副檔名及檔案裏面的特定內容來搜尋,圖三是我使用lynx –dump “http://www.google.com/search?q=filetype:c+%22exploit&num=50”來列出前50個攻擊程式資訊。
 

圖三

接著我再用grep .c | awk ‘{print $2}’| sort –u把資訊用簡潔的格式篩選出來,如圖四。

 

圖四

當然你也可以直接用Google搜尋filetype:c buffer overflow exploit可以得到如圖五的資訊,列示出很多用C語言寫的Buffer Overflow的攻擊程式。

 

圖五

其實利用Google Search找出有放置攻擊程式的網站也有助於做電腦鑑識,因為這些放置攻擊程式的網站有可能是被黑掉了的機器,再搭配String這支UNIX的Utility,也可以大概判斷一下所發現的程式是否真的是駭客工具。


Goolag
在筆者撰寫此篇文章的同時,一個網路上赫赫有名的駭客組織, 死牛教派(cDc, Cult of the Dead Cow, 著名的Back Orifice後門程式就是它們開發的), 公佈了一個免費的資安弱點測試工具, Goolag, 此工具即是利用本篇文章中所提的Google Search技術,在Internet上搜尋所指定的網站是否具有弱點,此組織聲稱他們已利用Goolag Scanner在北美及歐洲的網站發現相當多驚人的弱點。駭客工具的盛行及越來越容易使用的特點,使得一般惡意使用者也有能力找到一堆重大的網站弱點,因此筆者建議所有負責網站資安的人員可要嚴肅面對此課題了。
在安裝完Goolag後執行它,先看一下Help訊息會出現如圖的License訊息,真不知cDc是真的感謝Google還是有點暗虧?
 

如圖是Goolag的GUI畫面,Goolag預設已包含了約1418個精心設計的dorks(就是Google關鍵字Search),共有14大類dorks。

 

以Vulnerable Servers為例,如圖,可以看到dork info視窗有對於此Google關鍵字搜尋的解釋,以Allinurl:intranet admin為例,dork info說明了使用此Google關鍵字搜尋的意思及想法。筆者以所任職的公司為例做搜尋,在host欄位鍵入www.ringline.com.tw,可以在下方Console視窗看到完整的Google Search語法: ScanURL:: http://www.google.com/search?q=allinurl:intranet%20admin +site:www.ringline.com.tw,在看過筆者之前對Google Search的說明後您應該可以很容易了解以上的語法吧? 當然,沒掃到任何關於此dork的弱點資訊被Goolag揭露出來,表示本公司網站對此一URL的弱點揭露是安全的。

            
 

結論
講了這些Google search的搜尋技巧後,讀者一定會想,那要怎麼才能預防這些Google Search的傷害呢? 以下我就針對幾個要點來談談如何防範自己的網站被不當揭露。


1.加強網頁伺服器安全
在說明之前必須要先做一釐清,這裡所談的網頁伺服器安全並不包括網頁應用程式安全的範疇及伺服器的加固(Hardening)問題,只是針對如何防止被Google Search做Site Crawling做說明。

首先最簡單的策略就是將公開給Public的資訊與Private的資訊分開,最好是分開儲存在不同機器上並在兩者間使用隔離措施,避免當網頁伺服器被入侵後連帶Private的資訊也被拿走。

其次,關於防止目錄揭露(Directory Listing)的問題,建議將Directory List的功能關閉,在Apache中可以在httpd.conf中將其關閉:Options -Indexes FollowSymLinks MultiViews。第三,適當的設定robot.txt檔。如果不想讓Google做Site Crawling則可以使用如下的語法:”User-Agent: Googlebot Disallow: /”。若不想任何Crawler做Site Crawling則可以使用”User-Agent: * Disallow: /”。NOARCHIVE可以用來防止被Site Crawler去cache你的網頁,使用<META NAME="ROBOTS" CONTENT="NOARCHIVE">可以防止被所有的Crawler去cache你的網頁,而<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">則只防止Google來cache你的網頁。第四,將不需要的範例程式移除。


2.實際用Google相關工具做Site Crawling
有些做Google Site Crawling的工具需要使用Google API,Google建議最好依據它們的規定做Crawling。首先介紹Gooscan這個工具,Gooscan是由GHDB的作者Johnny Long所開發的Linux-base工具,因為它並沒有使用Google建議的Google API,”聽說”使用此類工具有可能(可能性很小吧)會被Google Search Engine列入Blocked IP,所以請讀者自己斟酌使用。Windows也有類似的工具如Athena及SiteDigger。Athena也不是使用標準的Google API來做Crawling,但SiteDigger是使用Google TOS(Term of Services)規定的Google API,但是需要Google License Key。Wikto是Sensepost開發的一個free的Site Crawlier,性能相當優異但它也需要Google License Key。它的一個大特色是可以將GHDB納入到其database中。


3.如圖六,使用Google的網頁移除要求工具防止你的網頁被列入Google搜尋中https://www.google.com/webmasters/tools/removals?hl=zh_twr,你可以參考網頁裡的說明有關如果移除你認為有可能是資訊揭露等級的網頁。

 

圖六


參考資料:
1.http://johnny.ihackstuff.com/ghdb.php
2.http://johnny.ihackstuff.com/forum
3.www.sensepost.com
4.www.google.com

(作者現任職於麟瑞科技)

 

新增回應


安全碼
更新

   

Who's Online  

目前有 22 個訪客 以及 沒有會員 在線上

   

Login Form  

   

Visitors Counter  

0134374
Today
Yesterday
This Week
Last Week
This Month
Last Month
All days
69
96
958
132429
4336
592
134374

Your IP: 54.196.208.187
Server Time: 2019-03-23 13:24:14
   
ENDIF