java如何爬取網(wǎng)頁
百度搜索引擎的原理其中之一就是定期的派出網(wǎng)絡(luò)爬蟲到互聯(lián)網(wǎng)上去爬取網(wǎng)頁,下面就讓學(xué)習(xí)啦小編教大家java如何爬取網(wǎng)頁吧。
java爬取網(wǎng)頁的方法
我希望輸入一個(gè)有效的網(wǎng)址后返回這一網(wǎng)址下的網(wǎng)頁源碼,則有代碼如圖:
通過網(wǎng)址連接到指定的網(wǎng)址
在運(yùn)行之前把開發(fā)空間的的編碼改為UTF-8,否則編譯執(zhí)行返回的網(wǎng)頁中的中文會(huì)變成亂碼
連接成功后通過連接對(duì)象得到輸入流,讀出輸入流就可以得到網(wǎng)頁代碼
運(yùn)行后得到的網(wǎng)頁代碼如下
把返回的代碼復(fù)制到EditPlus中運(yùn)行一下看看
猜你感興趣的: