Tulisan ini diambil dari situs berikut http://knowpapa.com/ yang mana digunakan untuk mengambil download gambar yang ada didalam sebuah folder situs (contohnya seperti ini https://code.google.com/p/tutorial-haartraining/) Kalian membutuhkan parser HTML yaitu BeautifulSoup, caranya install yaitu buka command prompt ketikan berikut
from BeautifulSoup import BeautifulSoup as bs
import urlparse
from urllib2 import urlopen
from urllib import urlretrieve
import os
import sys
def main(url, out_folder="D:/download/"):
if os.path.exists(out_folder)==False:
os.mkdir(out_folder)
soup = bs(urlopen(url))
i = 0
for image in soup.findAll("a"):
parsed = url+image['href']
filename = image['href']
outpath = os.path.join(out_folder, filename)
try:
urlretrieve(parsed, outpath)
except:
print "skipping" + parsed
print i
i = i +1
print 'selesai cuy!'
if __name__ == "__main__":
main("http://haar.thiagohersan.com/haartraining/negatives/")
No comments:
Post a Comment