2
# -*- coding: utf-8 -*-
6
class parseur_html(object):
8
#Défini le lien de téléchargement:
9
self.lien = 'http://wine.budgetdedicated.com/archive/index.html'
10
#Défini le nom du fichier enregistré:
11
self.nom_fichier = '/tmp/wine_temp.html'
13
#Envoi le téléchargement de la page:
15
#Envoi le parsing de la page:
18
#Une fois que le bazard est fait, on affiche la liste des liens:
19
#print self.liste_liens
21
#Télécharge le fichier:
24
urllib.urlretrieve(self.lien, filename=self.nom_fichier, reporthook=None)
25
#print self.lien, 'Téléchargé !'
28
print "Impossible de se connecter"
31
#Ouvre et parse le fichier pour extraire les liens:
32
def ouvre_fichier(self):
33
fichier = open(self.nom_fichier,'r')
34
#fichier = fichier.readlines()
35
fichier = fichier.read(-1)
36
#fichier = fichier.split('</b>')
37
fichier = fichier.split('</a>')
39
#Boucle pour ne récupérer que les liens dans le fichier:
40
#Récupère la première partie des liens (puisque ces derniers ne sont pas absolus dans le code)
41
self.debut_lien_temp = self.lien.split('/')
42
self.debut_lien = self.lien
43
self.debut_lien = self.debut_lien.replace(self.debut_lien_temp[len(self.debut_lien_temp)-1], '')
46
#print 'Nombre de lignes:', str(len(fichier))
47
#self.liste_liens = []
49
#Parcours le fichier avec une boucle afin de ne garder que ce qui nous interesse:
50
while boucle < len(fichier):
51
ligne_courante = fichier[boucle]
52
if '<a href="' in fichier[boucle] and '.deb' in fichier[boucle]:
53
ligne_courante = ligne_courante.replace('\n', '')
54
ligne_courante = ligne_courante.split('.deb')
55
ligne_courante = ligne_courante[0].split('<a href="')
56
#print '>', boucle, ':', self.debut_lien+ligne_courante[len(ligne_courante)-1] + '.deb'
57
print self.debut_lien+ligne_courante[len(ligne_courante)-1] + '.deb'
58
#self.liste_liens.append(self.debut_lien+ligne_courante[len(ligne_courante)-1] + '.deb')
61
if __name__ == "__main__":