chiark / gitweb /
Unescape scraped version names
authorCiaran Gultnieks <ciaran@ciarang.com>
Mon, 2 Jan 2012 16:50:49 +0000 (16:50 +0000)
committerCiaran Gultnieks <ciaran@ciarang.com>
Mon, 2 Jan 2012 16:50:49 +0000 (16:50 +0000)
checkmarket2.py

index 760c5b592a045a398e68cb6a7236ddbf489856c5..d1568291e26f2d37f3885ec688869f9519b12dce 100755 (executable)
@@ -24,7 +24,7 @@ import re
 import urllib
 import time
 from optparse import OptionParser
-
+import HTMLParser
 import common
 
 #Read configuration...
@@ -40,6 +40,8 @@ parser.add_option("-v", "--verbose", action="store_true", default=False,
 # Get all apps...
 apps = common.read_metadata(options.verbose)
 
+html_parser = HTMLParser.HTMLParser()
+
 for app in apps:
 
     if app['disabled']:
@@ -55,15 +57,15 @@ for app in apps:
 
         m = re.search('<dd itemprop="softwareVersion">([^>]+)</dd>', page)
         if m:
-            version = m.group(1)
+            version = html_parser.unescape(m.group(1))
 
         m = re.search('data-paramValue="(\d+)"><div class="goog-menuitem-content">Latest Version<', page)
         if m:
             vercode = m.group(1)
 
-        if vercode is None:
+        if not vercode:
             print "...couldn't find version code"
-        elif version is None:
+        elif not version:
             print "...couldn't find version"
         elif vercode == app['marketvercode'] and version == app['marketversion']:
             print "...up to date"