chiark / gitweb /
Support Hunter
[ypp-sc-tools.db-live.git] / yarrg / yppedia-ocean-scraper
index 30d0c4a8de8d895292879a074a6bf654ecdec4c5..a85403504aae52764a1a6d96f7202f6444c005ed 100755 (executable)
@@ -89,13 +89,13 @@ def parse_chart():
        debug('s',s)
        s = regexp.sub(r'\&lt\;', '<', s)
        s = regexp.sub(r'\&gt\;', '>', s)
+       s = regexp.sub(r'\&quot\;', '"', s)
        s = regexp.sub(r'\&amp\;', '&', s)
        debug('s',s)
        return s
 
 def parse_ocean():
-       firstarch = soup.find('a', attrs = {'title': title_arch_ok})
-       debug('fa',firstarch)
+       content = soup.find('div', attrs = {'id': 'content'})
 
        def findall_title_arch_ok(t):
                return t.findAll('a', attrs = {'title': title_arch_ok})
@@ -104,7 +104,7 @@ def parse_ocean():
                if u.name != 'table': return False
                return len(findall_title_arch_ok(u)) > 1
 
-       archestable = firstarch.findParent('table', attrs={'border':'1'})
+       archestable = content.findChild('table', attrs={'border':'1'})
        debug('at',archestable)
 
        archsoups = []