chiark / gitweb /
use UTF8 as default instead of ASCII for .java .gradle pom.xml
authorHans-Christoph Steiner <hans@eds.org>
Tue, 7 Jun 2016 18:13:54 +0000 (20:13 +0200)
committerHans-Christoph Steiner <hans@eds.org>
Tue, 7 Jun 2016 18:13:54 +0000 (20:13 +0200)
commit2b6d692f063b34338931e5a79d62fa3c30edc77e
treef90b66dd9004f8754862e209553f1d8ffc41f74d
parentafd528731a48a38c969a6aef443a045949431073
use UTF8 as default instead of ASCII for .java .gradle pom.xml

.java .gradle and XML files all can use any encoding.  Most code is ASCII,
but authors' names, etc. can easily be non-ASCII.  UTF-8 is by far the most
common file encoding.  While UTF-8 is the default encoding inside the code
in Python 3, it still has to deal with the real world, so the encoding
needs to be explicitly set when reading and writing files. So this switches
fdroidserver to expect UTF-8 instead of ASCII when parsing these files. For
now, this commit means that we only support UTF-8 encoded *.java, pom.xml
or *.gradle files.  Ideally, the code would detect the encoding and use the
actual one, but that's a lot more work, and its something that will not
happen often. We can cross that bridge when we come to it.

One approach, which is taken in the commit when possible, is to keep the
data as `bytes`, in which case the encoding doesn't matter.

This also fixes this crash when parsing gradle and maven files with
non-ASCII chars:

ERROR: test_adapt_gradle (__main__.BuildTest)
----------------------------------------------------------------------
Traceback (most recent call last):
  File "/var/lib/jenkins/workspace/fdroidserver-eighthave/tests/build.TestCase", line 59, in test_adapt_gradle
    fdroidserver.build.adapt_gradle(testsdir)
  File "/var/lib/jenkins/workspace/fdroidserver-eighthave/fdroidserver/build.py", line 445, in adapt_gradle
    path)
  File "/var/lib/jenkins/workspace/fdroidserver-eighthave/fdroidserver/common.py", line 188, in regsub_file
    text = f.read()
  File "/usr/lib/python3.4/encodings/ascii.py", line 26, in decode
    return codecs.ascii_decode(input, self.errors)[0]
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 9460: ordinal not in range(128)
fdroidserver/common.py
fdroidserver/metadata.py
fdroidserver/scanner.py
tests/build.TestCase