~fabricematrat/charmworld/redirect-charm : contents of charmworld/reports.py at revision 292

~fabricematrat/charmworld/redirect-charm : (revision 292)
# Copyright 2012, 2013 Marco Ceppi, Canonical Ltd.  This software is
# licensed under the GNU Affero General Public License version 3 (see
# the file LICENSE).

"""

Maybe

- number of people in charmers / charm-contributors. [ push to launchpad]
- total number of external contributor charms (not including juju-core)

Implemented

X - show total commit activity on a weekly basis across the charm universe.[[
X - total number of charms (grouped by charm name)
X - total external contributor growth by week.

"""
import datetime
import itertools
#import json
#import math

DEFAULT_STEP = datetime.timedelta(7)
DEFAULT_START = datetime.datetime(year=2011, month=5, day=1)
JUJU_TEAM = [
    "castro", "byrum", "mims", "gandelman", "juan", "kapil", "mmm"]


class TimeSeries(object):

    _empty_value = lambda x: 0

    def __init__(self, start_date, step, end_date=None):
        self._start_date = start_date
        if end_date is None:
            end_date = datetime.datetime.now()
        self._end_date = end_date
        self._step = step
        self._series = {}
        self._initialize()

    def _initialize(self):
        delta = self._end_date - self._start_date
        step_count = int(
            delta.total_seconds() / self._step.total_seconds()) + 1

        for i in range(step_count):
            value = self._empty_value()
            self._series[self._start_date + (self._step * i)] = value

    def _nearest(self, date):
        if isinstance(date, (int, float)):
            date = datetime.datetime.fromtimestamp(date)
        found = None
        for i in sorted(self._series):
            if date >= i and date < (i + self._step):
                found = i
                break
        return found

    def serialize(self):
        """Sorted tuple serialization."""
        items = self._series.items()
        items.sort()
        return items

    def records(self):
        """Serialized as a sorted list of dictionary records."""
        return {"series":
                [{"timespan": k.strftime("%m/%d/%y"),
                  "value": v} for k, v in self.serialize()]}


class CountTimeSeries(TimeSeries):

    def increment(self, date):
        key = self._nearest(date)
        if key:
            self._series[key] += 1


class AccumulatorTimeSeries(TimeSeries):

    def _initialize(self):
        super(AccumulatorTimeSeries, self)._initialize()
        self._values = set()

    def increment(self, date, value):
        if value in self._values:
            return
        self._values.add(value)
        self._increment_subsequent(date)

    def _increment_subsequent(self, date):
        key = self._nearest(date)
        if not key:
            print((
                self._end_date, datetime.datetime.fromtimestamp(date),
                list(sorted(self._series))[-1]))
        keys = self._series.keys()
        keys.sort()
        for k in keys[keys.index(key):]:
            self._series[k] += 1

    def records(self):
        records = super(AccumulatorTimeSeries, self).records()
        records["values"] = list(self._values)
        return records


class AccumulatorCategorySeries(TimeSeries):

    _empty_value = lambda x: {}

    def __init__(self, start_date, step, end_date=None, keys=()):
        self._keys = keys
        super(AccumulatorCategorySeries, self).__init__(
            start_date, step, end_date)

    def _initialize(self):
        super(AccumulatorCategorySeries, self)._initialize()
        self._values = set()
        d = dict(zip(self._keys, itertools.repeat(0)))
        for k in self._series:
            self._series[k] = d.copy()

    def increment(self, date, value, category):
        if (value, category) in self._values:
            return
        self._values.add((value, category))
        self._increment_subsequent(date, category, value)

    def _increment_subsequent(self, date, category, value):
        key = self._nearest(date)
        if not key:
            raise ValueError(date)
        keys = self._series.keys()
        keys.sort()
        for k in keys[keys.index(key):]:
            if category not in self._series[k]:
                self._series[k][category] = 0
            self._series[k][category] += 1

    def records(self):
        """Serialized as a sorted list of dictionary records."""
        records = []
        for k, v in self.serialize():
            record = {'timespan': k.strftime("%m/%d/%y")}
            for vkey in v.keys():
                record[vkey] = v[vkey]
            records.append(record)
        return {"series": records}


def categorize_contributor(committer):
    e_start = committer.find("<")
    e_end = committer.rfind(">")
    if e_start == -1 and not "@" in committer:
        return "community"
    email = committer[e_start + 1:e_end]
    address, domain = email.split("@")

    # Sigh...
    normalized = committer.lower()
    for m in JUJU_TEAM:
        if m in normalized:
            return "juju"

    if domain.startswith("ubuntu") or domain.startswith("canonical"):
        return "canonical"

    return "community"


def series_external_contributors(db, start=DEFAULT_START, step=DEFAULT_STEP):
    """Total number of community contributors by time slice.
    """
    # Caveats bzr identities are not stable but we use commits
    # as our best indicator of activity.
    series = AccumulatorTimeSeries(start, step)

    charms = db.charms.find()

    for charm in charms:
        for change in charm['changes']:
            team = False
            for m in JUJU_TEAM:
                if m in change['committer'].lower():
                    team = True
                    break
            if team:
                continue
            series.increment(change["created"], change['committer'])

    return series


def series_charm_authors(db, start=DEFAULT_START, step=DEFAULT_STEP):
    """Total number of community contributors by time slice.
    """
    # Caveats bzr identities are not stable but we use commits
    # as our best indicator of activity.
    series = AccumulatorCategorySeries(
        start, step, keys=('community', 'canonical', 'juju'))
    charms = db.charms.find()

    # we need to process in date order to keep things stable
    # this should be a separate collection for queries/ordering
    # without memory loading the whole thing
    changes = []
    for charm in charms:
        changes.extend(charm['changes'])
    changes.sort(lambda x, y: cmp(x['created'], y['created']))
    for change in changes:
        series.increment(
            change["created"],
            change['committer'],
            categorize_contributor(change['committer']))

    return series


def series_charm_growth(db, start=DEFAULT_START, step=DEFAULT_STEP):
    """Total number of charms by time slice, collapses the namespace.
    """
    # Better to use launchpad api to determine pushed branch creation.
    series = AccumulatorCategorySeries(start, step, keys=('distro', 'ppa'))
    charms = db.charms.find()
    for charm in charms:
        if charm['promulgated']:
            series.increment(
                charm['changes'][-1]['created'], charm['name'], "distro")
        else:
            series.increment(
                charm['changes'][-1]['created'], charm['name'], "ppa")
    return series


def series_charm_changes(db, start=DEFAULT_START, step=DEFAULT_STEP):
    """Number of charm commits by time slice.
    """
    series = CountTimeSeries(start, step)

    charms = db.charms.find()
    for charm in charms:
        for change in charm['changes']:
            series.increment(change['created'])
    return series

if __name__ == '__main__':
    import pprint

    #print "Charm Change"
    #pprint.pprint(series_charm_changes().serialize())

    print "Charm Authors"
    series = series_charm_authors()
    #pprint.pprint(
    #committers = list(series._values)
    #pprint.pprint(zip(map(categorize_contributor, committers), committers))
    pprint.pprint(series.records())

    #print "Charm growth"
    #series = series_charm_growth()
    #pprint.pprint(series.records())