~pythonxy/pythonxy-upstream/python-pandas

Committer: Wes McKinney
Date: 2009-08-05 03:30:16 UTC
Revision ID: git-v1:c6b236db73ff81007909be6406f0e484edc4a9eb

first commit with cleaned up code

git-svn-id: http://pandas.googlecode.com/svn/trunk@5 d5231056-7de3-11de-ac95-d976489f1ece

files added:
LICENSE

MANIFEST.in

README

TODO

pandas

pandas/__init__.py

pandas/core

pandas/core/__init__.py

pandas/core/api.py

pandas/core/collection.py

pandas/core/daterange.py

pandas/core/datetools.py

pandas/core/frame.py

pandas/core/groupby.py

pandas/core/index.py

pandas/core/matrix.py

pandas/core/mixins.py

pandas/core/pytools.py

pandas/core/series.py

pandas/core/tests

pandas/core/tests/__init__.py

pandas/core/tests/test_dataframe.py

pandas/core/tests/test_datamatrix.py

pandas/core/tests/test_datetools.py

pandas/core/tests/test_groupby.py

pandas/core/tests/test_index.py

pandas/core/tests/test_series.py

pandas/io

pandas/io/__init__.py

pandas/io/parsers.py

pandas/lib

pandas/lib/__init__.py

pandas/lib/include

pandas/lib/include/Python.pxi

pandas/lib/include/datetime.pxi

pandas/lib/include/numpy.pxi

pandas/lib/include/python_datetime.pxd

pandas/lib/src

pandas/lib/src/tdates.c

pandas/lib/src/tseries.c

pandas/lib/src/tseries.pyx

setup.py

setupegg.py

Show diffs side-by-side

added added

removed removed

pandas/io/parsers.py

"""

Module contains tools for processing files into DataFrames or other objects

"""

from pandas.core.index import Index

from pandas.core.frame import DataFrame

from pandas.core.matrix import DataMatrix

from pandas.core.series import Series

from datetime import datetime, timedelta

try:

from dateutil import parser

except ImportError:

# just a little hack for now

class parser(object):

@classmethod

def parse(cls, val):

try:

return datetime.strptime(val, '%m/%d/%Y')

except:

return val

from itertools import izip

import numpy as np

import string

def simpleParser(nestedList, forceFloat=True, colNames=None,

header=0, indexCol=0):

"""

Workhorse function for processing nested list into DataFrame

"""

naValues = set(['-1.#IND', '1.#QNAN', '1.#IND',

'-1.#QNAN','1.#INF','-1.#INF', '1.#INF000000',

'NA', 'NULL', 'NaN', 'nan', ''])

lines = nestedList

data = {}

if header is not None:

columns = lines[header]

columns = [c if c != '' else 'Unnamed: ' + string.ascii_uppercase[i]

for i, c in enumerate(columns)]

content = lines[header+1:]

colCounts = dict(((col, 0) for col in columns))

for i, col in enumerate(columns):

if columns.count(col) > 1:

columns[i] = col + str(colCounts[col])

colCounts[col] += 1

else:

if not colNames:

columns = string.ascii_uppercase[:len(lines[0])]

else:

columns = colNames

content = lines

for i, (c, col) in enumerate(izip(columns, izip(*content))):

if i == indexCol:

data[c] = col

continue

data[c] = []

for val in col:

if val in naValues:

val = np.nan

else:

try:

tmp = val

val = np.float64(val)

if isinf(val):

val = tmp

except:

pass

data[c].append(val)

if header is not None:

if 'date' in columns[0].lower() or 'Unnamed' in columns[0]:

dates = []

for s in data[columns[0]]:

try:

dates.append(parser.parse(s))

except:

dates.append(s)

data[columns[0]] = dates

for c, values in data.iteritems():

try:

data[c] = np.array(values, dtype = np.float64)

except:

data[c] = np.array(values, dtype = np.object_)

if indexCol is not None:

index = Index(data[columns[indexCol]])

frameData = dict([(col, data[col]) for col in columns \

if col != columns[indexCol]])

return DataFrame(data=frameData, index=index)

else:

index = np.arange(len(data.values()[0]))

frameData = dict([(col, data[col]) for col in columns])

return DataFrame(data=frameData, index=index)

def parseCSV(filepath, header=0, indexCol=0):

"""

100

Parse CSV file into a DataFrame object. Try to parse dates if possible.

101

"""

102

import csv

103

f = open(filepath,'rb')

104

reader = csv.reader(f, dialect='excel')

105

lines = [l for l in reader]

106

f.close()

107

return simpleParser(lines, header=header, indexCol=indexCol)

108

109

def parseText(filepath, sep='\t', header=0, indexCol=0, colNames = None):

110

"""

111

Parse whitespace separated file into a DataFrame object.

112

Try to parse dates if possible.

113

"""

114

lines = [l.rstrip().split(sep) for l in open(filepath,'rb').readlines()]

115

return simpleParser(lines, header=header, indexCol=indexCol,

116

colNames = colNames)

117

118

#===============================================================================

119

# Excel tools

120

#===============================================================================

121

122

OLE_TIME_ZERO = datetime(1899, 12, 30, 0, 0, 0)

123

def ole2datetime(oledt):

124

"""function for converting excel date to normal date format"""

125

return OLE_TIME_ZERO + timedelta(days=float(oledt))

126

127

def parseExcel(filepath, header = None, indexCol = 0, dateCol = 0,

128

sheetname = None):

129

try:

130

import xlrd

131

except ImportError:

132

raise ImportError('Sorry, you do not have xlrd.')

133

book = xlrd.open_workbook(filepath)

134

sheet = book.sheet_by_name(sheetname)

135

data = [sheet.row_values(i) for i in range(sheet.nrows)]

136

for row in data:

137

try:

138

row[0] = ole2datetime(row[0])

139

except:

140

pass

141

return simpleParser(data, header = header, indexCol = indexCol)

Older »