~vorlon/ubuntu/saucy/gourmet/trunk

« back to all changes in this revision

Viewing changes to src/lib/importers/mastercook_plaintext_importer.py

Committer: Bazaar Package Importer
Author(s): Rolf Leggewie
Date: 2008-07-26 13:29:41 UTC
Revision ID: james.westby@ubuntu.com-20080726132941-6ldd73qmacrzz0bn

Tags: upstream-0.14.0

Import upstream version 0.14.0

files added:

CHANGES

MANIFEST

PKG-INFO

README

README.txt

TODO

glade

glade/app.glade

glade/batchEditor.glade

glade/converter.glade

glade/converter_new.glade

glade/converter_old.glade

glade/databaseChooser.glade

glade/formatPageDialog.glade

glade/generic_importer.glade

glade/keyeditor.glade

glade/nutritionInfoEditor.glade

glade/preferenceDialog.glade

glade/recCard.normal.glade

glade/recCardDescriptionEditor.glade

glade/recCardDisplay.glade

glade/recCardIngredientsEditor.glade

glade/rec_ref_window.glade

glade/recipeMerger.glade

glade/recipe_index.glade

glade/shopCatEditor.glade

glade/shopList.glade

glade/timerDialog.glade

glade/valueEditor.glade

gourmet.desktop.in

i18n

i18n/POTFILES.in

i18n/ar.po

i18n/bg.po

i18n/ca.po

i18n/cs

i18n/cs.po

i18n/cs/LC_MESSAGES

i18n/cs/LC_MESSAGES/gourmet.mo

i18n/da.po

i18n/de.po

i18n/de_AT

i18n/de_AT.po

i18n/de_AT/LC_MESSAGES

i18n/de_AT/LC_MESSAGES/gourmet.mo

i18n/de_DE

i18n/de_DE.po

i18n/de_DE/LC_MESSAGES

i18n/de_DE/LC_MESSAGES/gourmet.mo

i18n/el.po

i18n/en.po

i18n/en_AU.po

i18n/en_CA.po

i18n/en_GB.po

i18n/eo.po

i18n/es

i18n/es.po

i18n/es/LC_MESSAGES

i18n/es/LC_MESSAGES/gourmet.mo

i18n/es_ES

i18n/es_ES.po

i18n/es_ES/LC_MESSAGES

i18n/es_ES/LC_MESSAGES/gourmet.mo

i18n/et.po

i18n/fa.po

i18n/fi.po

i18n/fr

i18n/fr.po

i18n/fr/LC_MESSAGES

i18n/fr/LC_MESSAGES/gourmet.mo

i18n/gl.po

i18n/gourmet.pot

i18n/he.po

i18n/hu.po

i18n/is.po

i18n/it.po

i18n/ja.po

i18n/lt.po

i18n/lv.po

i18n/nb.po

i18n/nl.po

i18n/nl_BE

i18n/nl_BE.po

i18n/nl_BE/LC_MESSAGES

i18n/nl_BE/LC_MESSAGES/gourmet.mo

i18n/nl_NL.po

i18n/pl.po

i18n/pt.po

i18n/pt_BR

i18n/pt_BR.po

i18n/pt_BR/LC_MESSAGES

i18n/pt_BR/LC_MESSAGES/gourmet.mo

i18n/pt_PT.po

i18n/ru.po

i18n/sk

i18n/sk.po

i18n/sk/LC_MESSAGES

i18n/sk/LC_MESSAGES/gourmet.mo

i18n/sl.po

i18n/sr.po

i18n/sv.po

i18n/sv_SE

i18n/sv_SE.po

i18n/sv_SE/LC_MESSAGES

i18n/sv_SE/LC_MESSAGES/gourmet.mo

i18n/th.po

i18n/tr

i18n/tr.po

i18n/tr/LC_MESSAGES

i18n/tr/LC_MESSAGES/gourmet.mo

i18n/uk.po

i18n/yi.po

i18n/zh.po

i18n/zh_CN.po

i18n/zh_HK.po

i18n/zh_TW.po

images

images/AddToShoppingList.png

images/Nutrition.png

images/gold_star.png

images/gourmet_logo.png

images/half_gold_star.png

images/no_star.png

images/printed_half_star.png

images/printed_no_star.png

images/printed_star.png

images/recbox.png

images/recbox_biggish.png

images/recbox_icon.png

images/splash.png

setup.cfg

setup.py

src/gourmet

src/gourmet_in_place

src/lib

src/lib/FileChooserSaveAs.py

src/lib/GourmetFauxThreads.py

src/lib/GourmetRecipeManager.py

src/lib/GourmetThreads.py

src/lib/ImageExtras.py

src/lib/OptionParser.py

src/lib/PngImagePluginUpToDate.py

src/lib/Undo.py

src/lib/__init__.py

src/lib/avahi_interface.py

src/lib/backends

src/lib/backends/DatabaseChooser.py

src/lib/backends/__init__.py

src/lib/backends/db.py

src/lib/backends/db_tests.py

src/lib/backends/sqlalchemy_scratch.py

src/lib/base_ui.py

src/lib/batchEditor.py

src/lib/check_encodings.py

src/lib/clockDB.py

src/lib/convert.py

src/lib/convertGui.py

src/lib/defaults

src/lib/defaults/__init__.py

src/lib/defaults/defaults.py

src/lib/defaults/defaults_de.py

src/lib/defaults/defaults_en.py

src/lib/defaults/defaults_en_GB.py

src/lib/defaults/defaults_es.py

src/lib/defaults/defaults_fr.py

src/lib/defaults/defaults_nl.py

src/lib/defaults/defaults_pt.py

src/lib/defaults/defaults_sk.py

src/lib/defaults/defaults_sv.py

src/lib/exporters

src/lib/exporters/MarkupString.py

src/lib/exporters/__init__.py

src/lib/exporters/__init__old.py

src/lib/exporters/eatdrinkfeelgood_exporter.py

src/lib/exporters/exportManager.py

src/lib/exporters/exporter.py

src/lib/exporters/gnomeprinter.py

src/lib/exporters/gnomeprinter_obsolete.py

src/lib/exporters/gxml2_exporter.py

src/lib/exporters/gxml_exporter.py

src/lib/exporters/html_exporter.py

src/lib/exporters/lprprinter.py

src/lib/exporters/mealmaster_exporter.py

src/lib/exporters/page_drawer.py

src/lib/exporters/pdf_exporter.py

src/lib/exporters/printer.py

src/lib/exporters/recipe_emailer.py

src/lib/exporters/rtf_exporter.py

src/lib/exporters/winprinter.py

src/lib/exporters/xml_exporter.py

src/lib/gdebug.py

src/lib/gettext_setup.py

src/lib/gglobals.py

src/lib/gtk_extras

src/lib/gtk_extras/FauxActionGroups.py

src/lib/gtk_extras/LinkedTextView.py

src/lib/gtk_extras/TextBufferMarkup.py

src/lib/gtk_extras/ThumbnailGenerator.py

src/lib/gtk_extras/WidgetSaver.py

src/lib/gtk_extras/__init__.py

src/lib/gtk_extras/cb_extras.py

src/lib/gtk_extras/chooserNotebook.py

src/lib/gtk_extras/dialog_extras.py

src/lib/gtk_extras/fauxDruid.py

src/lib/gtk_extras/mnemonic_manager.py

src/lib/gtk_extras/numberEntry.py

src/lib/gtk_extras/optionTable.py

src/lib/gtk_extras/pageable_store.py

src/lib/gtk_extras/ratingWidget.py

src/lib/gtk_extras/thumbnail.py

src/lib/gtk_extras/timeEntry.py

src/lib/gtk_extras/treeview_extras.py

src/lib/gtk_extras/validatingEntry.py

src/lib/importers

src/lib/importers/BeautifulSoup.py

src/lib/importers/__init__.py

src/lib/importers/generic_recipe_parser.py

src/lib/importers/gxml2_importer.py

src/lib/importers/gxml_importer.py

src/lib/importers/html_importer.py

src/lib/importers/html_plugins

src/lib/importers/html_plugins/__init__.py

src/lib/importers/html_plugins/allrecipes.py

src/lib/importers/html_plugins/epicurious.py

src/lib/importers/html_plugins/foodnetwork.py

src/lib/importers/html_plugins/html_helpers.py

src/lib/importers/html_plugins/recipebookonline.py

src/lib/importers/html_plugins/recipezaar.py

src/lib/importers/imageBrowser.py

src/lib/importers/importManager.py

src/lib/importers/importer.py

src/lib/importers/interactive_importer.py

src/lib/importers/krecipe_importer.py

src/lib/importers/mastercook_importer.py

src/lib/importers/mastercook_plaintext_importer.py

src/lib/importers/mealmaster_importer.py

src/lib/importers/plaintext_importer.py

src/lib/importers/rezkonv_importer.py

src/lib/importers/xml_importer.py

src/lib/importers/zip_importer.py

src/lib/keyEditor.py

src/lib/keymanager.py

src/lib/legacy_db

src/lib/legacy_db/__init__.py

src/lib/legacy_db/db_08

src/lib/legacy_db/db_08/__init__.py

src/lib/legacy_db/db_08/rdatabase.py

src/lib/legacy_db/db_08/rmetakit.py

src/lib/legacy_db/db_085

src/lib/legacy_db/db_085/__init__.py

src/lib/legacy_db/db_085/rdatabase.py

src/lib/legacy_db/db_085/rmetakit.py

src/lib/legacy_db/db_09

src/lib/legacy_db/db_09/__init__.py

src/lib/legacy_db/db_09/rdatabase.py

src/lib/legacy_db/db_09/rmetakit.py

src/lib/plugin.py

src/lib/plugin_gui.py

src/lib/plugin_loader.py

src/lib/plugins

src/lib/plugins/__init__.py

src/lib/plugins/duplicate_finder

src/lib/plugins/duplicate_finder.gourmet-plugin

src/lib/plugins/duplicate_finder.gourmet-plugin.in

src/lib/plugins/duplicate_finder/__init__.py

src/lib/plugins/duplicate_finder/recipeMerger.glade

src/lib/plugins/duplicate_finder/recipeMerger.py

src/lib/plugins/duplicate_finder/recipeMergerPlugin.py

src/lib/plugins/import_export

src/lib/plugins/import_export/__init__.py

src/lib/plugins/import_export/gxml.gourmet-plugin

src/lib/plugins/import_export/gxml.gourmet-plugin.in

src/lib/plugins/import_export/gxml_plugin

src/lib/plugins/import_export/gxml_plugin/__init__.py

src/lib/plugins/import_export/gxml_plugin/gxml2_exporter.py

src/lib/plugins/import_export/gxml_plugin/gxml2_importer.py

src/lib/plugins/import_export/gxml_plugin/gxml_exporter_plugin.py

src/lib/plugins/import_export/gxml_plugin/gxml_importer.py

src/lib/plugins/import_export/gxml_plugin/gxml_importer_plugin.py

src/lib/plugins/import_export/html.gourmet-plugin

src/lib/plugins/import_export/html.gourmet-plugin.in

src/lib/plugins/import_export/html_plugin

src/lib/plugins/import_export/html_plugin/__init__.py

src/lib/plugins/import_export/html_plugin/html_exporter.py

src/lib/plugins/import_export/html_plugin/html_exporter_plugin.py

src/lib/plugins/import_export/mealmaster.gourmet-plugin

src/lib/plugins/import_export/mealmaster.gourmet-plugin.in

src/lib/plugins/import_export/mealmaster_plugin

src/lib/plugins/import_export/mealmaster_plugin/__init__.py

src/lib/plugins/import_export/mealmaster_plugin/mealmaster_exporter.py

src/lib/plugins/import_export/mealmaster_plugin/mealmaster_exporter_plugin.py

src/lib/plugins/import_export/mealmaster_plugin/mealmaster_importer.py

src/lib/plugins/import_export/mealmaster_plugin/mealmaster_importer_plugin.py

src/lib/plugins/import_export/pdf.gourmet-plugin

src/lib/plugins/import_export/pdf.gourmet-plugin.in

src/lib/plugins/import_export/pdf_plugin

src/lib/plugins/import_export/pdf_plugin/__init__.py

src/lib/plugins/import_export/pdf_plugin/page_drawer.py

src/lib/plugins/import_export/pdf_plugin/pdf_exporter.py

src/lib/plugins/import_export/pdf_plugin/pdf_exporter_plugin.py

src/lib/plugins/key_editor

src/lib/plugins/key_editor.gourmet-plugin

src/lib/plugins/key_editor.gourmet-plugin.in

src/lib/plugins/key_editor/__init__.py

src/lib/plugins/key_editor/keyEditor.py

src/lib/plugins/key_editor/keyEditorPlugin.py

src/lib/plugins/key_editor/keyeditor.glade

src/lib/plugins/nutritional_information

src/lib/plugins/nutritional_information.gourmet-plugin

src/lib/plugins/nutritional_information.gourmet-plugin.in

src/lib/plugins/nutritional_information/__init__.py

src/lib/plugins/nutritional_information/data_plugin.py

src/lib/plugins/nutritional_information/databaseGrabber.py

src/lib/plugins/nutritional_information/enter_nutritional_defaults.py

src/lib/plugins/nutritional_information/export_plugin.py

src/lib/plugins/nutritional_information/main_plugin.py

src/lib/plugins/nutritional_information/nut_recipe_card_display.glade

src/lib/plugins/nutritional_information/nutrition.py

src/lib/plugins/nutritional_information/nutritionDisplay.py

src/lib/plugins/nutritional_information/nutritionDruid.glade

src/lib/plugins/nutritional_information/nutritionDruid.py

src/lib/plugins/nutritional_information/nutritionGrabberGui.py

src/lib/plugins/nutritional_information/nutritionInfoEditor.py

src/lib/plugins/nutritional_information/nutritionLabel.py

src/lib/plugins/nutritional_information/nutritionModel.py

src/lib/plugins/nutritional_information/nutritionView.py

src/lib/plugins/nutritional_information/old_nutrition

src/lib/plugins/nutritional_information/old_nutrition/nutrition.py

src/lib/plugins/nutritional_information/parser_data.py

src/lib/plugins/nutritional_information/reccard_plugin.py

src/lib/plugins/unit_converter

src/lib/plugins/unit_converter.gourmet-plugin

src/lib/plugins/unit_converter.gourmet-plugin.in

src/lib/plugins/unit_converter/__init__.py

src/lib/plugins/unit_converter/convertGui.py

src/lib/plugins/unit_converter/converter.glade

src/lib/prefs.py

src/lib/prefsGui.py

src/lib/profileImport.py

src/lib/reccard.py

src/lib/recindex.py

src/lib/recipeIdentifier.py

src/lib/recipeManager.py

src/lib/recipeManagerTest.py

src/lib/recipeMerger.py

src/lib/shopEditor.py

src/lib/shopgui.py

src/lib/shopping.py

src/lib/sound.py

src/lib/sound_gnome.py

src/lib/sound_windows.py

src/lib/threadManager.py

src/lib/timeScanner.py

src/lib/timer.py

src/lib/upgradeHandler.py

src/lib/valueEditor.py

src/lib/version.py

tools

tools/__init__.py

tools/backup_gourmet_to_xml.py

tools/gourmet_distutils.py

tools/upgrade_pre_script.py

windows

windows/Gourmet.pyw

windows/GourmetDebug.pyw

Show diffs side-by-side

added added

removed removed

src/lib/importers/mastercook_plaintext_importer.py

import importer, plaintext_importer, re, string

from gourmet import check_encodings

from gourmet.gdebug import *

from gettext import gettext as _

MASTERCOOK_START_REGEXP='\s*\*\s*Exported\s*from\s*MasterCook.*\*\s*'

class mastercook_importer (plaintext_importer.TextImporter):

ATTR_DICT = {'Recipe By':'source',

'Serving Size':'servings',

'Preparation Time':'preptime',

'Categories':'category',

}

def __init__ (self, filename, rd, progress=None, threaded=False, conv=None):

self.progress = progress

self.compile_regexps()

self.instr = ""

self.in_ings = False

self.in_instructions = False

self.in_or = False

self.looking_for_title = False

self.last_attr = ""

self.in_attrs=False

self.in_mods=False

self.reccol_headers = False

plaintext_importer.TextImporter.__init__(self,filename,rd,progress=progress,threaded=threaded,

conv=conv)

def compile_regexps (self):

plaintext_importer.TextImporter.compile_regexps(self)

self.rec_start_matcher = re.compile(MASTERCOOK_START_REGEXP)

self.blank_matcher = re.compile("^\s*$")

# strange thing has happened -- some archives have the column

# off by exactly 1 character, resulting in some fubar'ing of

# our parsing. to solve our problem, we first recognize

# rec_col_matcher, then parse fields using the ------

# underlining, which appears to line up even in fubared

# archives.

self.rec_col_matcher = re.compile("(\s*Amount\s*)(Measure\s*)(Ingredient.*)")

self.rec_col_underline_matcher = re.compile("(\s*-+)(\s*-+)(\s*-+.*)")

# match a string enclosed in a possibly repeated non-word character

# such as *Group* or ---group--- or =======GROUP======

# grabbing groups()[1] will get you the enclosed string

self.dash_matcher = re.compile("^[ -]*[-][- ]*$")

self.ing_or_matcher = re.compile("\W*[Oo][Rr]\W*")

self.ing_group_matcher = re.compile("\s*(\W)\\1*(.+?)(\\1+)")

self.mods_matcher = re.compile("^\s*NOTES\.*")

attr_matcher = "\s*(" + string.join(self.ATTR_DICT.keys(),"|") + ")\s*:(.*)"

self.attr_matcher = re.compile(attr_matcher)

def handle_line (self, line):

if self.dash_matcher.match(line): return

if self.rec_start_matcher.match(line):

debug('rec_start! %s'%line,0)

self.looking_for_title = True

if self.rec: self.commit_rec()

self.instr = ""

self.mods = ""

self.in_instructions=False

self.in_mods = False

self.in_ings = False

self.in_attrs = False

self.start_rec()

return

if self.reccol_headers:

# we try to parse underlining after our standard ing headers.

rcm = self.rec_col_underline_matcher.match(line)

# if there is no underlining, use our headers themselves for fields

if not rcm: rcm = self.reccol_headers

debug('Found ing columns',0)

self.get_ing_cols(rcm)

self.in_ings = True

self.reccol_headers=False

return

rcm=self.rec_col_matcher.match(line)

if rcm:

self.reccol_headers = rcm

self.looking_for_title=False

self.in_attrs=False

self.last_attr = ""

return

if self.blank_matcher.match(line):

# blank line ends ingredients

if self.in_ings:

debug('blank line, end of ings',0)

self.in_ings = False

self.in_instructions = True

if self.ing: self.commit_ing()

if self.in_instructions:

debug('blank line added to instructions: %s'%line,0)

if self.in_mods: self.mods += "\n"

else: self.instr+="\n"

return

if self.looking_for_title:

debug('found my title! %s'%line.strip(),0)

self.rec['title']=line.strip()

self.looking_for_title = False

self.in_attrs=True

return

100

if self.in_ings:

101

debug('handling ingredient line %s'%line,0)

102

self.handle_ingline (line)

103

return

104

if self.in_attrs:

105

debug('handing attrline %s'%line,0)

106

self.handle_attribute(line)

107

return

108

else:

109

self.in_instructions = True

110

if self.mods_matcher.match(line):

111

self.in_mods = True

112

if self.in_mods:

113

debug('handling modifications line %s'%line,0)

114

self.add_to_attr('mods',line)

115

else:

116

debug('handling instructions line %s'%line,0)

117

self.add_to_attr('instr',line)

118

119

def add_to_attr (self, attr, txt):

120

orig = getattr(self,attr)

121

if orig:

122

if len(txt.strip()) < 50:

123

setattr(self,attr,orig+"%s\n"%txt.strip())

124

elif not self.blank_matcher.match(orig[-1]):

125

setattr(self,attr,orig+" %s"%txt.strip())

126

else:

127

setattr(self,attr,orig+txt.strip())

128

else:

129

setattr(self,attr,txt)

130

131

def get_ing_cols (self,rcm):

132

amt,unit,itm=rcm.groups()

133

lamt,lunit,litm = len(amt),len(unit),len(itm)

134

self.amt_col = 0,lamt

135

self.unit_col = lamt,lamt+lunit

136

self.itm_col = lamt+lunit,None

137

138

def handle_attribute (self,line):

139

m=self.attr_matcher.match(line)

140

if m:

141

attr,val = m.groups()

142

SecndColMatch = self.attr_matcher.search(val)

143

if SecndColMatch:

144

s=SecndColMatch.start()

145

self.handle_attribute(val[s:])

146

val = val[:s]

147

val = self.join_multiple_attvals(val.strip())

148

attr = attr.strip()

149

self.last_attr = self.ATTR_DICT[attr]

150

self.rec[self.ATTR_DICT[attr]]=val

151

else:

152

if self.last_attr:

153

# attribute values can run over one line...

154

self.rec[self.last_attr]=', '.join([self.rec[self.last_attr],

155

self.join_multiple_attvals(line.strip())

156

])

157

else:

158

# otherwise, we add this to instructions, like we do with all junk

159

self.instr += line

160

161

def join_multiple_attvals (self, txt):

162

"""We take replace more than one space with a comma."""

163

return ', '.join(re.split(' +',txt))

164

165

def handle_ingline (self,line):

166

if self.ing_or_matcher.match(line):

167

self.in_or = True

168

return

169

amt = line.__getslice__(*self.amt_col).strip()

170

unit = line.__getslice__(*self.unit_col).strip()

171

itm = line[self.itm_col[0]:].strip()

172

gm=self.ing_group_matcher.match(itm)

173

if gm:

174

if self.ing: self.commit_ing()

175

self.group = gm.groups()[1]

176

# undo grouping if it has no letters...

177

if re.match('^[^A-Za-z]*$',self.group): self.group=None

178

return

179

if amt or unit:

180

if self.in_or: self.ing['optional']=True

181

if self.ing: self.commit_ing()

182

self.start_ing()

183

if self.in_or:

184

self.ing['optional']=True

185

self.in_or = False

186

self.add_amt(amt)

187

self.add_unit(unit)

188

self.add_item(itm)

189

return

190

elif self.ing and self.ing.has_key('item'):

191

# otherwise, we assume we are a continuation and

192

# add onto the previous item

193

self.ing['item']=self.ing['item']+' '+itm.strip()

194

else:

195

debug('"%s" in the midst of ingredients looks like instructions!'%itm.strip(),2)

196

self.instr += "\n"+itm.strip()

197

198

def commit_ing (self):

199

if not self.ing.has_key('item'):

200

return

201

key_base = self.ing['item'].split('--')[0]

202

self.ing['ingkey']=self.km.get_key_fast(key_base)

203

importer.importer.commit_ing(self)

204

self.ing = {}

205

206

def commit_rec (self):

207

ll=self.instr.split('\n')

208

self.rec['instructions']=self.unwrap_lines(self.instr)

209

self.rec['modifications']=self.unwrap_lines(self.mods)

210

importer.importer.commit_rec(self)

211

212

class Tester (importer.Tester):

213

def __init__ (self):

214

importer.Tester.__init__(self,regexp=MASTERCOOK_START_REGEXP)

215

self.not_me = "<[?]?(xml|mx2|RcpE|RTxt)[^>]*>"

216

217

def test (self, filename):

218

if not hasattr(self,'matcher'):

219

self.matcher=re.compile(self.regexp)

220

self.not_matcher = re.compile(self.not_me)

221

if type(filename)==str:

222

self.ofi = open(filename,'r')

223

CLOSE = True

224

else:

225

self.ofi = filename

226

CLOSE = False

227

l = self.ofi.readline()

228

while l:

229

if self.not_matcher.match(l):

230

self.ofi.close()

231

return False

232

if self.matcher.match(l):

233

self.ofi.close()

234

return True

235

l = self.ofi.readline()

236

if CLOSE: self.ofi.close()

237

else: self.ofi.seek(0)

Older »