~ubuntu-branches/ubuntu/hoary/libextractor/hoary

« back to all changes in this revision

Viewing changes to src/plugins/debextractor.c

  • Committer: Bazaar Package Importer
  • Author(s): Daniel Baumann
  • Date: 2004-10-30 23:50:00 UTC
  • mfrom: (1.1.1 upstream)
  • Revision ID: james.westby@ubuntu.com-20041030235000-poix4e5mzhmzkpbk
Tags: 0.3.10-2
* Added fix from cvs for various Sparc64 problems (Closes #278905).
* Added workaround from cvs for re-load glib problem of OLE2 extractor.
* debian/watch added.

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
/*
 
2
     This file is part of libextractor.
 
3
     (C) 2002, 2003, 2004 Vidyut Samanta and Christian Grothoff
 
4
 
 
5
     libextractor is free software; you can redistribute it and/or modify
 
6
     it under the terms of the GNU General Public License as published
 
7
     by the Free Software Foundation; either version 2, or (at your
 
8
     option) any later version.
 
9
 
 
10
     libextractor is distributed in the hope that it will be useful, but
 
11
     WITHOUT ANY WARRANTY; without even the implied warranty of
 
12
     MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 
13
     General Public License for more details.
 
14
 
 
15
     You should have received a copy of the GNU General Public License
 
16
     along with libextractor; see the file COPYING.  If not, write to the
 
17
     Free Software Foundation, Inc., 59 Temple Place - Suite 330,
 
18
     Boston, MA 02111-1307, USA.
 
19
 */
 
20
 
 
21
#include "platform.h"
 
22
#include "extractor.h"
 
23
#include <zlib.h>
 
24
#include <pthread.h>
 
25
 
 
26
/*
 
27
 * The .deb is an ar-chive file.  It contains a tar.gz file
 
28
 * named "control.tar.gz" which then contains a file 'control'
 
29
 * that has the meta-data.  And which variant of the various
 
30
 * ar file formats is used is also not quite certain. Yuck.
 
31
 *
 
32
 * References:
 
33
 * http://www.mkssoftware.com/docs/man4/tar.4.asp
 
34
 * http://lists.debian.org/debian-policy/2003/12/msg00000.html
 
35
 * http://www.opengroup.org/onlinepubs/009695399/utilities/ar.html
 
36
 */
 
37
 
 
38
static EXTRACTOR_KeywordList * addKeyword(EXTRACTOR_KeywordType type,
 
39
                                          char * keyword,
 
40
                                          EXTRACTOR_KeywordList * next) {
 
41
  EXTRACTOR_KeywordList * result;
 
42
 
 
43
  if (keyword == NULL)
 
44
    return next;
 
45
  result = malloc(sizeof(EXTRACTOR_KeywordList));
 
46
  result->next = next;    
 
47
  result->keyword = keyword;
 
48
  result->keywordType = type;
 
49
  return result;
 
50
}
 
51
 
 
52
static char * stndup(const char * str,
 
53
                     size_t n) {
 
54
  char * tmp;
 
55
  tmp = malloc(n+1);
 
56
  tmp[n] = '\0';
 
57
  memcpy(tmp, str, n);
 
58
  return tmp;
 
59
}
 
60
 
 
61
 
 
62
 
 
63
typedef struct {
 
64
  char * text;
 
65
  EXTRACTOR_KeywordType type;
 
66
} Matches;
 
67
 
 
68
/* see also: "man 5 deb-control" */
 
69
static Matches tmap[] = {
 
70
  { "Package: ",        EXTRACTOR_SOFTWARE }, 
 
71
  { "Version: ",        EXTRACTOR_VERSIONNUMBER },
 
72
  { "Section: ",        EXTRACTOR_GENRE },
 
73
  { "Priority: ",       EXTRACTOR_PRIORITY },
 
74
  { "Architecture: ",   EXTRACTOR_CREATED_FOR },
 
75
  { "Depends: ",        EXTRACTOR_DEPENDENCY },
 
76
  { "Recommends: ",     EXTRACTOR_RELATION },
 
77
  { "Suggests: ",       EXTRACTOR_RELATION },
 
78
  { "Installed-Size: ", EXTRACTOR_SIZE }, 
 
79
  { "Maintainer: ",     EXTRACTOR_PACKAGER },
 
80
  { "Description: ",    EXTRACTOR_DESCRIPTION },
 
81
  { "Source: ",         EXTRACTOR_SOURCE },
 
82
  { "Pre-Depends: ",    EXTRACTOR_DEPENDENCY },
 
83
  { "Conflicts: ",      EXTRACTOR_CONFLICTS },
 
84
  { "Replaces: ",       EXTRACTOR_REPLACES },
 
85
  { "Provides: ",       EXTRACTOR_PROVIDES },
 
86
  { NULL, 0 },
 
87
  { "Essential: ",      EXTRACTOR_UNKNOWN }
 
88
};
 
89
 
 
90
 
 
91
/**
 
92
 * Process the control file.
 
93
 */
 
94
static struct EXTRACTOR_Keywords * processControl(const char * data,
 
95
                                                  const size_t size,
 
96
                                                  struct EXTRACTOR_Keywords * prev) {
 
97
  size_t pos;
 
98
  char * key;
 
99
 
 
100
  pos = 0;
 
101
  while (pos < size) {
 
102
    size_t colon;
 
103
    size_t eol;
 
104
    int i;
 
105
 
 
106
    colon = pos;
 
107
    while (data[colon] != ':') {
 
108
      if ( (colon > size) || (data[colon] == '\n') )
 
109
        return prev;
 
110
      colon++;
 
111
    }
 
112
    colon++;
 
113
    while ( (colon < size) &&
 
114
            (isspace(data[colon]) ) )
 
115
      colon++;
 
116
    eol = colon;
 
117
    while ( (eol < size) &&
 
118
            (data[eol] != '\n') ||
 
119
            ( (eol+1 < size) &&
 
120
              (data[eol+1] == ' ') ) )
 
121
      eol++;    
 
122
    if ( (eol == colon) || (eol > size) )
 
123
      return prev;
 
124
    key = stndup(&data[pos], colon-pos);
 
125
    i = 0;
 
126
    while (tmap[i].text != NULL) {
 
127
      if (0 == strcmp(key, tmap[i].text)) {
 
128
        char * val;
 
129
 
 
130
        val = stndup(&data[colon], eol-colon);
 
131
        prev = addKeyword(tmap[i].type,
 
132
                          val,
 
133
                          prev);
 
134
        break;
 
135
      }
 
136
      i++;
 
137
    }
 
138
    free(key);
 
139
    pos = eol+1;
 
140
  }
 
141
  return prev;
 
142
}
 
143
 
 
144
 
 
145
typedef struct {
 
146
  char name[100];
 
147
  char mode[8];
 
148
  char userId[8];
 
149
  char groupId[8];
 
150
  char filesize[12];
 
151
  char lastModTime [12];
 
152
  char chksum[8];
 
153
  char link;
 
154
  char linkName[100];
 
155
} TarHeader;
 
156
 
 
157
typedef struct {
 
158
  TarHeader tar;
 
159
  char magic[6];
 
160
  char version[2];
 
161
  char uname[32];
 
162
  char gname[32];
 
163
  char devmajor[8];
 
164
  char devminor [8];
 
165
  char prefix[155];
 
166
} USTarHeader;
 
167
 
 
168
/**
 
169
 * Process the control.tar file.
 
170
 */
 
171
static struct EXTRACTOR_Keywords * 
 
172
processControlTar(const char * data,
 
173
                  const size_t size,
 
174
                  struct EXTRACTOR_Keywords * prev) {
 
175
  TarHeader * tar;
 
176
  USTarHeader * ustar;
 
177
  size_t pos;
 
178
 
 
179
  pos = 0;
 
180
  while (pos + sizeof(TarHeader) < size) {
 
181
    unsigned long long fsize;
 
182
    char buf[13];
 
183
 
 
184
    tar = (TarHeader*) &data[pos];
 
185
    if (pos + sizeof(USTarHeader) < size) {
 
186
      ustar = (USTarHeader*) &data[pos];
 
187
      if (0 == strncmp("ustar",
 
188
                       &ustar->magic[0],
 
189
                       strlen("ustar"))) 
 
190
        pos += 512; /* sizeof(USTarHeader); */
 
191
      else
 
192
        pos += 257; /* sizeof(TarHeader); minus gcc alignment... */
 
193
    } else {
 
194
      pos += 257; /* sizeof(TarHeader); minus gcc alignment... */
 
195
    }
 
196
    
 
197
    memcpy(buf, &tar->filesize[0], 12);
 
198
    buf[12] = '\0';   
 
199
    if (1 != sscanf(buf, "%12llo", &fsize)) /* octal! Yuck yuck! */
 
200
      return prev;
 
201
    if ( (pos + fsize > size) ||
 
202
         (fsize > size) ||
 
203
         (pos + fsize < pos) )
 
204
      return prev;
 
205
    
 
206
    if (0 == strncmp(&tar->name[0],
 
207
                     "./control",
 
208
                     strlen("./control"))) {
 
209
      return processControl(&data[pos],
 
210
                            fsize,
 
211
                            prev);
 
212
    }
 
213
    if ( (fsize & 511) != 0)
 
214
      fsize = (fsize |= 511)+1; /* round up! */
 
215
    if (pos + fsize < pos)
 
216
      return prev;
 
217
    pos += fsize;
 
218
  }
 
219
  return prev;
 
220
}
 
221
 
 
222
 
 
223
#define MAX_CONTROL_SIZE (1024 * 1024)
 
224
 
 
225
typedef struct {
 
226
  int fd;
 
227
  const char * buf;
 
228
  size_t size;
 
229
} WTC;
 
230
 
 
231
void * writeThread(void * arg) {
 
232
  size_t pos;
 
233
  int ret;
 
234
  WTC * wtc = (WTC*) arg;
 
235
 
 
236
  pos = 0;
 
237
  while (pos < wtc->size) {
 
238
    ret = write(wtc->fd,
 
239
                &wtc->buf[pos],
 
240
                wtc->size - pos);
 
241
    if (ret == -1) {
 
242
      close(wtc->fd);
 
243
      return strerror(errno);
 
244
    }
 
245
    pos += ret;
 
246
  }
 
247
  close(wtc->fd);
 
248
  return NULL;
 
249
}
 
250
 
 
251
/**
 
252
 * Process the control.tar.gz file.
 
253
 */
 
254
static struct EXTRACTOR_Keywords * 
 
255
processControlTGZ(const unsigned char * data,
 
256
                  size_t size,
 
257
                  struct EXTRACTOR_Keywords * prev) {
 
258
  size_t bufSize;
 
259
  gzFile gzf;
 
260
  int fdes[2];
 
261
  char * buf;
 
262
  int flags;
 
263
  size_t ret;
 
264
  WTC wtc;
 
265
  pthread_t pt;
 
266
  void * error;
 
267
 
 
268
  bufSize = data[size-4] + 256 * data[size-3] + 65536 * data[size-2] + 256*65536 * data[size-1];
 
269
  if (bufSize > MAX_CONTROL_SIZE)
 
270
    return prev;
 
271
 
 
272
  if (0 != PIPE(fdes))
 
273
    return prev;
 
274
  wtc.fd = fdes[1];
 
275
  wtc.size = size;
 
276
  wtc.buf = data;
 
277
  if (0 != pthread_create(&pt, NULL, &writeThread, &wtc)) {
 
278
    close(fdes[0]);
 
279
    close(fdes[1]);
 
280
    return prev;
 
281
  }
 
282
  gzf = gzdopen(fdes[0], "rb");
 
283
  if (gzf == NULL) {
 
284
    close(fdes[0]);
 
285
    close(fdes[1]);
 
286
    pthread_join(pt, &error);
 
287
    return prev;
 
288
  }
 
289
  buf = malloc(bufSize);  
 
290
  if (buf == NULL) {
 
291
    gzclose(gzf);
 
292
    close(fdes[1]);
 
293
    pthread_join(pt, &error);
 
294
    return prev;
 
295
  }
 
296
  if (bufSize != gzread(gzf, buf, bufSize)) {
 
297
    free(buf);
 
298
    gzclose(gzf);
 
299
    close(fdes[1]);
 
300
    pthread_join(pt, &error);
 
301
    return prev;
 
302
  }
 
303
  close(fdes[1]);
 
304
  pthread_join(pt, &error);
 
305
  gzclose(gzf);  
 
306
  prev = processControlTar(buf,
 
307
                           bufSize,
 
308
                           prev);
 
309
  free(buf);  
 
310
  return prev;
 
311
}
 
312
 
 
313
typedef struct {
 
314
  char name[16];
 
315
  char lastModTime [12];
 
316
  char userId[6];
 
317
  char groupId[6];
 
318
  char modeInOctal[8];
 
319
  char filesize[10];
 
320
  char trailer[2];
 
321
} ObjectHeader;
 
322
 
 
323
struct EXTRACTOR_Keywords * 
 
324
libextractor_deb_extract(const char * filename,
 
325
                         const char * data,
 
326
                         const size_t size,
 
327
                         struct EXTRACTOR_Keywords * prev) {
 
328
  size_t pos;
 
329
  int done = 0;
 
330
 
 
331
  if (size < 128)
 
332
    return prev;
 
333
  if (0 != strncmp("!<arch>\n",
 
334
                   data,
 
335
                   strlen("!<arch>\n")))
 
336
    return prev;
 
337
  pos = strlen("!<arch>\n");
 
338
  while (pos + sizeof(ObjectHeader) < size) {
 
339
    ObjectHeader * hdr;
 
340
    unsigned long long fsize;
 
341
    char buf[11];
 
342
 
 
343
    hdr = (ObjectHeader*) &data[pos];
 
344
    if (0 != strncmp(&hdr->trailer[0],
 
345
                     "`\n",
 
346
                     2))
 
347
      return prev;
 
348
 
 
349
    memcpy(buf, &hdr->filesize[0], 10);
 
350
    buf[10] = '\0'; 
 
351
    if (1 != sscanf(buf, "%10llu", &fsize))
 
352
      return prev;
 
353
    pos += sizeof(ObjectHeader);
 
354
    if ( (pos + fsize > size) ||
 
355
         (fsize > size) ||
 
356
         (pos + fsize < pos) )
 
357
      return prev;
 
358
    if (0 == strncmp(&hdr->name[0],
 
359
                     "control.tar.gz",
 
360
                     strlen("control.tar.gz"))) { 
 
361
      prev = processControlTGZ(&data[pos],
 
362
                               fsize,
 
363
                               prev);
 
364
      done++;
 
365
    }
 
366
    if (0 == strncmp(&hdr->name[0],
 
367
                     "debian-binary",
 
368
                     strlen("debian-binary"))) {
 
369
      prev = addKeyword(EXTRACTOR_MIMETYPE,
 
370
                        strdup("application/x-debian-package"),
 
371
                        prev);
 
372
      done++;
 
373
    }
 
374
    pos += fsize;
 
375
    if (done == 2)
 
376
      break; /* no need to process the rest of the archive */
 
377
  }  
 
378
  return prev;
 
379
}
 
380
 
 
381
#define HAVE_MAIN 0
 
382
#if HAVE_MAIN
 
383
int main (int argc, char **argv) {
 
384
  int file;
 
385
  char * buffer;
 
386
  struct stat fstatbuf;
 
387
  size_t size;
 
388
 
 
389
  if (argc != 2) {
 
390
    fprintf(stderr, 
 
391
            "Call with filename as argument\n");
 
392
    return -1;
 
393
  }  
 
394
  file = OPEN(argv[1],O_RDONLY);
 
395
  if (-1 == file) 
 
396
    return -1;
 
397
  if (-1 == FSTAT(file, &fstatbuf)) {
 
398
    close(file);
 
399
    return -1;
 
400
  }
 
401
  size = fstatbuf.st_size;
 
402
  buffer = mmap(NULL, size, PROT_READ, MAP_SHARED, file, 0);  
 
403
  close(file);
 
404
 
 
405
  EXTRACTOR_printKeywords(stdout,
 
406
                          libextractor_deb_extract(argv[1], 
 
407
                                                   buffer,
 
408
                                                   size,
 
409
                                                   NULL));
 
410
  munmap(buffer, size);
 
411
  return 0;
 
412
}
 
413
#endif