~ubuntu-branches/ubuntu/quantal/ceph/quantal

« back to all changes in this revision

Viewing changes to src/leveldb/db/db_impl.cc

Committer: Package Import Robot
Author(s): James Page
Date: 2012-07-16 09:56:24 UTC
mfrom: (0.3.11)
mto: This revision was merged to the branch mainline in revision 17.
Revision ID: package-import@ubuntu.com-20120716095624-azr2w4hbhei1rxmx

Tags: upstream-0.48

Import upstream version 0.48

files added:
.gitignore

.gitmodules

COPYING-LGPL2.1

CodingStyle

Doxyfile

RELEASE_CHECKLIST

SubmittingPatches

admin

admin/build-doc

admin/doc-requirements.txt

admin/serve-doc

ceph-object-corpus

debian

debian/.gitignore

debian/ceph-common.install

debian/ceph-fs-common.install

debian/ceph-fuse.install

debian/ceph-mds.install

debian/ceph-resource-agents.install

debian/ceph.dirs

debian/ceph.docs

debian/ceph.install

debian/ceph.lintian-overrides

debian/ceph.postrm

debian/changelog

debian/compat

debian/control

debian/copyright

debian/libcephfs-dev.install

debian/libcephfs1.install

debian/libcephfs1.postinst

debian/libcephfs1.postrm

debian/librados-dev.install

debian/librados2.install

debian/librados2.postinst

debian/librados2.postrm

debian/librbd-dev.install

debian/librbd1.install

debian/librbd1.postinst

debian/librbd1.postrm

debian/obsync.install

debian/python-ceph.install

debian/radosgw.dirs

debian/radosgw.install

debian/rest-bench.install

debian/rules

debian/source

debian/source/format

debian/watch

do_autogen.sh

doc/.gitignore

doc/_templates

doc/_templates/smarttoc.html

doc/_themes

doc/_themes/ceph

doc/_themes/ceph/static

doc/_themes/ceph/static/font

doc/_themes/ceph/static/font/ApexSans-Book.eot

doc/_themes/ceph/static/font/ApexSans-Book.svg

doc/_themes/ceph/static/font/ApexSans-Book.ttf

doc/_themes/ceph/static/font/ApexSans-Book.woff

doc/_themes/ceph/static/font/ApexSans-Medium.eot

doc/_themes/ceph/static/font/ApexSans-Medium.svg

doc/_themes/ceph/static/font/ApexSans-Medium.ttf

doc/_themes/ceph/static/font/ApexSans-Medium.woff

doc/_themes/ceph/static/nature.css_t

doc/_themes/ceph/theme.conf

doc/api

doc/api/index.rst

doc/api/librados.rst

doc/api/libradospp.rst

doc/api/librbdpy.rst

doc/api/s3

doc/api/s3.rst

doc/api/s3/authentication.rst

doc/api/s3/bucketops.rst

doc/api/s3/commons.rst

doc/api/s3/cpp.rst

doc/api/s3/csharp.rst

doc/api/s3/java.rst

doc/api/s3/objectops.rst

doc/api/s3/perl.rst

doc/api/s3/php.rst

doc/api/s3/python.rst

doc/api/s3/ruby.rst

doc/api/s3/serviceops.rst

doc/api/swift.rst

doc/appendix

doc/appendix/differences-from-posix.rst

doc/appendix/index.rst

doc/architecture.rst

doc/cephfs

doc/cephfs/fstab.rst

doc/cephfs/fuse.rst

doc/cephfs/index.rst

doc/cephfs/kernel.rst

doc/conf.py

doc/config-cluster

doc/config-cluster/authentication.rst

doc/config-cluster/ceph-conf.rst

doc/config-cluster/chef.rst

doc/config-cluster/demo-ceph.conf

doc/config-cluster/file-system-recommendations.rst

doc/config-cluster/index.rst

doc/config-cluster/mkcephfs.rst

doc/config-cluster/pools.rst

doc/config-ref

doc/config-ref/mds-config.rst

doc/config-ref/mon-config.rst

doc/config-ref/osd-config.rst

doc/config.rst

doc/control.rst

doc/dev

doc/dev/PlanningImplementation.txt

doc/dev/config.rst

doc/dev/confusing.txt

doc/dev/context.rst

doc/dev/delayed-delete.rst

doc/dev/documenting.rst

doc/dev/file-striping.rst

doc/dev/filestore-filesystem-compat.rst

doc/dev/generatedocs.rst

doc/dev/index.rst

doc/dev/kernel-client-troubleshooting.rst

doc/dev/libs.rst

doc/dev/logs.rst

doc/dev/mon-bootstrap.rst

doc/dev/object-store.rst

doc/dev/osd-class-path.rst

doc/dev/peering.rst

doc/dev/placement-group.rst

doc/faq.rst

doc/favicon.ico

doc/images

doc/images/AccessMethods.jpg

doc/images/CEPHConfig.jpg

doc/images/CRUSH.jpg

doc/images/RADOS.jpg

doc/images/RBD.jpg

doc/images/RDBSnapshots.jpg

doc/images/chef.png

doc/images/chef.svg

doc/images/docreviewprocess.jpg

doc/images/lightstack.png

doc/images/lightstack.svg

doc/images/osdStack.svg

doc/images/radosStack.svg

doc/images/stack.png

doc/images/stack.svg

doc/images/techstack.png

doc/images/techstack.svg

doc/index.rst

doc/init

doc/init/check-cluster-health.rst

doc/init/index.rst

doc/init/start-cluster.rst

doc/init/stop-cluster.rst

doc/install

doc/install/chef.rst

doc/install/debian.rst

doc/install/hardware-recommendations.rst

doc/install/index.rst

doc/install/openstack.rst

doc/install/rpm.rst

doc/logo.png

doc/man

doc/man/1

doc/man/1/obsync.rst

doc/man/8

doc/man/8/ceph-authtool.rst

doc/man/8/ceph-clsinfo.rst

doc/man/8/ceph-conf.rst

doc/man/8/ceph-debugpack.rst

doc/man/8/ceph-dencoder.rst

doc/man/8/ceph-fuse.rst

doc/man/8/ceph-mds.rst

doc/man/8/ceph-mon.rst

doc/man/8/ceph-osd.rst

doc/man/8/ceph-rbdnamer.rst

doc/man/8/ceph-run.rst

doc/man/8/ceph-syn.rst

doc/man/8/ceph.rst

doc/man/8/cephfs.rst

doc/man/8/crushtool.rst

doc/man/8/index.rst

doc/man/8/librados-config.rst

doc/man/8/mkcephfs.rst

doc/man/8/monmaptool.rst

doc/man/8/mount.ceph.rst

doc/man/8/osdmaptool.rst

doc/man/8/rados.rst

doc/man/8/radosgw-admin.rst

doc/man/8/radosgw.rst

doc/man/8/rbd.rst

doc/man/index.rst

doc/mon

doc/mon/README.txt

doc/mon/paxos-call-chain.dot

doc/ops

doc/ops/index.rst

doc/ops/manage

doc/ops/manage/cephfs.rst

doc/ops/manage/crush.rst

doc/ops/manage/failures

doc/ops/manage/failures/index.rst

doc/ops/manage/failures/mds.rst

doc/ops/manage/failures/mon.rst

doc/ops/manage/failures/osd.rst

doc/ops/manage/failures/radosgw.rst

doc/ops/manage/grow

doc/ops/manage/grow/index.rst

doc/ops/manage/grow/mds.rst

doc/ops/manage/grow/mon.rst

doc/ops/manage/grow/osd.rst

doc/ops/manage/grow/placement-groups.rst

doc/ops/manage/index.rst

doc/ops/manage/key.rst

doc/ops/manage/pool.rst

doc/ops/monitor.rst

doc/ops/radosgw.rst

doc/ops/rbd.rst

doc/papers.rst

doc/rbd

doc/rbd/qemu-rbd.rst

doc/rbd/rados-rbd-cmds.rst

doc/rbd/rbd-ko.rst

doc/rbd/rbd.rst

doc/rec

doc/rec/crypto.rst

doc/rec/data-placement.rst

doc/rec/filesystem.rst

doc/rec/hardware.rst

doc/rec/index.rst

doc/scripts

doc/scripts/gen_state_diagram.py

doc/source

doc/source/build-packages.rst

doc/source/build-prerequisites.rst

doc/source/building-ceph.rst

doc/source/clone-source.rst

doc/source/contributing.rst

doc/source/get-tarballs.rst

doc/source/git.rst

doc/source/index.rst

doc/start

doc/start/get-involved.rst

doc/start/index.rst

doc/start/quick-start.rst

fusetrace

fusetrace/Makefile

fusetrace/fusetrace_ll.cc

keys

keys/autobuild.asc

keys/old_release.asc

keys/release.asc

qa/Makefile

qa/btrfs

qa/btrfs/.gitignore

qa/btrfs/Makefile

qa/btrfs/clone_range.c

qa/btrfs/create_async_snap.c

qa/btrfs/test_async_snap.c

qa/btrfs/test_rmdir_async_snap

qa/btrfs/test_rmdir_async_snap.c

qa/client

qa/client/30_subdir_mount.sh

qa/client/common.sh

qa/client/gen-1774.sh

qa/libceph

qa/libceph/Makefile

qa/libceph/trivial_libceph.c

qa/loopall.sh

qa/mds

qa/mds/test_anchortable.sh

qa/mds/test_mdstable_failures.sh

qa/mon

qa/mon/bootstrap

qa/mon/bootstrap/host.sh

qa/mon/bootstrap/initial_members.sh

qa/mon/bootstrap/initial_members_asok.sh

qa/mon/bootstrap/simple.sh

qa/mon/bootstrap/simple_expand.sh

qa/mon/bootstrap/simple_expand_monmap.sh

qa/mon/bootstrap/simple_single_expand.sh

qa/mon/bootstrap/simple_single_expand2.sh

qa/mon/bootstrap/single_host.sh

qa/mon/bootstrap/single_host_multi.sh

qa/rbd

qa/rbd/common.sh

qa/rbd/rbd.sh

qa/rgw

qa/rgw/s3.sh

qa/run_xfstests.sh

qa/runallonce.sh

qa/runoncfuse.sh

qa/runonkclient.sh

qa/setup-chroot.sh

qa/workunits

qa/workunits/Makefile

qa/workunits/caps

qa/workunits/caps/mon_commands.sh

qa/workunits/direct_io

qa/workunits/direct_io/.gitignore

qa/workunits/direct_io/Makefile

qa/workunits/direct_io/direct_io_test.c

qa/workunits/direct_io/misc.sh

qa/workunits/direct_io/test_short_dio_read.c

qa/workunits/direct_io/test_sync_io.c

qa/workunits/false.sh

qa/workunits/kclient

qa/workunits/kclient/file_layout.sh

qa/workunits/kernel_untar_build.sh

qa/workunits/libcephfs

qa/workunits/libcephfs/test.sh

qa/workunits/misc

qa/workunits/misc/i_complete_vs_rename.sh

qa/workunits/misc/multiple_rsync.sh

qa/workunits/misc/trivial_sync.sh

qa/workunits/misc/xattrs.sh

qa/workunits/rados

qa/workunits/rados/load-gen-big.sh

qa/workunits/rados/load-gen-mix-small-long.sh

qa/workunits/rados/load-gen-mix-small.sh

qa/workunits/rados/load-gen-mix.sh

qa/workunits/rados/load-gen-mostlyread.sh

qa/workunits/rados/stress_watch.sh

qa/workunits/rados/test.sh

qa/workunits/rados/test_python.sh

qa/workunits/rbd

qa/workunits/rbd/copy.sh

qa/workunits/rbd/import_export.sh

qa/workunits/rbd/kernel.sh

qa/workunits/rbd/test_cls_rbd.sh

qa/workunits/rbd/test_librbd.sh

qa/workunits/rbd/test_librbd_python.sh

qa/workunits/rename

qa/workunits/rename/all.sh

qa/workunits/rename/dir_pri_nul.sh

qa/workunits/rename/dir_pri_pri.sh

qa/workunits/rename/plan.txt

qa/workunits/rename/prepare.sh

qa/workunits/rename/pri_nul.sh

qa/workunits/rename/pri_pri.sh

qa/workunits/rename/pri_rem.sh

qa/workunits/rename/rem_nul.sh

qa/workunits/rename/rem_pri.sh

qa/workunits/rename/rem_rem.sh

qa/workunits/snaps

qa/workunits/snaps/snap-rm-diff.sh

qa/workunits/snaps/snaptest-0.sh

qa/workunits/snaps/snaptest-1.sh

qa/workunits/snaps/snaptest-2.sh

qa/workunits/snaps/snaptest-authwb.sh

qa/workunits/snaps/snaptest-capwb.sh

qa/workunits/snaps/snaptest-dir-rename.sh

qa/workunits/snaps/snaptest-double-null.sh

qa/workunits/snaps/snaptest-estale.sh

qa/workunits/snaps/snaptest-git-ceph.sh

qa/workunits/snaps/snaptest-intodir.sh

qa/workunits/snaps/snaptest-multiple-capsnaps.sh

qa/workunits/snaps/snaptest-parents.sh

qa/workunits/snaps/snaptest-snap-rm-cmp.sh

qa/workunits/snaps/snaptest-upchildrealms.sh

qa/workunits/snaps/snaptest-xattrwb.sh

qa/workunits/snaps/untar_snap_rm.sh

qa/workunits/suites

qa/workunits/suites/blogbench.sh

qa/workunits/suites/bonnie.sh

qa/workunits/suites/dbench.sh

qa/workunits/suites/ffsb.sh

qa/workunits/suites/fsstress.sh

qa/workunits/suites/fsx.sh

qa/workunits/suites/iozone.sh

qa/workunits/suites/pjd.sh

qa/workunits/suites/random_write.32.ffsb

qa/workunits/suites/tiobench.sh

src/.gitignore

src/auth/scheme.txt

src/barclass.cc

src/btrfs_ioc_test.c

src/ceph-disk-activate

src/ceph-disk-prepare

src/ceph.conf.twoosds

src/client/hadoop/HADOOP-ceph.patch

src/client/hadoop/Readme

src/client/hadoop/ceph

src/client/hadoop/ceph/CephFS.java

src/client/hadoop/ceph/CephFaker.java

src/client/hadoop/ceph/CephFileSystem.java

src/client/hadoop/ceph/CephInputStream.java

src/client/hadoop/ceph/CephOutputStream.java

src/client/hadoop/ceph/CephTalker.java

src/client/hadoop/ceph/LICENSE

src/client/hadoop/ceph/TestCeph.java

src/client/hadoop/ceph/package.html

src/client/hadoop/org_apache_hadoop_fs_ceph_CephFS.h

src/client/hadoop/org_apache_hadoop_fs_ceph_CephFileSystem.h

src/client/hadoop/org_apache_hadoop_fs_ceph_CephFileSystem_CephStat.h

src/client/hadoop/org_apache_hadoop_fs_ceph_CephFileSystem_Stat.h

src/client/hadoop/org_apache_hadoop_fs_ceph_CephInputStream.h

src/client/hadoop/org_apache_hadoop_fs_ceph_CephOutputStream.h

src/client/hadoop/org_apache_hadoop_fs_ceph_CephTalker.h

src/client/hypertable

src/client/hypertable/CephBroker.cc

src/client/hypertable/CephBroker.h

src/client/ldceph.cc

src/cmonctl

src/crush/old_sample.txt

src/doc

src/doc/Commitdir.txt

src/doc/anchortable.txt

src/doc/caching.txt

src/doc/exports.txt

src/doc/header.txt

src/doc/inos.txt

src/doc/killpoints.txt

src/doc/lazy_posix.txt

src/doc/mds_locks.txt

src/doc/modeline.txt

src/doc/rgw.txt

src/fooclass.cc

src/gtest/build-aux/.keep

src/gtest/run_tests.py

src/gtest/scripts/upload.py

src/gtest/scripts/upload_gtest.py

src/gtest/test/gtest_nc.cc

src/gtest/test/gtest_nc_test.py

src/jobs

src/jobs/alc.tp

src/jobs/alcdat

src/jobs/alcdat/makedirs

src/jobs/alcdat/makedirs.big

src/jobs/alcdat/makedirs.tput

src/jobs/alcdat/makefiles.shared

src/jobs/alcdat/openshared

src/jobs/alcdat/ossh.include

src/jobs/alcdat/ossh.include.big

src/jobs/alcdat/ossh.lib

src/jobs/alcdat/ossh.lib.big

src/jobs/alcdat/striping

src/jobs/example

src/jobs/mds

src/jobs/mds/log_striping

src/jobs/mds/makedir_lat

src/jobs/mds/makedirs

src/jobs/mds/opensshlib

src/jobs/meta1

src/jobs/meta1.proc.sh

src/jobs/osd

src/jobs/osd/ebofs

src/jobs/osd/mds_log

src/jobs/osd/osd_threads

src/jobs/osd/striping

src/jobs/osd/wr_lat2

src/jobs/osd/write_sizes

src/jobs/rados

src/jobs/rados/map_dist

src/jobs/rados/rep_lat

src/jobs/rados/wr_sizes

src/jobs/runjobsample

src/librbd/cls_rbd_client.cc

src/librbd/cls_rbd_client.h

src/loadclass.sh

src/log/SubsystemMap.cc

src/multi-dump.sh

src/objsync

src/objsync/boto_del.py

src/obsync/test-obsync.py

src/ps-ceph.pl

src/push_to_kclient.pl

src/push_to_qemu.pl

src/rgw/rgw_aclparser.cc

src/script

src/script/add_header.pl

src/script/adjusttabs.pl

src/script/build_debian_image.sh

src/script/check_cache_dumps.pl

src/script/check_dendl.pl

src/script/check_mds_request_latency.pl

src/script/check_osd_request_latency.pl

src/script/check_pglog.sh

src/script/clean_trace.pl

src/script/comb.pl

src/script/convert_soe_trace.pl

src/script/find_auth_pins.pl

src/script/find_bufferleaks.pl

src/script/find_lost_bdev_ops.pl

src/script/find_lost_commit.pl

src/script/find_lost_objecter.pl

src/script/find_pathpins.pl

src/script/find_requests.pl

src/script/find_waiters.pl

src/script/fix_modeline.pl

src/script/gprofnewsyn

src/script/grepblock

src/script/kcon_all.sh

src/script/kcon_most.sh

src/script/merge_cdfs.pl

src/script/merge_trace_rw.pl

src/script/network-from-cmdline

src/script/permute

src/script/plot.pl

src/script/profonly.pl

src/script/run_uml.sh

src/script/runjob.pl

src/script/runset.pl

src/script/smooth.pl

src/script/strip_trailing_whitespace.sh

src/script/study_find.pl

src/script/study_hardlink_lifetimes.pl

src/script/study_lookups.pl

src/script/sum.pl

src/test/.gitignore

src/test/ObjectMap/KeyValueDBMemory.h

src/test/admin_socket

src/test/admin_socket/objecter_requests

src/test/admin_socket/osd_requests

src/test/client

src/test/client/iozone.sh

src/test/client/kernel_untar_build.sh

src/test/common/ObjectContents.h

src/test/coverage.sh

src/test/encoding/identity.sh

src/test/encoding/import-generated.sh

src/test/encoding/import.sh

src/test/filestore/DeterministicOpSequence.h

src/test/filestore/FileStoreDiff.h

src/test/filestore/FileStoreTracker.h

src/test/filestore/TestFileStoreState.h

src/test/filestore/run_seed_to.sh

src/test/filestore/run_seed_to_range.sh

src/test/filestore/workload_generator.h

src/test/fsx.c

src/test/gprof-helper.c

src/test/librgw.cc

src/test/librgw_link.cc

src/test/memuse

src/test/memuse/test_pool_memuse.sh

src/test/memuse/test_pool_memuse_tcmalloc.sh

src/test/memuse/test_written_pool_memuse.sh

src/test/memuse/test_written_pool_memuse_tcmalloc.sh

src/test/old

src/test/old/test_disk_bw.cc

src/test/old/test_seek_read.c

src/test/old/test_setlayout.c

src/test/old/test_short_seek_read.c

src/test/old/testbucket.cc

src/test/old/testbuffers.cc

src/test/old/testcounter.cc

src/test/old/testcrush.cc

src/test/old/testfilepath.cc

src/test/old/testmpi.cc

src/test/old/testnewbuffers.cc

src/test/old/testtree.cc

src/test/old/testxattr.cc

src/test/omap_bench.cc

src/test/omap_bench.hpp

src/test/pybind

src/test/pybind/test_rados.py

src/test/pybind/test_rbd.py

src/test/rbd/test_cls_rbd.cc

src/test/system/rerun.sh

src/test/test_backfill.sh

src/test/test_common.sh

src/test/test_csyn.sh

src/test/test_lost.sh

src/test/test_missing_unfound.sh

src/test/test_pools.sh

src/test/test_rados_tool.sh

src/test/test_rw.sh

src/test/test_split.sh

src/test/test_unfound.sh

src/testclass.cc

src/upstart

src/upstart/ceph-hotplug.conf

src/upstart/ceph-mds-all-starter.conf

src/upstart/ceph-mds-all.conf

src/upstart/ceph-mds.conf

src/upstart/ceph-mon-all-starter.conf

src/upstart/ceph-mon-all.conf

src/upstart/ceph-mon.conf

src/upstart/ceph-osd.conf

src/upstart/radosgw-all-starter.conf

src/upstart/radosgw-all.conf

src/upstart/radosgw.conf

src/valgrind.supp

wireshark

wireshark/ceph

wireshark/ceph/Makefile.am

wireshark/ceph/Makefile.common

wireshark/ceph/Makefile.nmake

wireshark/ceph/ceph_fs.h

wireshark/ceph/crc32c.h

wireshark/ceph/moduleinfo.h

wireshark/ceph/moduleinfo.nmake

wireshark/ceph/msgr.h

wireshark/ceph/packet-ceph.c

wireshark/ceph/plugin.c

wireshark/ceph/plugin.rc.in

wireshark/ceph/rados.h

wireshark/ceph/sctp_crc32.c

wireshark/ceph/types.h

wireshark/wireshark.patch

files removed:
Makefile.in

aclocal.m4

ceph.spec

compile

config.guess

config.sub

configure

depcomp

install-sh

ltmain.sh

man/Makefile.in

missing

py-compile

src/.git_version

src/Makefile.in

src/acconfig.h.in

src/ceph-kdump-copy.in

src/gtest/Makefile.in

src/gtest/aclocal.m4

src/gtest/build-aux/config.guess

src/gtest/build-aux/config.h.in

src/gtest/build-aux/config.sub

src/gtest/build-aux/depcomp

src/gtest/build-aux/install-sh

src/gtest/build-aux/ltmain.sh

src/gtest/build-aux/missing

src/gtest/configure

src/gtest/fused-src

src/gtest/fused-src/gtest

src/gtest/fused-src/gtest/gtest-all.cc

src/gtest/fused-src/gtest/gtest.h

src/gtest/fused-src/gtest/gtest_main.cc

src/leveldb/AUTHORS

src/leveldb/Makefile.am

src/leveldb/Makefile.in

src/leveldb/NEWS

src/leveldb/README

src/leveldb/TODO

src/leveldb/aclocal.m4

src/leveldb/config.h

src/leveldb/config.h.in

src/leveldb/configure

src/leveldb/configure.ac

src/leveldb/db

src/leveldb/db/builder.cc

src/leveldb/db/builder.h

src/leveldb/db/c.cc

src/leveldb/db/c_test.c

src/leveldb/db/corruption_test.cc

src/leveldb/db/db_bench.cc

src/leveldb/db/db_impl.cc

src/leveldb/db/db_impl.h

src/leveldb/db/db_iter.cc

src/leveldb/db/db_iter.h

src/leveldb/db/db_test.cc

src/leveldb/db/dbformat.cc

src/leveldb/db/dbformat.h

src/leveldb/db/dbformat_test.cc

src/leveldb/db/filename.cc

src/leveldb/db/filename.h

src/leveldb/db/filename_test.cc

src/leveldb/db/log_format.h

src/leveldb/db/log_reader.cc

src/leveldb/db/log_reader.h

src/leveldb/db/log_test.cc

src/leveldb/db/log_writer.cc

src/leveldb/db/log_writer.h

src/leveldb/db/memtable.cc

src/leveldb/db/memtable.h

src/leveldb/db/repair.cc

src/leveldb/db/skiplist.h

src/leveldb/db/skiplist_test.cc

src/leveldb/db/snapshot.h

src/leveldb/db/table_cache.cc

src/leveldb/db/table_cache.h

src/leveldb/db/version_edit.cc

src/leveldb/db/version_edit.h

src/leveldb/db/version_edit_test.cc

src/leveldb/db/version_set.cc

src/leveldb/db/version_set.h

src/leveldb/db/version_set_test.cc

src/leveldb/db/write_batch.cc

src/leveldb/db/write_batch_internal.h

src/leveldb/db/write_batch_test.cc

src/leveldb/doc

src/leveldb/doc/bench

src/leveldb/doc/bench/db_bench_sqlite3.cc

src/leveldb/doc/bench/db_bench_tree_db.cc

src/leveldb/helpers

src/leveldb/helpers/memenv

src/leveldb/helpers/memenv/memenv.h

src/leveldb/include

src/leveldb/include/leveldb

src/leveldb/include/leveldb/c.h

src/leveldb/include/leveldb/cache.h

src/leveldb/include/leveldb/comparator.h

src/leveldb/include/leveldb/db.h

src/leveldb/include/leveldb/env.h

src/leveldb/include/leveldb/iterator.h

src/leveldb/include/leveldb/options.h

src/leveldb/include/leveldb/slice.h

src/leveldb/include/leveldb/status.h

src/leveldb/include/leveldb/table.h

src/leveldb/include/leveldb/table_builder.h

src/leveldb/include/leveldb/write_batch.h

src/leveldb/port

src/leveldb/port/atomic_pointer.h

src/leveldb/port/port.h

src/leveldb/port/port_android.h

src/leveldb/port/port_example.h

src/leveldb/port/port_posix.cc

src/leveldb/port/port_posix.h

src/leveldb/port/win

src/leveldb/port/win/stdint.h

src/leveldb/table

src/leveldb/table/block.cc

src/leveldb/table/block.h

src/leveldb/table/block_builder.cc

src/leveldb/table/block_builder.h

src/leveldb/table/format.cc

src/leveldb/table/format.h

src/leveldb/table/iterator.cc

src/leveldb/table/iterator_wrapper.h

src/leveldb/table/merger.cc

src/leveldb/table/merger.h

src/leveldb/table/table.cc

src/leveldb/table/table_builder.cc

src/leveldb/table/table_test.cc

src/leveldb/table/two_level_iterator.cc

src/leveldb/table/two_level_iterator.h

src/leveldb/util

src/leveldb/util/arena.cc

src/leveldb/util/arena.h

src/leveldb/util/arena_test.cc

src/leveldb/util/cache.cc

src/leveldb/util/cache_test.cc

src/leveldb/util/coding.cc

src/leveldb/util/coding.h

src/leveldb/util/coding_test.cc

src/leveldb/util/comparator.cc

src/leveldb/util/crc32c.cc

src/leveldb/util/crc32c.h

src/leveldb/util/crc32c_test.cc

src/leveldb/util/env.cc

src/leveldb/util/env_posix.cc

src/leveldb/util/env_test.cc

src/leveldb/util/hash.cc

src/leveldb/util/hash.h

src/leveldb/util/histogram.cc

src/leveldb/util/histogram.h

src/leveldb/util/logging.cc

src/leveldb/util/logging.h

src/leveldb/util/mutexlock.h

src/leveldb/util/options.cc

src/leveldb/util/posix_logger.h

src/leveldb/util/random.h

src/leveldb/util/status.cc

src/leveldb/util/testharness.cc

src/leveldb/util/testharness.h

src/leveldb/util/testutil.cc

src/leveldb/util/testutil.h

src/libs3/COPYING

src/libs3/ChangeLog

src/libs3/GNUmakefile

src/libs3/GNUmakefile.mingw

src/libs3/GNUmakefile.osx

src/libs3/INSTALL

src/libs3/LICENSE

src/libs3/README

src/libs3/TODO

src/libs3/archlinux

src/libs3/archlinux/PKGBUILD

src/libs3/debian

src/libs3/debian/changelog

src/libs3/debian/changelog.Debian

src/libs3/debian/control

src/libs3/debian/control.dev

src/libs3/debian/postinst

src/libs3/doxyfile

src/libs3/inc

src/libs3/inc/error_parser.h

src/libs3/inc/libs3.h

src/libs3/inc/mingw

src/libs3/inc/mingw/pthread.h

src/libs3/inc/mingw/sys

src/libs3/inc/mingw/sys/select.h

src/libs3/inc/mingw/sys/utsname.h

src/libs3/inc/request.h

src/libs3/inc/request_context.h

src/libs3/inc/response_headers_handler.h

src/libs3/inc/simplexml.h

src/libs3/inc/string_buffer.h

src/libs3/inc/util.h

src/libs3/libs3.spec

src/libs3/mswin

src/libs3/mswin/libs3.def

src/libs3/mswin/rmrf.bat

src/libs3/src

src/libs3/src/acl.c

src/libs3/src/bucket.c

src/libs3/src/error_parser.c

src/libs3/src/general.c

src/libs3/src/mingw_functions.c

src/libs3/src/mingw_s3_functions.c

src/libs3/src/object.c

src/libs3/src/request.c

src/libs3/src/request_context.c

src/libs3/src/response_headers_handler.c

src/libs3/src/s3.c

src/libs3/src/service.c

src/libs3/src/service_access_logging.c

src/libs3/src/simplexml.c

src/libs3/src/testsimplexml.c

src/libs3/src/util.c

src/libs3/test

src/libs3/test/badxml_01.xml

src/libs3/test/goodxml_01.xml

src/libs3/test/goodxml_02.xml

src/libs3/test/goodxml_03.xml

src/libs3/test/test.sh

src/messages/MMonObserve.h

src/messages/MMonObserveNotify.h

src/ocf/Makefile.in

src/test/cli/crushtool/exhaustive-search.t

src/tools/gceph.cc

src/tools/gui.cc

src/tools/gui.h

src/tools/gui_resources

src/tools/gui_resources.h

src/tools/gui_resources/blacklist.svg

src/tools/gui_resources/client.svg

src/tools/gui_resources/cluster_stats_window.glade

src/tools/gui_resources/down_osd.svg

src/tools/gui_resources/failed_mds.svg

src/tools/gui_resources/gui_monitor.build

src/tools/gui_resources/gui_monitor.glade

src/tools/gui_resources/gui_monitor_old.glade

src/tools/gui_resources/main-window.glade

src/tools/gui_resources/mds.svg

src/tools/gui_resources/monitor.svg

src/tools/gui_resources/node_stats_window.glade

src/tools/gui_resources/osd.svg

src/tools/gui_resources/out_osd.svg

src/tools/gui_resources/pg.svg

src/tools/gui_resources/stats_window.glade

src/tools/gui_resources/stopped_mds.svg

files modified:
Makefile.am

ceph.spec.in

configure.ac

man/ceph-authtool.8

src/Makefile.am

src/auth/KeyRing.h

src/auth/cephx/CephxKeyServer.cc

src/auth/cephx/CephxKeyServer.h

src/auth/cephx/CephxServiceHandler.cc

src/ceph_authtool.cc

src/ceph_common.sh

src/ceph_mds.cc

src/ceph_mon.cc

src/ceph_osd.cc

src/client/Client.cc

src/client/Inode.h

src/client/SyntheticClient.cc

src/client/fuse_ll.cc

src/cls_rbd.cc

src/cls_rgw.cc

src/common/BackTrace.cc

src/common/ConfUtils.cc

src/common/Formatter.cc

src/common/LogClient.cc

src/common/LogClient.h

src/common/LogEntry.cc

src/common/LogEntry.h

src/common/Thread.cc

src/common/admin_socket.cc

src/common/admin_socket.h

src/common/buffer.cc

src/common/ceph_argparse.cc

src/common/ceph_argparse.h

src/common/ceph_context.cc

src/common/ceph_context.h

src/common/ceph_crypto.h

src/common/common_init.cc

src/common/config.cc

src/common/config.h

src/common/config_opts.h

src/common/dout.h

src/common/entity_name.cc

src/common/entity_name.h

src/common/obj_bencher.cc

src/common/obj_bencher.h

src/common/perf_counters.cc

src/common/perf_counters.h

src/crush/CrushCompiler.cc

src/crush/CrushCompiler.h

src/crush/CrushTester.cc

src/crush/CrushTester.h

src/crush/CrushWrapper.cc

src/crush/CrushWrapper.h

src/crush/builder.c

src/crush/crush.c

src/crush/crush.h

src/crush/grammar.h

src/crush/mapper.c

src/crushtool.cc

src/gtest/Makefile.am

src/gtest/scripts/gtest-config.in

src/include/addr_parsing.c

src/include/assert.h

src/include/buffer.h

src/include/ceph_features.h

src/include/cmp.h

src/include/encoding.h

src/include/frag.h

src/include/rados/buffer.h

src/include/rados/crc32c.h

src/include/rados/librados.h

src/include/rados/page.h

src/include/rbd/librbd.h

src/include/rbd/librbd.hpp

src/include/rbd_types.h

src/include/types.h

src/include/utime.h

src/init-ceph.in

src/init-radosgw

src/libcephfs.cc

src/librados/IoCtxImpl.cc

src/librados/RadosClient.cc

src/librbd.cc

src/librbd/LibrbdWriteback.cc

src/log/SubsystemMap.h

src/logrotate.conf

src/mds/CDir.cc

src/mds/CInode.cc

src/mds/MDCache.cc

src/mds/MDLog.cc

src/mds/MDS.cc

src/mds/MDSTable.cc

src/mds/SessionMap.cc

src/mds/SnapServer.cc

src/mds/mdstypes.h

src/messages/MForward.h

src/messages/MLog.h

src/messages/MMonElection.h

src/messages/MMonMap.h

src/messages/MMonProbe.h

src/messages/MOSDPGBackfill.h

src/messages/MOSDPGLog.h

src/messages/MOSDPGMissing.h

src/messages/MOSDPGScan.h

src/messages/MOSDSubOp.h

src/messages/MOSDSubOpReply.h

src/mon/AuthMonitor.cc

src/mon/AuthMonitor.h

src/mon/Elector.cc

src/mon/Elector.h

src/mon/LogMonitor.cc

src/mon/LogMonitor.h

src/mon/MDSMonitor.cc

src/mon/MonCaps.cc

src/mon/MonCaps.h

src/mon/MonClient.cc

src/mon/MonClient.h

src/mon/MonMap.cc

src/mon/MonMap.h

src/mon/Monitor.cc

src/mon/Monitor.h

src/mon/MonitorStore.cc

src/mon/MonmapMonitor.cc

src/mon/MonmapMonitor.h

src/mon/OSDMonitor.cc

src/mon/OSDMonitor.h

src/mon/PGMap.cc

src/mon/PGMap.h

src/mon/PGMonitor.cc

src/mon/Paxos.cc

src/mon/Paxos.h

src/mon/PaxosService.cc

src/mon/PaxosService.h

src/monmaptool.cc

src/mount/canonicalize.c

src/msg/Dispatcher.h

src/msg/Message.cc

src/msg/Message.h

src/msg/Messenger.h

src/msg/SimpleMessenger.cc

src/msg/SimpleMessenger.h

src/msg/msg_types.cc

src/objclass/class_api.cc

src/objclass/class_debug.cc

src/objclass/objclass.h

src/os/CollectionIndex.h

src/os/DBObjectMap.cc

src/os/DBObjectMap.h

src/os/FileJournal.cc

src/os/FileJournal.h

src/os/FileStore.cc

src/os/FileStore.h

src/os/HashIndex.cc

src/os/IndexManager.cc

src/os/IndexManager.h

src/os/Journal.h

src/os/LFNIndex.cc

src/os/LFNIndex.h

src/os/ObjectMap.h

src/os/ObjectStore.cc

src/os/ObjectStore.h

src/os/hobject.cc

src/os/hobject.h

src/osd/OSD.cc

src/osd/OSD.h

src/osd/OSDCaps.h

src/osd/OSDMap.cc

src/osd/OSDMap.h

src/osd/OpRequest.cc

src/osd/PG.cc

src/osd/PG.h

src/osd/ReplicatedPG.cc

src/osd/osd_types.cc

src/osd/osd_types.h

src/osdc/Journaler.cc

src/osdc/ObjectCacher.cc

src/osdc/Objecter.cc

src/osdc/Objecter.h

src/perfglue/heap_profiler.cc

src/pybind/rbd.py

src/rados.cc

src/rbd.cc

src/rgw/rgw_admin.cc

src/rgw/rgw_cache.h

src/rgw/rgw_cls_api.h

src/rgw/rgw_common.cc

src/rgw/rgw_common.h

src/rgw/rgw_env.cc

src/rgw/rgw_log.cc

src/rgw/rgw_log.h

src/rgw/rgw_main.cc

src/rgw/rgw_op.cc

src/rgw/rgw_op.h

src/rgw/rgw_rados.cc

src/rgw/rgw_rados.h

src/rgw/rgw_rest.cc

src/rgw/rgw_rest_s3.cc

src/rgw/rgw_rest_swift.cc

src/rgw/rgw_tools.cc

src/rgw/rgw_tools.h

src/rgw/rgw_user.h

src/test/ObjectMap/test_object_map.cc

src/test/admin_socket.cc

src/test/cli/ceph-authtool/cap-bin.t

src/test/cli/ceph-authtool/create-gen-list-bin.t

src/test/cli/ceph-authtool/help.t

src/test/cli/ceph-authtool/list-empty-bin.t

src/test/cli/ceph-authtool/list-nonexistent-bin.t

src/test/cli/ceph-authtool/manpage.t

src/test/cli/ceph-authtool/simple.t

src/test/cli/ceph-conf/invalid-args.t

src/test/cli/ceph/name.t

src/test/cli/crushtool/help.t

src/test/cli/monmaptool/add-exists.t

src/test/cli/monmaptool/add-many.t

src/test/cli/monmaptool/help.t

src/test/cli/monmaptool/rm-nonexistent.t

src/test/cli/monmaptool/rm.t

src/test/cli/monmaptool/simple.t

src/test/cli/radosgw-admin/help.t

src/test/cli/rbd/help.t

src/test/cli/rbd/invalid-snap-usage.t

src/test/daemon_config.cc

src/test/encoding/ceph_dencoder.cc

src/test/encoding/types.h

src/test/filestore/DeterministicOpSequence.cc

src/test/filestore/FileStoreDiff.cc

src/test/filestore/TestFileStoreState.cc

src/test/filestore/store_test.cc

src/test/filestore/test_idempotent_sequence.cc

src/test/filestore/workload_generator.cc

src/test/perf_counters.cc

src/test/rados-api/misc.cc

src/test/rados-api/test.cc

src/test/rados-api/test.h

src/test/run-cli-tests

src/test/test_addrs.cc

src/test/test_librbd.cc

src/test/test_stress_watch.cc

src/test_trans.cc

src/testkeys.cc

src/tools/ceph.cc

src/tools/common.cc

src/tools/common.h

src/tools/rest_bench.cc

src/vstart.sh

Show diffs side-by-side

added added

removed removed

src/leveldb/db/db_impl.cc

// Use of this source code is governed by a BSD-style license that can be

// found in the LICENSE file. See the AUTHORS file for names of contributors.

#include "db/db_impl.h"

#include <algorithm>

#include <set>

#include <string>

#include <stdint.h>

#include <stdio.h>

#include <vector>

#include "db/builder.h"

#include "db/db_iter.h"

#include "db/dbformat.h"

#include "db/filename.h"

#include "db/log_reader.h"

#include "db/log_writer.h"

#include "db/memtable.h"

#include "db/table_cache.h"

#include "db/version_set.h"

#include "db/write_batch_internal.h"

#include "leveldb/db.h"

#include "leveldb/env.h"

#include "leveldb/status.h"

#include "leveldb/table.h"

#include "leveldb/table_builder.h"

#include "port/port.h"

#include "table/block.h"

#include "table/merger.h"

#include "table/two_level_iterator.h"

#include "util/coding.h"

#include "util/logging.h"

#include "util/mutexlock.h"

namespace leveldb {

struct DBImpl::CompactionState {

Compaction* const compaction;

// Sequence numbers < smallest_snapshot are not significant since we

// will never have to service a snapshot below smallest_snapshot.

// Therefore if we have seen a sequence number S <= smallest_snapshot,

// we can drop all entries for the same key with sequence numbers < S.

SequenceNumber smallest_snapshot;

// Files produced by compaction

struct Output {

uint64_t number;

uint64_t file_size;

InternalKey smallest, largest;

};

std::vector<Output> outputs;

// State kept for output being generated

WritableFile* outfile;

TableBuilder* builder;

uint64_t total_bytes;

Output* current_output() { return &outputs[outputs.size()-1]; }

explicit CompactionState(Compaction* c)

: compaction(c),

outfile(NULL),

builder(NULL),

total_bytes(0) {

}

};

// Fix user-supplied options to be reasonable

template <class T,class V>

static void ClipToRange(T* ptr, V minvalue, V maxvalue) {

if (static_cast<V>(*ptr) > maxvalue) *ptr = maxvalue;

if (static_cast<V>(*ptr) < minvalue) *ptr = minvalue;

}

Options SanitizeOptions(const std::string& dbname,

const InternalKeyComparator* icmp,

const Options& src) {

Options result = src;

result.comparator = icmp;

ClipToRange(&result.max_open_files, 20, 50000);

ClipToRange(&result.write_buffer_size, 64<<10, 1<<30);

ClipToRange(&result.block_size, 1<<10, 4<<20);

if (result.info_log == NULL) {

// Open a log file in the same directory as the db

src.env->CreateDir(dbname); // In case it does not exist

src.env->RenameFile(InfoLogFileName(dbname), OldInfoLogFileName(dbname));

Status s = src.env->NewLogger(InfoLogFileName(dbname), &result.info_log);

if (!s.ok()) {

// No place suitable for logging

result.info_log = NULL;

}

if (result.block_cache == NULL) {

result.block_cache = NewLRUCache(8 << 20);

}

return result;

}

100

101

DBImpl::DBImpl(const Options& options, const std::string& dbname)

102

: env_(options.env),

103

internal_comparator_(options.comparator),

104

options_(SanitizeOptions(dbname, &internal_comparator_, options)),

105

owns_info_log_(options_.info_log != options.info_log),

106

owns_cache_(options_.block_cache != options.block_cache),

107

dbname_(dbname),

108

db_lock_(NULL),

109

shutting_down_(NULL),

110

bg_cv_(&mutex_),

111

mem_(new MemTable(internal_comparator_)),

112

imm_(NULL),

113

logfile_(NULL),

114

logfile_number_(0),

115

log_(NULL),

116

logger_(NULL),

117

logger_cv_(&mutex_),

118

bg_compaction_scheduled_(false),

119

manual_compaction_(NULL) {

120

mem_->Ref();

121

has_imm_.Release_Store(NULL);

122

123

// Reserve ten files or so for other uses and give the rest to TableCache.

124

const int table_cache_size = options.max_open_files - 10;

125

table_cache_ = new TableCache(dbname_, &options_, table_cache_size);

126

127

versions_ = new VersionSet(dbname_, &options_, table_cache_,

128

&internal_comparator_);

129

}

130

131

DBImpl::~DBImpl() {

132

// Wait for background work to finish

133

mutex_.Lock();

134

shutting_down_.Release_Store(this); // Any non-NULL value is ok

135

while (bg_compaction_scheduled_) {

136

bg_cv_.Wait();

137

}

138

mutex_.Unlock();

139

140

if (db_lock_ != NULL) {

141

env_->UnlockFile(db_lock_);

142

}

143

144

delete versions_;

145

if (mem_ != NULL) mem_->Unref();

146

if (imm_ != NULL) imm_->Unref();

147

delete log_;

148

delete logfile_;

149

delete table_cache_;

150

151

if (owns_info_log_) {

152

delete options_.info_log;

153

}

154

if (owns_cache_) {

155

delete options_.block_cache;

156

}

157

}

158

159

Status DBImpl::NewDB() {

160

VersionEdit new_db;

161

new_db.SetComparatorName(user_comparator()->Name());

162

new_db.SetLogNumber(0);

163

new_db.SetNextFile(2);

164

new_db.SetLastSequence(0);

165

166

const std::string manifest = DescriptorFileName(dbname_, 1);

167

WritableFile* file;

168

Status s = env_->NewWritableFile(manifest, &file);

169

if (!s.ok()) {

170

return s;

171

}

172

{

173

log::Writer log(file);

174

std::string record;

175

new_db.EncodeTo(&record);

176

s = log.AddRecord(record);

177

if (s.ok()) {

178

s = file->Close();

179

}

180

}

181

delete file;

182

if (s.ok()) {

183

// Make "CURRENT" file that points to the new manifest file.

184

s = SetCurrentFile(env_, dbname_, 1);

185

} else {

186

env_->DeleteFile(manifest);

187

}

188

return s;

189

}

190

191

void DBImpl::MaybeIgnoreError(Status* s) const {

192

if (s->ok() || options_.paranoid_checks) {

193

// No change needed

194

} else {

195

Log(options_.info_log, "Ignoring error %s", s->ToString().c_str());

196

*s = Status::OK();

197

}

198

}

199

200

void DBImpl::DeleteObsoleteFiles() {

201

// Make a set of all of the live files

202

std::set<uint64_t> live = pending_outputs_;

203

versions_->AddLiveFiles(&live);

204

205

std::vector<std::string> filenames;

206

env_->GetChildren(dbname_, &filenames); // Ignoring errors on purpose

207

uint64_t number;

208

FileType type;

209

for (size_t i = 0; i < filenames.size(); i++) {

210

if (ParseFileName(filenames[i], &number, &type)) {

211

bool keep = true;

212

switch (type) {

213

case kLogFile:

214

keep = ((number >= versions_->LogNumber()) ||

215

(number == versions_->PrevLogNumber()));

216

break;

217

case kDescriptorFile:

218

// Keep my manifest file, and any newer incarnations'

219

// (in case there is a race that allows other incarnations)

220

keep = (number >= versions_->ManifestFileNumber());

221

break;

222

case kTableFile:

223

keep = (live.find(number) != live.end());

224

break;

225

case kTempFile:

226

// Any temp files that are currently being written to must

227

// be recorded in pending_outputs_, which is inserted into "live"

228

keep = (live.find(number) != live.end());

229

break;

230

case kCurrentFile:

231

case kDBLockFile:

232

case kInfoLogFile:

233

keep = true;

234

break;

235

}

236

237

if (!keep) {

238

if (type == kTableFile) {

239

table_cache_->Evict(number);

240

}

241

Log(options_.info_log, "Delete type=%d #%lld\n",

242

int(type),

243

static_cast<unsigned long long>(number));

244

env_->DeleteFile(dbname_ + "/" + filenames[i]);

245

}

246

}

247

}

248

}

249

250

Status DBImpl::Recover(VersionEdit* edit) {

251

mutex_.AssertHeld();

252

253

// Ignore error from CreateDir since the creation of the DB is

254

// committed only when the descriptor is created, and this directory

255

// may already exist from a previous failed creation attempt.

256

env_->CreateDir(dbname_);

257

assert(db_lock_ == NULL);

258

Status s = env_->LockFile(LockFileName(dbname_), &db_lock_);

259

if (!s.ok()) {

260

return s;

261

}

262

263

if (!env_->FileExists(CurrentFileName(dbname_))) {

264

if (options_.create_if_missing) {

265

s = NewDB();

266

if (!s.ok()) {

267

return s;

268

}

269

} else {

270

return Status::InvalidArgument(

271

dbname_, "does not exist (create_if_missing is false)");

272

}

273

} else {

274

if (options_.error_if_exists) {

275

return Status::InvalidArgument(

276

dbname_, "exists (error_if_exists is true)");

277

}

278

}

279

280

s = versions_->Recover();

281

if (s.ok()) {

282

SequenceNumber max_sequence(0);

283

284

// Recover from all newer log files than the ones named in the

285

// descriptor (new log files may have been added by the previous

286

// incarnation without registering them in the descriptor).

287

288

// Note that PrevLogNumber() is no longer used, but we pay

289

// attention to it in case we are recovering a database

290

// produced by an older version of leveldb.

291

const uint64_t min_log = versions_->LogNumber();

292

const uint64_t prev_log = versions_->PrevLogNumber();

293

std::vector<std::string> filenames;

294

s = env_->GetChildren(dbname_, &filenames);

295

if (!s.ok()) {

296

return s;

297

}

298

uint64_t number;

299

FileType type;

300

std::vector<uint64_t> logs;

301

for (size_t i = 0; i < filenames.size(); i++) {

302

if (ParseFileName(filenames[i], &number, &type)

303

&& type == kLogFile

304

&& ((number >= min_log) || (number == prev_log))) {

305

logs.push_back(number);

306

}

307

}

308

309

// Recover in the order in which the logs were generated

310

std::sort(logs.begin(), logs.end());

311

for (size_t i = 0; i < logs.size(); i++) {

312

s = RecoverLogFile(logs[i], edit, &max_sequence);

313

314

// The previous incarnation may not have written any MANIFEST

315

// records after allocating this log number. So we manually

316

// update the file number allocation counter in VersionSet.

317

versions_->MarkFileNumberUsed(logs[i]);

318

}

319

320

if (s.ok()) {

321

if (versions_->LastSequence() < max_sequence) {

322

versions_->SetLastSequence(max_sequence);

323

}

324

}

325

}

326

327

return s;

328

}

329

330

Status DBImpl::RecoverLogFile(uint64_t log_number,

331

VersionEdit* edit,

332

SequenceNumber* max_sequence) {

333

struct LogReporter : public log::Reader::Reporter {

334

Env* env;

335

Logger* info_log;

336

const char* fname;

337

Status* status; // NULL if options_.paranoid_checks==false

338

virtual void Corruption(size_t bytes, const Status& s) {

339

Log(info_log, "%s%s: dropping %d bytes; %s",

340

(this->status == NULL ? "(ignoring error) " : ""),

341

fname, static_cast<int>(bytes), s.ToString().c_str());

342

if (this->status != NULL && this->status->ok()) *this->status = s;

343

}

344

};

345

346

mutex_.AssertHeld();

347

348

// Open the log file

349

std::string fname = LogFileName(dbname_, log_number);

350

SequentialFile* file;

351

Status status = env_->NewSequentialFile(fname, &file);

352

if (!status.ok()) {

353

MaybeIgnoreError(&status);

354

return status;

355

}

356

357

// Create the log reader.

358

LogReporter reporter;

359

reporter.env = env_;

360

reporter.info_log = options_.info_log;

361

reporter.fname = fname.c_str();

362

reporter.status = (options_.paranoid_checks ? &status : NULL);

363

// We intentially make log::Reader do checksumming even if

364

// paranoid_checks==false so that corruptions cause entire commits

365

// to be skipped instead of propagating bad information (like overly

366

// large sequence numbers).

367

log::Reader reader(file, &reporter, true/*checksum*/,

368

0/*initial_offset*/);

369

Log(options_.info_log, "Recovering log #%llu",

370

(unsigned long long) log_number);

371

372

// Read all the records and add to a memtable

373

std::string scratch;

374

Slice record;

375

WriteBatch batch;

376

MemTable* mem = NULL;

377

while (reader.ReadRecord(&record, &scratch) &&

378

status.ok()) {

379

if (record.size() < 12) {

380

reporter.Corruption(

381

record.size(), Status::Corruption("log record too small"));

382

continue;

383

}

384

WriteBatchInternal::SetContents(&batch, record);

385

386

if (mem == NULL) {

387

mem = new MemTable(internal_comparator_);

388

mem->Ref();

389

}

390

status = WriteBatchInternal::InsertInto(&batch, mem);

391

MaybeIgnoreError(&status);

392

if (!status.ok()) {

393

break;

394

}

395

const SequenceNumber last_seq =

396

WriteBatchInternal::Sequence(&batch) +

397

WriteBatchInternal::Count(&batch) - 1;

398

if (last_seq > *max_sequence) {

399

*max_sequence = last_seq;

400

}

401

402

if (mem->ApproximateMemoryUsage() > options_.write_buffer_size) {

403

status = WriteLevel0Table(mem, edit, NULL);

404

if (!status.ok()) {

405

// Reflect errors immediately so that conditions like full

406

// file-systems cause the DB::Open() to fail.

407

break;

408

}

409

mem->Unref();

410

mem = NULL;

411

}

412

}

413

414

if (status.ok() && mem != NULL) {

415

status = WriteLevel0Table(mem, edit, NULL);

416

// Reflect errors immediately so that conditions like full

417

// file-systems cause the DB::Open() to fail.

418

}

419

420

if (mem != NULL) mem->Unref();

421

delete file;

422

return status;

423

}

424

425

Status DBImpl::WriteLevel0Table(MemTable* mem, VersionEdit* edit,

426

Version* base) {

427

mutex_.AssertHeld();

428

const uint64_t start_micros = env_->NowMicros();

429

FileMetaData meta;

430

meta.number = versions_->NewFileNumber();

431

pending_outputs_.insert(meta.number);

432

Iterator* iter = mem->NewIterator();

433

Log(options_.info_log, "Level-0 table #%llu: started",

434

(unsigned long long) meta.number);

435

436

Status s;

437

{

438

mutex_.Unlock();

439

s = BuildTable(dbname_, env_, options_, table_cache_, iter, &meta);

440

mutex_.Lock();

441

}

442

443

Log(options_.info_log, "Level-0 table #%llu: %lld bytes %s",

444

(unsigned long long) meta.number,

445

(unsigned long long) meta.file_size,

446

s.ToString().c_str());

447

delete iter;

448

pending_outputs_.erase(meta.number);

449

450

451

// Note that if file_size is zero, the file has been deleted and

452

// should not be added to the manifest.

453

int level = 0;

454

if (s.ok() && meta.file_size > 0) {

455

const Slice min_user_key = meta.smallest.user_key();

456

const Slice max_user_key = meta.largest.user_key();

457

if (base != NULL) {

458

level = base->PickLevelForMemTableOutput(min_user_key, max_user_key);

459

}

460

edit->AddFile(level, meta.number, meta.file_size,

461

meta.smallest, meta.largest);

462

}

463

464

CompactionStats stats;

465

stats.micros = env_->NowMicros() - start_micros;

466

stats.bytes_written = meta.file_size;

467

stats_[level].Add(stats);

468

return s;

469

}

470

471

Status DBImpl::CompactMemTable() {

472

mutex_.AssertHeld();

473

assert(imm_ != NULL);

474

475

// Save the contents of the memtable as a new Table

476

VersionEdit edit;

477

Version* base = versions_->current();

478

base->Ref();

479

Status s = WriteLevel0Table(imm_, &edit, base);

480

base->Unref();

481

482

if (s.ok() && shutting_down_.Acquire_Load()) {

483

s = Status::IOError("Deleting DB during memtable compaction");

484

}

485

486

// Replace immutable memtable with the generated Table

487

if (s.ok()) {

488

edit.SetPrevLogNumber(0);

489

edit.SetLogNumber(logfile_number_); // Earlier logs no longer needed

490

s = versions_->LogAndApply(&edit, &mutex_);

491

}

492

493

if (s.ok()) {

494

// Commit to the new state

495

imm_->Unref();

496

imm_ = NULL;

497

has_imm_.Release_Store(NULL);

498

DeleteObsoleteFiles();

499

}

500

501

return s;

502

}

503

504

void DBImpl::CompactRange(const Slice* begin, const Slice* end) {

505

int max_level_with_files = 1;

506

{

507

MutexLock l(&mutex_);

508

Version* base = versions_->current();

509

for (int level = 1; level < config::kNumLevels; level++) {

510

if (base->OverlapInLevel(level, begin, end)) {

511

max_level_with_files = level;

512

}

513

}

514

}

515

TEST_CompactMemTable(); // TODO(sanjay): Skip if memtable does not overlap

516

for (int level = 0; level < max_level_with_files; level++) {

517

TEST_CompactRange(level, begin, end);

518

}

519

}

520

521

void DBImpl::TEST_CompactRange(int level, const Slice* begin,const Slice* end) {

522

assert(level >= 0);

523

assert(level + 1 < config::kNumLevels);

524

525

InternalKey begin_storage, end_storage;

526

527

ManualCompaction manual;

528

manual.level = level;

529

manual.done = false;

530

if (begin == NULL) {

531

manual.begin = NULL;

532

} else {

533

begin_storage = InternalKey(*begin, kMaxSequenceNumber, kValueTypeForSeek);

534

manual.begin = &begin_storage;

535

}

536

if (end == NULL) {

537

manual.end = NULL;

538

} else {

539

end_storage = InternalKey(*end, 0, static_cast<ValueType>(0));

540

manual.end = &end_storage;

541

}

542

543

MutexLock l(&mutex_);

544

while (!manual.done) {

545

while (manual_compaction_ != NULL) {

546

bg_cv_.Wait();

547

}

548

manual_compaction_ = &manual;

549

MaybeScheduleCompaction();

550

while (manual_compaction_ == &manual) {

551

bg_cv_.Wait();

552

}

553

}

554

}

555

556

Status DBImpl::TEST_CompactMemTable() {

557

MutexLock l(&mutex_);

558

LoggerId self;

559

AcquireLoggingResponsibility(&self);

560

Status s = MakeRoomForWrite(true /* force compaction */);

561

ReleaseLoggingResponsibility(&self);

562

if (s.ok()) {

563

// Wait until the compaction completes

564

while (imm_ != NULL && bg_error_.ok()) {

565

bg_cv_.Wait();

566

}

567

if (imm_ != NULL) {

568

s = bg_error_;

569

}

570

}

571

return s;

572

}

573

574

void DBImpl::MaybeScheduleCompaction() {

575

mutex_.AssertHeld();

576

if (bg_compaction_scheduled_) {

577

// Already scheduled

578

} else if (shutting_down_.Acquire_Load()) {

579

// DB is being deleted; no more background compactions

580

} else if (imm_ == NULL &&

581

manual_compaction_ == NULL &&

582

!versions_->NeedsCompaction()) {

583

// No work to be done

584

} else {

585

bg_compaction_scheduled_ = true;

586

env_->Schedule(&DBImpl::BGWork, this);

587

}

588

}

589

590

void DBImpl::BGWork(void* db) {

591

reinterpret_cast<DBImpl*>(db)->BackgroundCall();

592

}

593

594

void DBImpl::BackgroundCall() {

595

MutexLock l(&mutex_);

596

assert(bg_compaction_scheduled_);

597

if (!shutting_down_.Acquire_Load()) {

598

BackgroundCompaction();

599

}

600

bg_compaction_scheduled_ = false;

601

602

// Previous compaction may have produced too many files in a level,

603

// so reschedule another compaction if needed.

604

MaybeScheduleCompaction();

605

bg_cv_.SignalAll();

606

}

607

608

void DBImpl::BackgroundCompaction() {

609

mutex_.AssertHeld();

610

611

if (imm_ != NULL) {

612

CompactMemTable();

613

return;

614

}

615

616

Compaction* c;

617

bool is_manual = (manual_compaction_ != NULL);

618

InternalKey manual_end;

619

if (is_manual) {

620

ManualCompaction* m = manual_compaction_;

621

c = versions_->CompactRange(m->level, m->begin, m->end);

622

m->done = (c == NULL);

623

if (c != NULL) {

624

manual_end = c->input(0, c->num_input_files(0) - 1)->largest;

625

}

626

Log(options_.info_log,

627

"Manual compaction at level-%d from %s .. %s; will stop at %s\n",

628

m->level,

629

(m->begin ? m->begin->DebugString().c_str() : "(begin)"),

630

(m->end ? m->end->DebugString().c_str() : "(end)"),

631

(m->done ? "(end)" : manual_end.DebugString().c_str()));

632

} else {

633

c = versions_->PickCompaction();

634

}

635

636

Status status;

637

if (c == NULL) {

638

// Nothing to do

639

} else if (!is_manual && c->IsTrivialMove()) {

640

// Move file to next level

641

assert(c->num_input_files(0) == 1);

642

FileMetaData* f = c->input(0, 0);

643

c->edit()->DeleteFile(c->level(), f->number);

644

c->edit()->AddFile(c->level() + 1, f->number, f->file_size,

645

f->smallest, f->largest);

646

status = versions_->LogAndApply(c->edit(), &mutex_);

647

VersionSet::LevelSummaryStorage tmp;

648

Log(options_.info_log, "Moved #%lld to level-%d %lld bytes %s: %s\n",

649

static_cast<unsigned long long>(f->number),

650

c->level() + 1,

651

static_cast<unsigned long long>(f->file_size),

652

status.ToString().c_str(),

653

versions_->LevelSummary(&tmp));

654

} else {

655

CompactionState* compact = new CompactionState(c);

656

status = DoCompactionWork(compact);

657

CleanupCompaction(compact);

658

c->ReleaseInputs();

659

DeleteObsoleteFiles();

660

}

661

delete c;

662

663

if (status.ok()) {

664

// Done

665

} else if (shutting_down_.Acquire_Load()) {

666

// Ignore compaction errors found during shutting down

667

} else {

668

Log(options_.info_log,

669

"Compaction error: %s", status.ToString().c_str());

670

if (options_.paranoid_checks && bg_error_.ok()) {

671

bg_error_ = status;

672

}

673

}

674

675

if (is_manual) {

676

ManualCompaction* m = manual_compaction_;

677

if (!status.ok()) {

678

m->done = true;

679

}

680

if (!m->done) {

681

// We only compacted part of the requested range. Update *m

682

// to the range that is left to be compacted.

683

m->tmp_storage = manual_end;

684

m->begin = &m->tmp_storage;

685

}

686

manual_compaction_ = NULL;

687

}

688

}

689

690

void DBImpl::CleanupCompaction(CompactionState* compact) {

691

mutex_.AssertHeld();

692

if (compact->builder != NULL) {

693

// May happen if we get a shutdown call in the middle of compaction

694

compact->builder->Abandon();

695

delete compact->builder;

696

} else {

697

assert(compact->outfile == NULL);

698

}

699

delete compact->outfile;

700

for (size_t i = 0; i < compact->outputs.size(); i++) {

701

const CompactionState::Output& out = compact->outputs[i];

702

pending_outputs_.erase(out.number);

703

}

704

delete compact;

705

}

706

707

Status DBImpl::OpenCompactionOutputFile(CompactionState* compact) {

708

assert(compact != NULL);

709

assert(compact->builder == NULL);

710

uint64_t file_number;

711

{

712

mutex_.Lock();

713

file_number = versions_->NewFileNumber();

714

pending_outputs_.insert(file_number);

715

CompactionState::Output out;

716

out.number = file_number;

717

out.smallest.Clear();

718

out.largest.Clear();

719

compact->outputs.push_back(out);

720

mutex_.Unlock();

721

}

722

723

// Make the output file

724

std::string fname = TableFileName(dbname_, file_number);

725

Status s = env_->NewWritableFile(fname, &compact->outfile);

726

if (s.ok()) {

727

compact->builder = new TableBuilder(options_, compact->outfile);

728

}

729

return s;

730

}

731

732

Status DBImpl::FinishCompactionOutputFile(CompactionState* compact,

733

Iterator* input) {

734

assert(compact != NULL);

735

assert(compact->outfile != NULL);

736

assert(compact->builder != NULL);

737

738

const uint64_t output_number = compact->current_output()->number;

739

assert(output_number != 0);

740

741

// Check for iterator errors

742

Status s = input->status();

743

const uint64_t current_entries = compact->builder->NumEntries();

744

if (s.ok()) {

745

s = compact->builder->Finish();

746

} else {

747

compact->builder->Abandon();

748

}

749

const uint64_t current_bytes = compact->builder->FileSize();

750

compact->current_output()->file_size = current_bytes;

751

compact->total_bytes += current_bytes;

752

delete compact->builder;

753

compact->builder = NULL;

754

755

// Finish and check for file errors

756

if (s.ok()) {

757

s = compact->outfile->Sync();

758

}

759

if (s.ok()) {

760

s = compact->outfile->Close();

761

}

762

delete compact->outfile;

763

compact->outfile = NULL;

764

765

if (s.ok() && current_entries > 0) {

766

// Verify that the table is usable

767

Iterator* iter = table_cache_->NewIterator(ReadOptions(),

768

output_number,

769

current_bytes);

770

s = iter->status();

771

delete iter;

772

if (s.ok()) {

773

Log(options_.info_log,

774

"Generated table #%llu: %lld keys, %lld bytes",

775

(unsigned long long) output_number,

776

(unsigned long long) current_entries,

777

(unsigned long long) current_bytes);

778

}

779

}

780

return s;

781

}

782

783

784

Status DBImpl::InstallCompactionResults(CompactionState* compact) {

785

mutex_.AssertHeld();

786

Log(options_.info_log, "Compacted %d@%d + %d@%d files => %lld bytes",

787

compact->compaction->num_input_files(0),

788

compact->compaction->level(),

789

compact->compaction->num_input_files(1),

790

compact->compaction->level() + 1,

791

static_cast<long long>(compact->total_bytes));

792

793

// Add compaction outputs

794

compact->compaction->AddInputDeletions(compact->compaction->edit());

795

const int level = compact->compaction->level();

796

for (size_t i = 0; i < compact->outputs.size(); i++) {

797

const CompactionState::Output& out = compact->outputs[i];

798

compact->compaction->edit()->AddFile(

799

level + 1,

800

out.number, out.file_size, out.smallest, out.largest);

801

}

802

return versions_->LogAndApply(compact->compaction->edit(), &mutex_);

803

}

804

805

Status DBImpl::DoCompactionWork(CompactionState* compact) {

806

const uint64_t start_micros = env_->NowMicros();

807

int64_t imm_micros = 0; // Micros spent doing imm_ compactions

808

809

Log(options_.info_log, "Compacting %d@%d + %d@%d files",

810

compact->compaction->num_input_files(0),

811

compact->compaction->level(),

812

compact->compaction->num_input_files(1),

813

compact->compaction->level() + 1);

814

815

assert(versions_->NumLevelFiles(compact->compaction->level()) > 0);

816

assert(compact->builder == NULL);

817

assert(compact->outfile == NULL);

818

if (snapshots_.empty()) {

819

compact->smallest_snapshot = versions_->LastSequence();

820

} else {

821

compact->smallest_snapshot = snapshots_.oldest()->number_;

822

}

823

824

// Release mutex while we're actually doing the compaction work

825

mutex_.Unlock();

826

827

Iterator* input = versions_->MakeInputIterator(compact->compaction);

828

input->SeekToFirst();

829

Status status;

830

ParsedInternalKey ikey;

831

std::string current_user_key;

832

bool has_current_user_key = false;

833

SequenceNumber last_sequence_for_key = kMaxSequenceNumber;

834

for (; input->Valid() && !shutting_down_.Acquire_Load(); ) {

835

// Prioritize immutable compaction work

836

if (has_imm_.NoBarrier_Load() != NULL) {

837

const uint64_t imm_start = env_->NowMicros();

838

mutex_.Lock();

839

if (imm_ != NULL) {

840

CompactMemTable();

841

bg_cv_.SignalAll(); // Wakeup MakeRoomForWrite() if necessary

842

}

843

mutex_.Unlock();

844

imm_micros += (env_->NowMicros() - imm_start);

845

}

846

847

Slice key = input->key();

848

if (compact->compaction->ShouldStopBefore(key) &&

849

compact->builder != NULL) {

850

status = FinishCompactionOutputFile(compact, input);

851

if (!status.ok()) {

852

break;

853

}

854

}

855

856

// Handle key/value, add to state, etc.

857

bool drop = false;

858

if (!ParseInternalKey(key, &ikey)) {

859

// Do not hide error keys

860

current_user_key.clear();

861

has_current_user_key = false;

862

last_sequence_for_key = kMaxSequenceNumber;

863

} else {

864

if (!has_current_user_key ||

865

user_comparator()->Compare(ikey.user_key,

866

Slice(current_user_key)) != 0) {

867

// First occurrence of this user key

868

current_user_key.assign(ikey.user_key.data(), ikey.user_key.size());

869

has_current_user_key = true;

870

last_sequence_for_key = kMaxSequenceNumber;

871

}

872

873

if (last_sequence_for_key <= compact->smallest_snapshot) {

874

// Hidden by an newer entry for same user key

875

drop = true; // (A)

876

} else if (ikey.type == kTypeDeletion &&

877

ikey.sequence <= compact->smallest_snapshot &&

878

compact->compaction->IsBaseLevelForKey(ikey.user_key)) {

879

// For this user key:

880

// (1) there is no data in higher levels

881

// (2) data in lower levels will have larger sequence numbers

882

// (3) data in layers that are being compacted here and have

883

// smaller sequence numbers will be dropped in the next

884

// few iterations of this loop (by rule (A) above).

885

// Therefore this deletion marker is obsolete and can be dropped.

886

drop = true;

887

}

888

889

last_sequence_for_key = ikey.sequence;

890

}

891

#if 0

892

Log(options_.info_log,

893

" Compact: %s, seq %d, type: %d %d, drop: %d, is_base: %d, "

894

"%d smallest_snapshot: %d",

895

ikey.user_key.ToString().c_str(),

896

(int)ikey.sequence, ikey.type, kTypeValue, drop,

897

compact->compaction->IsBaseLevelForKey(ikey.user_key),

898

(int)last_sequence_for_key, (int)compact->smallest_snapshot);

899

#endif

900

901

if (!drop) {

902

// Open output file if necessary

903

if (compact->builder == NULL) {

904

status = OpenCompactionOutputFile(compact);

905

if (!status.ok()) {

906

break;

907

}

908

}

909

if (compact->builder->NumEntries() == 0) {

910

compact->current_output()->smallest.DecodeFrom(key);

911

}

912

compact->current_output()->largest.DecodeFrom(key);

913

compact->builder->Add(key, input->value());

914

915

// Close output file if it is big enough

916

if (compact->builder->FileSize() >=

917

compact->compaction->MaxOutputFileSize()) {

918

status = FinishCompactionOutputFile(compact, input);

919

if (!status.ok()) {

920

break;

921

}

922

}

923

}

924

925

input->Next();

926

}

927

928

if (status.ok() && shutting_down_.Acquire_Load()) {

929

status = Status::IOError("Deleting DB during compaction");

930

}

931

if (status.ok() && compact->builder != NULL) {

932

status = FinishCompactionOutputFile(compact, input);

933

}

934

if (status.ok()) {

935

status = input->status();

936

}

937

delete input;

938

input = NULL;

939

940

CompactionStats stats;

941

stats.micros = env_->NowMicros() - start_micros - imm_micros;

942

for (int which = 0; which < 2; which++) {

943

for (int i = 0; i < compact->compaction->num_input_files(which); i++) {

944

stats.bytes_read += compact->compaction->input(which, i)->file_size;

945

}

946

}

947

for (size_t i = 0; i < compact->outputs.size(); i++) {

948

stats.bytes_written += compact->outputs[i].file_size;

949

}

950

951

mutex_.Lock();

952

stats_[compact->compaction->level() + 1].Add(stats);

953

954

if (status.ok()) {

955

status = InstallCompactionResults(compact);

956

}

957

VersionSet::LevelSummaryStorage tmp;

958

Log(options_.info_log,

959

"compacted to: %s", versions_->LevelSummary(&tmp));

960

return status;

961

}

962

963

namespace {

964

struct IterState {

965

port::Mutex* mu;

966

Version* version;

967

MemTable* mem;

968

MemTable* imm;

969

};

970

971

static void CleanupIteratorState(void* arg1, void* arg2) {

972

IterState* state = reinterpret_cast<IterState*>(arg1);

973

state->mu->Lock();

974

state->mem->Unref();

975

if (state->imm != NULL) state->imm->Unref();

976

state->version->Unref();

977

state->mu->Unlock();

978

delete state;

979

}

980

} // namespace

981

982

Iterator* DBImpl::NewInternalIterator(const ReadOptions& options,

983

SequenceNumber* latest_snapshot) {

984

IterState* cleanup = new IterState;

985

mutex_.Lock();

986

*latest_snapshot = versions_->LastSequence();

987

988

// Collect together all needed child iterators

989

std::vector<Iterator*> list;

990

list.push_back(mem_->NewIterator());

991

mem_->Ref();

992

if (imm_ != NULL) {

993

list.push_back(imm_->NewIterator());

994

imm_->Ref();

995

}

996

versions_->current()->AddIterators(options, &list);

997

Iterator* internal_iter =

998

NewMergingIterator(&internal_comparator_, &list[0], list.size());

999

versions_->current()->Ref();

1000

1001

cleanup->mu = &mutex_;

1002

cleanup->mem = mem_;

1003

cleanup->imm = imm_;

1004

cleanup->version = versions_->current();

1005

internal_iter->RegisterCleanup(CleanupIteratorState, cleanup, NULL);

1006

1007

mutex_.Unlock();

1008

return internal_iter;

1009

}

1010

1011

Iterator* DBImpl::TEST_NewInternalIterator() {

1012

SequenceNumber ignored;

1013

return NewInternalIterator(ReadOptions(), &ignored);

1014

}

1015

1016

int64_t DBImpl::TEST_MaxNextLevelOverlappingBytes() {

1017

MutexLock l(&mutex_);

1018

return versions_->MaxNextLevelOverlappingBytes();

1019

}

1020

1021

Status DBImpl::Get(const ReadOptions& options,

1022

const Slice& key,

1023

std::string* value) {

1024

Status s;

1025

MutexLock l(&mutex_);

1026

SequenceNumber snapshot;

1027

if (options.snapshot != NULL) {

1028

snapshot = reinterpret_cast<const SnapshotImpl*>(options.snapshot)->number_;

1029

} else {

1030

snapshot = versions_->LastSequence();

1031

}

1032

1033

MemTable* mem = mem_;

1034

MemTable* imm = imm_;

1035

Version* current = versions_->current();

1036

mem->Ref();

1037

if (imm != NULL) imm->Ref();

1038

current->Ref();

1039

1040

bool have_stat_update = false;

1041

Version::GetStats stats;

1042

1043

// Unlock while reading from files and memtables

1044

{

1045

mutex_.Unlock();

1046

// First look in the memtable, then in the immutable memtable (if any).

1047

LookupKey lkey(key, snapshot);

1048

if (mem->Get(lkey, value, &s)) {

1049

// Done

1050

} else if (imm != NULL && imm->Get(lkey, value, &s)) {

1051

// Done

1052

} else {

1053

s = current->Get(options, lkey, value, &stats);

1054

have_stat_update = true;

1055

}

1056

mutex_.Lock();

1057

}

1058

1059

if (have_stat_update && current->UpdateStats(stats)) {

1060

MaybeScheduleCompaction();

1061

}

1062

mem->Unref();

1063

if (imm != NULL) imm->Unref();

1064

current->Unref();

1065

return s;

1066

}

1067

1068

Iterator* DBImpl::NewIterator(const ReadOptions& options) {

1069

SequenceNumber latest_snapshot;

1070

Iterator* internal_iter = NewInternalIterator(options, &latest_snapshot);

1071

return NewDBIterator(

1072

&dbname_, env_, user_comparator(), internal_iter,

1073

(options.snapshot != NULL

1074

? reinterpret_cast<const SnapshotImpl*>(options.snapshot)->number_

1075

: latest_snapshot));

1076

}

1077

1078

const Snapshot* DBImpl::GetSnapshot() {

1079

MutexLock l(&mutex_);

1080

return snapshots_.New(versions_->LastSequence());

1081

}

1082

1083

void DBImpl::ReleaseSnapshot(const Snapshot* s) {

1084

MutexLock l(&mutex_);

1085

snapshots_.Delete(reinterpret_cast<const SnapshotImpl*>(s));

1086

}

1087

1088

// Convenience methods

1089

Status DBImpl::Put(const WriteOptions& o, const Slice& key, const Slice& val) {

1090

return DB::Put(o, key, val);

1091

}

1092

1093

Status DBImpl::Delete(const WriteOptions& options, const Slice& key) {

1094

return DB::Delete(options, key);

1095

}

1096

1097

// There is at most one thread that is the current logger. This call

1098

// waits until preceding logger(s) have finished and becomes the

1099

// current logger.

1100

void DBImpl::AcquireLoggingResponsibility(LoggerId* self) {

1101

while (logger_ != NULL) {

1102

logger_cv_.Wait();

1103

}

1104

logger_ = self;

1105

}

1106

1107

void DBImpl::ReleaseLoggingResponsibility(LoggerId* self) {

1108

assert(logger_ == self);

1109

logger_ = NULL;

1110

logger_cv_.SignalAll();

1111

}

1112

1113

Status DBImpl::Write(const WriteOptions& options, WriteBatch* updates) {

1114

Status status;

1115

MutexLock l(&mutex_);

1116

LoggerId self;

1117

AcquireLoggingResponsibility(&self);

1118

status = MakeRoomForWrite(false); // May temporarily release lock and wait

1119

uint64_t last_sequence = versions_->LastSequence();

1120

if (status.ok()) {

1121

WriteBatchInternal::SetSequence(updates, last_sequence + 1);

1122

last_sequence += WriteBatchInternal::Count(updates);

1123

1124

// Add to log and apply to memtable. We can release the lock during

1125

// this phase since the "logger_" flag protects against concurrent

1126

// loggers and concurrent writes into mem_.

1127

{

1128

assert(logger_ == &self);

1129

mutex_.Unlock();

1130

status = log_->AddRecord(WriteBatchInternal::Contents(updates));

1131

if (status.ok() && options.sync) {

1132

status = logfile_->Sync();

1133

}

1134

if (status.ok()) {

1135

status = WriteBatchInternal::InsertInto(updates, mem_);

1136

}

1137

mutex_.Lock();

1138

assert(logger_ == &self);

1139

}

1140

1141

versions_->SetLastSequence(last_sequence);

1142

}

1143

ReleaseLoggingResponsibility(&self);

1144

return status;

1145

}

1146

1147

// REQUIRES: mutex_ is held

1148

// REQUIRES: this thread is the current logger

1149

Status DBImpl::MakeRoomForWrite(bool force) {

1150

mutex_.AssertHeld();

1151

assert(logger_ != NULL);

1152

bool allow_delay = !force;

1153

Status s;

1154

while (true) {

1155

if (!bg_error_.ok()) {

1156

// Yield previous error

1157

s = bg_error_;

1158

break;

1159

} else if (

1160

allow_delay &&

1161

versions_->NumLevelFiles(0) >= config::kL0_SlowdownWritesTrigger) {

1162

// We are getting close to hitting a hard limit on the number of

1163

// L0 files. Rather than delaying a single write by several

1164

// seconds when we hit the hard limit, start delaying each

1165

// individual write by 1ms to reduce latency variance. Also,

1166

// this delay hands over some CPU to the compaction thread in

1167

// case it is sharing the same core as the writer.

1168

mutex_.Unlock();

1169

env_->SleepForMicroseconds(1000);

1170

allow_delay = false; // Do not delay a single write more than once

1171

mutex_.Lock();

1172

} else if (!force &&

1173

(mem_->ApproximateMemoryUsage() <= options_.write_buffer_size)) {

1174

// There is room in current memtable

1175

break;

1176

} else if (imm_ != NULL) {

1177

// We have filled up the current memtable, but the previous

1178

// one is still being compacted, so we wait.

1179

bg_cv_.Wait();

1180

} else if (versions_->NumLevelFiles(0) >= config::kL0_StopWritesTrigger) {

1181

// There are too many level-0 files.

1182

Log(options_.info_log, "waiting...\n");

1183

bg_cv_.Wait();

1184

} else {

1185

// Attempt to switch to a new memtable and trigger compaction of old

1186

assert(versions_->PrevLogNumber() == 0);

1187

uint64_t new_log_number = versions_->NewFileNumber();

1188

WritableFile* lfile = NULL;

1189

s = env_->NewWritableFile(LogFileName(dbname_, new_log_number), &lfile);

1190

if (!s.ok()) {

1191

break;

1192

}

1193

delete log_;

1194

delete logfile_;

1195

logfile_ = lfile;

1196

logfile_number_ = new_log_number;

1197

log_ = new log::Writer(lfile);

1198

imm_ = mem_;

1199

has_imm_.Release_Store(imm_);

1200

mem_ = new MemTable(internal_comparator_);

1201

mem_->Ref();

1202

force = false; // Do not force another compaction if have room

1203

MaybeScheduleCompaction();

1204

}

1205

}

1206

return s;

1207

}

1208

1209

bool DBImpl::GetProperty(const Slice& property, std::string* value) {

1210

value->clear();

1211

1212

MutexLock l(&mutex_);

1213

Slice in = property;

1214

Slice prefix("leveldb.");

1215

if (!in.starts_with(prefix)) return false;

1216

in.remove_prefix(prefix.size());

1217

1218

if (in.starts_with("num-files-at-level")) {

1219

in.remove_prefix(strlen("num-files-at-level"));

1220

uint64_t level;

1221

bool ok = ConsumeDecimalNumber(&in, &level) && in.empty();

1222

if (!ok || level >= config::kNumLevels) {

1223

return false;

1224

} else {

1225

char buf[100];

1226

snprintf(buf, sizeof(buf), "%d",

1227

versions_->NumLevelFiles(static_cast<int>(level)));

1228

*value = buf;

1229

return true;

1230

}

1231

} else if (in == "stats") {

1232

char buf[200];

1233

snprintf(buf, sizeof(buf),

1234

" Compactions\n"

1235

"Level Files Size(MB) Time(sec) Read(MB) Write(MB)\n"

1236

"--------------------------------------------------\n"

1237

);

1238

value->append(buf);

1239

for (int level = 0; level < config::kNumLevels; level++) {

1240

int files = versions_->NumLevelFiles(level);

1241

if (stats_[level].micros > 0 || files > 0) {

1242

snprintf(

1243

buf, sizeof(buf),

1244

"%3d %8d %8.0f %9.0f %8.0f %9.0f\n",

1245

level,

1246

files,

1247

versions_->NumLevelBytes(level) / 1048576.0,

1248

stats_[level].micros / 1e6,

1249

stats_[level].bytes_read / 1048576.0,

1250

stats_[level].bytes_written / 1048576.0);

1251

value->append(buf);

1252

}

1253

}

1254

return true;

1255

} else if (in == "sstables") {

1256

*value = versions_->current()->DebugString();

1257

return true;

1258

}

1259

1260

return false;

1261

}

1262

1263

void DBImpl::GetApproximateSizes(

1264

const Range* range, int n,

1265

uint64_t* sizes) {

1266

// TODO(opt): better implementation

1267

Version* v;

1268

{

1269

MutexLock l(&mutex_);

1270

versions_->current()->Ref();

1271

v = versions_->current();

1272

}

1273

1274

for (int i = 0; i < n; i++) {

1275

// Convert user_key into a corresponding internal key.

1276

InternalKey k1(range[i].start, kMaxSequenceNumber, kValueTypeForSeek);

1277

InternalKey k2(range[i].limit, kMaxSequenceNumber, kValueTypeForSeek);

1278

uint64_t start = versions_->ApproximateOffsetOf(v, k1);

1279

uint64_t limit = versions_->ApproximateOffsetOf(v, k2);

1280

sizes[i] = (limit >= start ? limit - start : 0);

1281

}

1282

1283

{

1284

MutexLock l(&mutex_);

1285

v->Unref();

1286

}

1287

}

1288

1289

// Default implementations of convenience methods that subclasses of DB

1290

// can call if they wish

1291

Status DB::Put(const WriteOptions& opt, const Slice& key, const Slice& value) {

1292

WriteBatch batch;

1293

batch.Put(key, value);

1294

return Write(opt, &batch);

1295

}

1296

1297

Status DB::Delete(const WriteOptions& opt, const Slice& key) {

1298

WriteBatch batch;

1299

batch.Delete(key);

1300

return Write(opt, &batch);

1301

}

1302

1303

DB::~DB() { }

1304

1305

Status DB::Open(const Options& options, const std::string& dbname,

1306

DB** dbptr) {

1307

*dbptr = NULL;

1308

1309

DBImpl* impl = new DBImpl(options, dbname);

1310

impl->mutex_.Lock();

1311

VersionEdit edit;

1312

Status s = impl->Recover(&edit); // Handles create_if_missing, error_if_exists

1313

if (s.ok()) {

1314

uint64_t new_log_number = impl->versions_->NewFileNumber();

1315

WritableFile* lfile;

1316

s = options.env->NewWritableFile(LogFileName(dbname, new_log_number),

1317

&lfile);

1318

if (s.ok()) {

1319

edit.SetLogNumber(new_log_number);

1320

impl->logfile_ = lfile;

1321

impl->logfile_number_ = new_log_number;

1322

impl->log_ = new log::Writer(lfile);

1323

s = impl->versions_->LogAndApply(&edit, &impl->mutex_);

1324

}

1325

if (s.ok()) {

1326

impl->DeleteObsoleteFiles();

1327

impl->MaybeScheduleCompaction();

1328

}

1329

}

1330

impl->mutex_.Unlock();

1331

if (s.ok()) {

1332

*dbptr = impl;

1333

} else {

1334

delete impl;

1335

}

1336

return s;

1337

}

1338

1339

Snapshot::~Snapshot() {

1340

}

1341

1342

Status DestroyDB(const std::string& dbname, const Options& options) {

1343

Env* env = options.env;

1344

std::vector<std::string> filenames;

1345

// Ignore error in case directory does not exist

1346

env->GetChildren(dbname, &filenames);

1347

if (filenames.empty()) {

1348

return Status::OK();

1349

}

1350

1351

FileLock* lock;

1352

const std::string lockname = LockFileName(dbname);

1353

Status result = env->LockFile(lockname, &lock);

1354

if (result.ok()) {

1355

uint64_t number;

1356

FileType type;

1357

for (size_t i = 0; i < filenames.size(); i++) {

1358

if (ParseFileName(filenames[i], &number, &type) &&

1359

filenames[i] != lockname) { // Lock file will be deleted at end

1360

Status del = env->DeleteFile(dbname + "/" + filenames[i]);

1361

if (result.ok() && !del.ok()) {

1362

result = del;

1363

}

1364

}

1365

}

1366

env->UnlockFile(lock); // Ignore error since state is already gone

1367

env->DeleteFile(lockname);

1368

env->DeleteDir(dbname); // Ignore error in case dir contains other files

1369

}

1370

return result;

1371

}

1372

1373

} // namespace leveldb

Older »