如下面的代码中一个函数接受一个std::string常量引用,在其函数内部需要使用std::string的一些函数操作字串。
void foo(const std::string& param) { ...... }
参数使用的是常量引用,如果传入一个std::string就不需要额外的拷贝。但是如果调用时传入的是一个字串常量,这时必然会生成一个std::string对象,并且会有一次内存拷贝。
关于字串发生拷贝可以使用下面的代码测试:
#include <string> namespace { const char* sString = "123456"; void foo(const std::string& str) { printf ("input string address: %x\n", str.c_str() ); } } // namespace int main() { printf("const string address: %x\n", sString); foo(sString); return 0; }
这是一个很典型的问题,事实上只要不修改字串内容,并不需要另外复制一份。特别是对一些比较大的字串,避免拷贝对内存和性能都有极大的好处。于是Jeffrey Yasskin提出一个String reference : a non-owning reference to a string. 很多大型的项目都提供了各自的实现,包括Boost::StringRef, LLVM的StringRef, Chromium的base::StringPiece。
(STL也有字串的Copy-on-Write的实现,但要看实现版本。这里有更多的说明:std::string的Copy-on-Write:不如想象中美好。)
以下用StringPiece为例来介绍。它的原理也很简单,StringPiece内部仅持有字串指针和一个长度值,然后参照std::string的接口提供一组操作函数。比如find, find_first_of, rfind, substr.
template <typename STRING_TYPE> class BasicStringPiece { public: ...... BasicStringPiece substr(size_type pos, size_type n = BasicStringPiece::npos) const { return internal::substr(*this, pos, n); } protected: const value_type* ptr_; size_type length_; };
typedef BasicStringPiece<std::string> StringPiece;
它析构时不会释放字串,因为StringPiece不持有字串的所有权,也就是字串对象本身的生命周期一定要长于StringPiece对象。
可以看到StringPiece是一个模板类,主要是因为它需要同时支持以std::string和C string传递的参数。
以上面提供的取子串的操作为例,一个基本思路就是创建新的StringPiece, 把它的指针指到子串的起始位置,再将长度设定为子串的长度就可以了。在这个过程并没有出现字串的拷贝。
template<typename STR> BasicStringPiece<STR> substrT(const BasicStringPiece<STR>& self, size_t pos, size_t n) { if (pos > self.size()) pos = self.size(); if (n > self.size() - pos) n = self.size() - pos; return BasicStringPiece<STR>(self.data() + pos, n); }
Enjoy it!