Delphi 代码优化——字符串篇
关键词:delphi, anisstring, pchar
freewizard
delphi有三种字符串类型:短字符串(string[n],n=1..255)存储区为静态分配,大小在编译时确定,这是继承于bp for dos的类型;字符数组(pchar)主要是为了兼容各类api,在bp7中已经出现,如今在delphi中更加应用广泛,其存储区可以用字符数组静态分配,也可用getmem手动分配;而长字符串(ansistring)是delphi独有的,其存储区在运行时动态分配,最灵活也最易被滥用。
不重复初始化
delphi默认字符串类型ansistring会自动初始化为空。如下代码:
var s:string;
begin
s:='';
……
end;
s:='';就属多此一举。但是值得注意的是这对函数返回值result无效。而一般说来,用var实参传递比返回字符串值要更快一些。
使用setlength预分配长字符串(ansistring)
动态分配内存是ansistring的一大长项,但容易弄巧成拙,一个典型的例子如下:
s2:=' ';
for i:=2 to length(s1) do s2:=s2+s1[i];
且不说可用delete取代之,主要问题在于上例的循环中s2的内存区域被不停地重复分配,相当费时。一个简单有效的办法如下:
setlength(s2,length(s1)-1);
for i:=2 to length(s1) do s2[i-1]:=s1[i];
这样s2内存只会重新分配一次。
字符串与动态数组的线程安全(thread safety)
在delphi 5以前动态数组与长字符串的操作这些非线程安全调用是由引用计数来处理其临界问题的,而自delphi5起就改为直接在一些临界指令前加lock指令前缀来避免这个问题。不幸的是这一修改的代价相当昂贵,因为在pentiumⅱ处理器中lock指令相当费时,大概要耗费额外的28个指令周期来完成这一操作,因而整体效率至少下降一半。
解决这个问题的办法只有一个,那就是修改delphi rtl核心代码。在备份原文件后,将source\rtl\sys\system.pas中所有的lock替换为{lock},当然必须是整字替换。
如此还未完全优化,下一步是将delphi4运行库中也有的xchg指令去掉,因为该指令有隐含的lock前缀,所以必须将system.pas内_lstrasg和_strlasg两个过程中的 xchg edx,[eax] 替换为如下代码:
mov ecx,[eax]
mov [eax],edx
mov edx,ecx
ok大功告成,编译一下,覆盖system.dcu即可。如此其执行效率将比delphi5提高6倍,比delphi4提高2倍。
避免使用短字符串
由于很多字符串操作会先把短字符串转换为长字符串,从而减慢了执行速度,因此还是少使用短字符串为妙。
避免使用copy函数
这也和滥用内存管理有关。一个典型的情形如下:
if copy(s1,23,64)=copy(s2,15,64) then ……
这样导致分配了两块临时内存,因而降低了效率。应当替换为如下代码:
i:=0;
f:=false;
repeat
f:=s1[i+23]<>s2[i+15];
inc(i);
until f or (i>63);
if not f then ……
同样的,如下语句就显得相当低效:
s:=copy(s,1,length(s)-10);
应改为
delete(s,length(s)-10,10);
顺便提一句,在连接字符串时,s:=s1+s2;简单而有效;但在delphi2下则s:=format([%s%s],s1,s2);可能稍快些。
总是使用长字符串,必要时转换为pchar
先看看ansistring的定义:
type
astring = packed record
allocsiz: longint; //动态分配大小
refcnt: longint; //引用计数
length: longint; //实际长度
chrarr:array[1..allocsiz-6]of char; //字节序列
end;
其中astring[1]将返回astring.chrarr[1]的内容。
很多人认为ansistring是天生低效的。其实这在很大程度上是由代码编写不良、内存管理乱用和缺乏支持的函数所致。如上所述,一旦被动态分配了一块内存,长字符串就成了一个线性的字节序列,并无所谓的效率问题。当然,若有更多有效的函数支持那就更好了。
说到ansistring到pchar的转换,本质上有三个办法:
(1) p:=@s[1];这会引发uniquestring调用。
(2) p:=pchar (s);这会先检查s是否为空,若是,则返回nil,否则即返回s[1]的地址。
(3) p:=pointer(s);这不会引发任何隐含调用,因而是在确定s非空情况下的最佳选择。