New response evaluation criteria in solid tumours: Revised RECIST guideline (version 1。1)
新版实体瘤疗效评价标准:修订的RECIST指南(1。1版本)
Abstract
摘要
Background
背景介绍
Assessment of the change in tumour burden is an important feature of the clinical evaluation of cancer therapeutics: both tumour shrinkage (objective response) and disease progression are useful endpoints in clinical trials. Since RECIST was published in 2000, many investigators, cooperative groups, industry and government authorities have adopted these criteria in the assessment of treatment outcomes. However, a number of questions and issues have arisen which have led to the development of a revised RECIST guideline (version 1。1). Evidence for changes, summarised in separate papers in this special issue, has come from assessment of a large data warehouse (〉6500 patients), simulation studies and literature reviews。
临床上评价肿瘤治疗效果最重要的一点就是对肿瘤负荷变化的评估:瘤体皱缩(目标
疗效)和病情恶化在临床试验中都是有意义的判断终点。自从2000年RECIST出版以来,许多研究人员、企业团体、行业和政府当局都采纳了这一标准来评价治疗效果。但是,随之涌现出的一些问题导致了本修订版的出版(1.1版).修正之处(请见各章的专题)源自于对大型数据库(超过6500例患者)、模拟研究以及文献综述的评估。
Highlights of revised RECIST 1.1
1.1版RECIST的重要修订之处
Major changes include: Number of lesions to be assessed: based on evidence from numerous trial databases merged into a data warehouse for analysis purposes, the number of lesions required to assess tumour burden for response determination has been reduced from a maximum of 10 to a maximum of five total (and from five to two per organ, maximum)。 Assessment of pathological lymph nodes is now incorporated: nodes with a short axis of 15 mm are considered measurable and assessable as target lesions. The short axis measurement should be included in the sum of lesions in calculation of tumour response。 Nodes that shrink to 〈10 mm short axis are considered normal。 Confirmation of response is required for trials with response primary endpoint but is no longer required in randomised studies since the control arm serves as appropriate means of interpretation of data. Disease progression is clarified in several aspects: in addition to the previous definition of progression in target disease of 20% increase in sum, a 5 mm absolute increase is now required as well to guard against over calling PD when the total sum is very small。 Furthermore, there is guidance offered on what constitutes ‘unequivocal progression’ of
non—measurable/non-target disease, a source of confusion in the original RECIST guideline。 Finally, a section on detection of new lesions, including the interpretation of FDG—PET scan assessment is included。 Imaging guidance: the revised RECIST includes a new imaging appendix with updated recommendations on the optimal anatomical assessment of lesions.
主要的修订之处有:病灶数目的判定:为了方便分析,很多小型试验数据库的证据被合并成一个大型数据库。根据该数据库,为判断疗效对肿瘤负荷进行评估所需病灶的总数由原来的最多10个减至现在的5个(每个器官由最多5个减至2个)。病理性淋巴结的判定现在也合并为:短轴值15mm的淋巴结现在也被认为是可检测和评估的目标病灶。计算肿瘤疗效时,(结节性病灶的)短轴值必须包括在病灶(半径的)总和中。结节皱缩至短轴值<10mm时可以认为是正常的.疗效的确认因为控制限已用作解释数据的合适均值,试验所必需的疗效最初的终点值在现在的随机化研究中已不再必需。病情恶化根据以下几个方面分类:除了原先的定义——目标病灶(半径)的总和增加20%外,若总数很小,为预防过高估计恶化程度,(病灶短轴的)绝对值增加5mm也必须具备。另外,还提供了关于构成不可测量或非目标病灶“明确恶化\"的指南—-即初版RECIST指南中容易混淆的地方.最后还有一节专门介绍新损害的检测,包括解释FDG—PET的扫描结果。影像学指南:修订后的RECIST包含了新的影像学附录,内有更新了的病灶最佳解剖学评估的推荐。
Future work 下一步工作
A key question considered by the RECIST Working Group in developing RECIST 1.1 was whether it was appropriate to move from anatomic unidimensional assessment of tumour burden to either volumetric anatomical assessment or to functional assessment with PET or MRI. It was concluded that, at present, there is
not sufficient standardisation or evidence to abandon anatomical assessment of tumour burden. The only exception to this is in the use of FDG-PET imaging as an adjunct to determination of progression。 As is detailed in the final paper in this special issue, the use of these promising newer approaches requires appropriate clinical validation studies。
工作组在修订RECIST 1。1时考虑到的一个关键问题是:评估肿瘤负荷从一维的解剖学评估修改为三维的解剖学评估或用PET和MRI作出的功能评估是否恰当。目前的结论是缺乏足够的标准或证据放弃对肿瘤负荷的解剖学评估。对此唯一的解释是使用FDG—PET成像作为病情恶化判断的辅助手段。正如最后一章的专题中详细讨论的那样,使用这些最新的、前景诱人的技术需要有相应的临床验证研究。
Keywords: Response criteria; Solid tumours; Guidelines
关键词:疗效评估标准;实体瘤;指南
编译:
摘要
背景介绍
临床上评价肿瘤治疗效果最重要的一点就是对肿瘤负荷变化的评估:瘤体皱缩(目标疗效)和病情恶化在临床试验中都是有意义的判断终点。自从2000年RECIST出版以来,许多研究人员、企业团体、行业和政府当局都采纳了这一标准来评价治疗效果。但是,随之
涌现出的一些问题导致了本修订版的出版(1。1版)。修正之处(请见各章的专题)源自于对大型数据库(超过6500例患者)、模拟研究以及文献综述的评估。
1.1版RECIST的重要修订之处
主要的修订之处有:病灶数目的判定:为了方便分析,很多小型试验数据库的证据被合并成一个大型数据库。根据该数据库,为判断疗效对肿瘤负荷进行评估所需病灶的总数由原来的最多10个减至现在的5个(每个器官由最多5个减至2个).病理性淋巴结的判定现在也合并为:短轴值15mm的淋巴结现在也被认为是可检测和评估的目标病灶.计算肿瘤疗效时(结节性病灶的,)短轴值必须包括在病灶(半径的)总和中.结节皱缩至短轴值〈10mm时可以认为是正常的。疗效的确认因为控制限已用作解释数据的合适均值,试验所必需的疗效最初的终点值在现在的随机化研究中已不再必需.病情恶化根据以下几个方面分类:除了原先的定义—-目标病灶(半径)的总和增加20%外,若总数很小,为预防过高估计恶化程度,(病灶短轴的)绝对值增加5mm也必须具备。另外,还提供了关于构成不可测量或非目标病灶“明确恶化”的指南——即初版RECIST指南中容易混淆的地方.最后还有一节专门介绍新损害的检测,包括解释FDG—PET的扫描结果。影像学指南:修订后的RECIST包含了新的影像学附录,内有更新了的病灶最佳解剖学评估的推荐。
下一步工作
工作组在修订RECIST 1.1时考虑到的一个关键问题是:评估肿瘤负荷从一维的解剖学评估修改为三维的解剖学评估或用PET和MRI作出的功能评估是否恰当。目前的结论是缺乏足够的标准或证据放弃对肿瘤负荷的解剖学评估。对此唯一的解释是使用FDG-PET成像作为病情恶化判断的辅助手段.正如最后一章的专题中详细讨论的那样,使用这些最新的、前景诱人的技术需要有相应的临床验证研究。
关键词:疗效评估标准;实体瘤;指南
1. Background
2. 1 背景
3. 1。1. History of RECIST criteria
4. 1。1 RECIST标准的历史
5. Assessment of the change in tumour burden is an important feature of the clinical evaluation of cancer therapeutics. Both tumour shrinkage (objective response) and time to the development of disease progression are important endpoints in cancer clinical trials。 The use of tumour regression as the endpoint for phase II trials screening new agents for evidence of anti-tumour effect is supported by years of evidence suggesting that, for many solid tumours, agents which produce tumour shrinkage in a proportion of patients have a reasonable (albeit imperfect) chance of subsequently demonstrating an improvement in overall survival or other time to event measures in randomised phase III studies (reviewed in [1], [2], [3] and [4]). At the current time objective response carries with it a body of evidence greater than for any other biomarker supporting its utility as a measure of promising treatment effect in phase II screening trials. Furthermore, at both the phase II and phase III stage of drug development, clinical trials in advanced disease settings are increasingly utilising time to progression (or progression—free survival) as an endpoint upon which efficacy
conclusions are drawn, which is also based on anatomical measurement of tumour size。
6. 评价肿瘤负荷的改变是癌症治疗的临床评价的一个重要特征.肿瘤缩小(客观反应)和疾病进展的时间都是癌症临床试验中的重要端点。为了筛查新的抗肿瘤药物,肿瘤缩小作为II期试验端点被多年研究的证据所支持。这些研究提示对于多种实体肿瘤来说,促使部分病人肿瘤缩小的药物以后都有可能(尽管不完美)被证实可提高病人的总体生存期或在随机Ⅲ期试验中有进入事件评价的其他机会.目前在Ⅱ期筛查试验中评价治疗效果的指标中,客观反应比任何其他生物标记更可靠。而且,在Ⅱ和Ⅲ期药物试验中,进展期疾病中的临床试验正越来越利用疾病进展的时间(无进展生存)作为得出有治疗效果结论的端点,而这些也是建立在肿瘤大小的基础上。
7. However, both of these tumour endpoints, objective response and time to disease progression, are useful only if based on widely accepted and readily applied standard criteria based on anatomical tumour burden。 In 1981 the World Health Organisation (WHO) first published tumour response criteria, mainly for use in trials where tumour response was the primary endpoint. The WHO criteria introduced the concept of an overall assessment of tumour burden by summing the products of bidimensional lesion measurements and determined response to therapy by evaluation of change from baseline while on treatment.5 However, in the decades that followed their publication, cooperative groups and pharmaceutical companies that used the WHO criteria often ‘modified’ them to accommodate new technologies or to address areas that were unclear in the original document。 This led to confusion in interpretation of trial results6 and in fact, the application of varying response criteria was shown to lead to very
different conclusions about the efficacy of the same regimen.7 In response to these problems, an International Working Party was formed in the mid 1990s to standardise and simplify response criteria。 New criteria, known as RECIST (Response Evaluation Criteria in Solid Tumours), were published in 2000.8 Key features of the original RECIST include definitions of minimum size of measurable lesions, instructions on how many lesions to follow (up to 10; a maximum five per organ site), and the use of unidimensional, rather than bidimensional, measures for overall evaluation of tumour burden。 These criteria have subsequently been widely adopted by academic institutions, cooperative groups, and industry for trials where the primary endpoints are objective response or progression。 In addition, regulatory authorities accept RECIST as an appropriate guideline for these assessments。
8. 然而这些肿瘤端点、客观反应和疾病进展时间,只有建立在以肿瘤负荷解剖学基础上的广泛接受和容易使用的标准准则上才有价值。1981年世界卫生组织(WHO)首次出版了肿瘤反应标准,主要用于肿瘤反应是主要终点的试验中。WHO标准通过测量病变二维大小并进行合计介绍了肿瘤负荷总体评价的概念,通过评价治疗期间基线的改变而判断治疗的反应。然而,在该标准出版后的十几年中,使用该标准的协作组和制药公司通常对其进行修改以适应新的技术或在原始文献中提出了不清楚的地方,这就导致了试验结果解释的混乱。事实上,各种反应标准的应用导致同一种治疗方法的治疗效果大相径庭。对这些问题的反应是国际工作组于19世纪中期形成,并对反应标准进行了标准化和简化.新的标准,也称为RECIST(实体肿瘤的反应评价标准)于2000年出版.最初的TECIST关键特征包括病变最小大小的确定、对随访病变数目的建议(最多10个;每个器官最大5个)、一维而不是二维的使用、肿瘤负荷的总体评价。这些标准后来被学术团体、协作组和制药工业广泛采用,而该标准的最初端点就是客观反应或疾病进展.另外,当局接受RECIST作
为这些评价的合适的标准。
9. 1.2。 Why update RECIST?
10. Since RECIST was published in 2000, many investigators have confirmed in prospective analyses the validity of substituting unidimensional for bidimensional (and even three-dimensional)—based criteria (reviewed in [9])。 With rare exceptions (e。g. mesothelioma), the use of unidimensional criteria seems to perform well in solid tumour phase II studies。
11. 1。2 为什么要更新RECIST?
12. 自从2000年出版RECIST后,许多研究者在前瞻性研究中证实将以二维测量为基础的标准(甚至是三维测量)替换为一维测量的有效性。但也有例外(如间皮瘤),一维测量标准似乎在实体肿瘤Ⅱ期试验中更好。
13. However, a number of questions and issues have arisen which merit answers and further clarity。 Amongst these are whether fewer than 10 lesions can be assessed without affecting the overall assigned response for patients (or the conclusion about activity in trials); how to apply RECIST in randomised phase III trials where progression, not response, is the primary endpoint particularly if not all patients have measurable disease; whether or how to utilise newer imaging technologies such as FDG—PET and MRI; how to handle assessment of lymph nodes; whether response confirmation is truly needed; and, not least, the applicability of RECIST in trials of targeted non-cytotoxic drugs. This revision of the
RECIST guidelines includes updates that touch on all these points.
14. 然而大量问题开始出现需要回答和阐明。如在不影响病人总体预定反应(或试验结束)情况下是否要超过10人才能评估?在随机Ⅲ期试验中,特别当病人没有可测量的病变,而疾病进展,无反应作为主要的端点时,如何应用RECIST?是否或怎样利用新的影像学技术如FDG-PET和MRI?如何评价淋巴结?是否需要确认治疗反应?RECIST在靶向非细胞毒性药物试验中的最大适用范围。RECIST标准的修改包括所有这些问题的更新。
15. 1.3. Process of RECIST 1。1 development
16. The RECIST Working Group, consisting of clinicians with expertise in early drug development from academic research organisations, government and industry, together with imaging specialists and statisticians, has met regularly to set the agenda for an update to RECIST, determine the evidence needed to justify the various changes made, and to review emerging evidence。 A critical aspect of the revision process was to create a database of prospectively documented solid tumour measurement data obtained from industry and academic group trials. This database, assembled at the EORTC Data Centre under the leadership of Jan Bogaerts and Patrick Therasse (co—authors of this guideline), consists of 〉6500 patients with >18,000 target lesions and was utilised to investigate the impact of a variety of questions (e.g。 number of target lesions required, the need for response confirmation, and lymph node measurement rules) on response and progression-free survival outcomes. The results of this work, which after evaluation by the RECIST Working Group led to most of the changes in this revised guideline, are reported in detail in a separate paper in this special issue。10 Larry
Schwartz and Robert Ford (also co—authors of this guideline) also provided key databases from which inferences have been made that inform these revisions。11
17. 1.3 RECIST1。1版形成过程
18. RECIST工作组,是由来自于学术研究机构、政府和制药企业的早期药物开发的有经验的临床医生、影像学专家和统计学家组成,他们为RECIST更新定期举行会议,确定对种种变化是否需要做出调整和复习新出现的证据.修订过程中一个最重要的方面是建立一个回顾性的数据库,该数据库的资料来自于工业和学术协作组试验中获得的实体肿瘤相关数据。这个数据库在Jan Bogaerts 和 Patrick Therasse领导下,在EORTC资料中心完成的。该数据库有>6500病人,病变器官〉18000个,被用来调查各种问题(如需要病变的数量、治疗反应确认的需要性,淋巴结测量规则)对治疗反应和无疾病进展生存期的影响。这项工作的结果是由RECIST工作组做出评价后在修改的指南中发生了较大变动,并且在这个专期中做出了具体报道。Larry Schwartz and Robert Ford(该指南的共同作者)也提供了来自于推理的关键的数据库,这些数据库形成了这项修改.
19. The publication of this revised guideline is believed to be timely since it incorporates changes to simplify, optimise and standardise the assessment of tumour burden in clinical trials. A summary of key changes is found in Appendix I。 Because the fundamental approach to assessment remains grounded in the anatomical, rather than functional, assessment of disease, we have elected to name this version RECIST 1.1, rather than 2.0。
20. 这个修改指南的出版被认为是及时的,因为它将各种变化进行了简化、完美化,使临床试验的肿瘤负荷的评价标准化。关键的变动鉴于附录Ⅰ.由于基本的评价方法仍然是
解剖,而不是功能上的,因此我们将这个版本命名为RECIST1.1而不是2。0。
21. 1。4。 What about volumetric or functional assessment?
22. This raises the question, frequently posed, about whether it is ‘time’ to move from anatomic unidimensional assessment of tumour burden to either volumetric anatomical assessment or to functional assessment (e.g. dynamic contrast enhanced MRI or CT or (18)F—fluorodeoxyglucose positron emission tomographic (FDG-PET) techniques assessing tumour metabolism). As can be seen, the Working Group and particularly those involved in imaging research, did not believe that there is at present sufficient standardisation and widespread availability to recommend adoption of these alternative assessment methods。 The only exception to this is in the use of FDG—PET imaging as an adjunct to determination of progression, as described later in this guideline. As detailed paper in this special issue12, we believe that the use of these promising newer approaches (which could either add to or substitute for anatomical assessment as described in RECIST) requires appropriate and rigorous clinical validation studies。 This paper by Sargent et al。 illustrates the type of data that will be needed to be able to define ‘endpoints’ for these modalities and how to determine where and when such criteria/modalities can be used to improve the reliability with which truly active new agents are identified and truly inactive new agents are discarded in comparison to RECIST criteria in phase II screening trials。 The RECIST Working Group looks forward to such data emerging in the next few years to allow the appropriate changes to the next iteration of the RECIST criteria.
23. 1。4 体积或功能评价怎么样?
24. 这就提出了一个问题即是否可以将肿瘤负荷的解剖的一维评价转变为体积评价或功能评价(如动态对比增强MRI或CT或FDG-PET评价肿瘤代谢)。正如大家看到的,工作组特别是那些从事影像学研究者,相信目前还没有完全的标准化和这些推荐的替代评价方法还不能广泛应用。正如指南后面描述的,唯一的例外是FDG—PET作为确定疾病进展的辅助工具。根据此专期的介绍,我们相信这些有希望的新的方法(如RECIST描述中的增加或替代解剖评价)需要适当的和严格的临床评价.Sargent等的文章表明那些将需要确定这些形式的“端点”的资料类型,如何确定这些标准/形式的地点和时间以提高其可靠性,以至于在Ⅱ期筛查试验中通过与RECIST标准比较,确定那些为有活性的新的药物,而哪些不是。RECIST工作组期望明年出现这样的资料,允许在下一版的RECIST标准中做出适当的变动。
1 背景
1.1 RECIST标准的历史
评价肿瘤负荷的改变是癌症治疗的临床评价的一个重要特征。肿瘤缩小(客观反应)和疾病进展的时间都是癌症临床试验中的重要端点。为了筛查新的抗肿瘤药物,肿瘤缩小作为II期试验端点被多年研究的证据所支持。这些研究提示对于多种实体肿瘤来说,促使部分病人肿瘤缩小的药物以后都有可能(尽管不完美)被证实可提高病人的总体生存期或在随机Ⅲ期试验中有进入事件评价的其他机会。目前在Ⅱ期筛查试验中评价治疗效果的指标中,客观反应比任何其他生物标记更可靠。而且,在Ⅱ和Ⅲ期药物试验中,进展期疾病中的临床试验正越来越利用疾病进展的时间(无进展生存)作为得出有治疗效果结论的端点,而这些也是建立在肿瘤大小的基础上。
然而这些肿瘤端点、客观反应和疾病进展时间,只有建立在以肿瘤负荷解剖学基础上的广泛接受和容易使用的标准准则上才有价值。1981年世界卫生组织(WHO)首次出版了肿瘤反应标准,主要用于肿瘤反应是主要终点的试验中.WHO标准通过测量病变二维大小并进行合计介绍了肿瘤负荷总体评价的概念,通过评价治疗期间基线的改变而判断治疗的反应。然而,在该标准出版后的十几年中,使用该标准的协作组和制药公司通常对其进行修改以适应新的技术或在原始文献中提出了不清楚的地方,这就导致了试验结果解释的混乱。事实上,各种反应标准的应用导致同一种治疗方法的治疗效果大相径庭.对这些问题的反应是国际工作组于19世纪中期形成,并对反应标准进行了标准化和简化.新的标准,也称为RECIST(实体肿瘤的反应评价标准)于2000年出版.最初的TECIST关键特征包括病变最小大小的确定、对随访病变数目的建议(最多10个;每个器官最大5个)、一维而不是二维的使用、肿瘤负荷的总体评价。这些标准后来被学术团体、协作组和制药工业广泛采用,而该标准的最初端点就是客观反应或疾病进展。另外,当局接受RECIST作为这些评价的合适的标准.
1。2 为什么要更新RECIST?
自从2000年出版RECIST后,许多研究者在前瞻性研究中证实将以二维测量为基础的标准(甚至是三维测量)替换为一维测量的有效性。但也有例外(如间皮瘤),一维测量标准似乎在实体肿瘤Ⅱ期试验中更好。
然而大量问题开始出现需要回答和阐明.如在不影响病人总体预定反应(或试验结束)情况下是否要超过10人才能评估?在随机Ⅲ期试验中,特别当病人没有可测量的病变,而疾病进展,无反应作为主要的端点时,如何应用RECIST?是否或怎样利用新的影像学技术如FDG-PET和MRI?如何评价淋巴结?是否需要确认治疗反应?RECIST在靶向非细胞毒性药物试验中的最大适用范围.RECIST标准的修改包括所有这些问题的更新.
1。3 RECIST1。1版形成过程
RECIST工作组,是由来自于学术研究机构、政府和制药企业的早期药物开发的有经验的临床医生、影像学专家和统计学家组成,他们为RECIST更新定期举行会议,确定对种种变化是否需要做出调整和复习新出现的证据。修订过程中一个最重要的方面是建立一个回顾性的数据库,该数据库的资料来自于工业和学术协作组试验中获得的实体肿瘤相关数据。这个数据库在Jan Bogaerts 和 Patrick Therasse领导下,在EORTC资料中心完成的。该数据库有>6500病人,病变器官>18000个,被用来调查各种问题(如需要病变的数量、治疗反应确认的需要性,淋巴结测量规则)对治疗反应和无疾病进展生存期的影响。这项工作的结果是由RECIST工作组做出评价后在修改的指南中发生了较大变动,并且在这个专期中做出了具体报道.Larry Schwartz and Robert Ford(该指南的共同作者)也提供了来自于推理的关键的数据库,这些数据库形成了这项修改.
这个修改指南的出版被认为是及时的,因为它将各种变化进行了简化、完美化,使临床试验的肿瘤负荷的评价标准化.关键的变动鉴于附录Ⅰ。由于基本的评价方法仍然是解剖,而不是功能上的,因此我们将这个版本命名为RECIST1.1而不是2。0.
1。4 体积或功能评价怎么样?
这就提出了一个问题即是否可以将肿瘤负荷的解剖的一维评价转变为体积评价或功能评价(如动态对比增强MRI或CT或FDG-PET评价肿瘤代谢)。正如大家看到的,工作组特别是那些从事影像学研究者,相信目前还没有完全的标准化和这些推荐的替代评价方法还不能广泛应用。正如指南后面描述的,唯一的例外是FDG—PET作为确定疾病进展的辅助工具。根据此专期的介绍,我们相信这些有希望的新的方法(如RECIST描述中的增加或替代解剖评价)需要适当的和严格的临床评价。Sargent等的文章表明那些将需要确定
这些形式的“端点\"的资料类型,如何确定这些标准/形式的地点和时间以提高其可靠性,以至于在Ⅱ期筛查试验中通过与RECIST标准比较,确定那些为有活性的新的药物,而哪些不是.RECIST工作组期望明年出现这样的资料,允许在下一版的RECIST标准中做出适当的变动。
25. Purpose of this guideline
26. 2。 该指南的目的
27. This guideline describes a standard approach to solid tumour measurement and definitions for objective assessment of change in tumour size for use in adult and paediatric cancer clinical trials。 It is expected these criteria will be useful in all trials where objective response is the primary study endpoint, as well as in trials where assessment of stable disease, tumour progression or time to progression analyses are undertaken, since all of these outcome measures are based on an assessment of anatomical tumour burden and its change on study。 There are no assumptions in this paper about the proportion of patients meeting the criteria for any of these endpoints which will signal that an agent or treatment regimen is active: those definitions are dependent on type of cancer in which a trial is being undertaken and the specific agent under study. Protocols must include appropriate statistical sections which define the efficacy parameters upon which the trial sample size and decision criteria are based. In addition to providing definitions and criteria for assessment of tumour response, this guideline also makes recommendations regarding standard reporting of the results of trials that utilise tumour response as an endpoint。
28. 该指南描述了一个实体瘤测量和成人、小儿癌症的临床试验中肿瘤大小变化客观评估的规定的标准做法。预计这些标准将有效用于所有以客观响应为主要的研究终点的试验,以及承担稳定疾病评估、肿瘤进展或进展时间分析的试验,因为所有治疗效果的衡量都是基于研究中解剖学肿瘤负荷及其变化的评估。本文中对于达到相应标准-表明试剂或治疗方案有积极作用的终点-的患者的比例没有任何假设:这些定义依赖于试验中癌症的类型以及正在研究中的特殊试剂。协议必须包括适当的统计学章节,介绍如何以实验样本大小和决策标准为基础来界定疗效参数.除了为肿瘤反应评估提供定义和标准外,这一指南也为以肿瘤反应为终点的试验推荐了标准的研究结果报告。
29. While these guidelines may be applied in malignant brain tumour studies, there are also separate criteria published for response assessment in that setting。13 This guideline is not intended for use for studies of malignant lymphoma since international guidelines for response assessment in lymphoma are published separately。14
30. 尽管这些指南可用于恶性脑肿瘤的研究,在这一领域关于响应的评估已有单独的标准出版[13]。由于淋巴瘤反应评估的国际准则也已单独出版[14],这一指南不用于恶性淋巴瘤的研究。
31. Finally, many oncologists in their daily clinical practice follow their patients’ malignant disease by means of repeated imaging studies and make decisions about continued therapy on the basis of both objective and symptomatic criteria. It is not intended that these RECIST guidelines play a role in that decision making, except if determined appropriate by the treating oncologist。
32. 最后,许多肿瘤学家在他们日常的临床实践中依靠多次成像研究来跟踪病人的恶性疾病,并在客观和症状双重标准的基础上决定进一步的治疗方案。只有在治疗的肿瘤学专家判断合理时,这些RECIST指南才会在决策中起到重要作用。
33. 3. Measurability of tumour at baseline
34. 3。术前肿瘤检测
35. 3。1. Definitions
36. 3。1 定义
37. At baseline, tumour lesions/lymph nodes will be categorised measurable or non-measurable as follows:
38. 术前,肿瘤病灶/淋巴结将如下分为可测量与不可测量两类:
39. 3.1.1。 Measurable
40. 3.1.1 可测量肿瘤
41. Tumour lesions: Must be accurately measured in at least one dimension (longest diameter in the plane of measurement is to be recorded) with a minimum size of:
42. 肿瘤性病变:至少有一个不小于(仪器检测)低限的尺寸(测量仪器上最长的直
径将被记录下来)必须准确测量:
43. • 10 mm by CT scan (CT scan slice thickness no greater than 5 mm; see Appendix II on imaging guidance)。
44. • 10毫米用CT扫描( CT扫描层厚度不大于5毫米;见成像指南附录II).
45. • 10 mm caliper measurement by clinical exam (lesions which cannot be accurately measured with calipers should be recorded as non-measurable).
46. • 临床检验10毫米用卡尺测量(不能用卡尺准确测量的病变,应记录为不可测量的)。
47. • 20 mm by chest X—ray.
48. • 20毫米用胸部X光检查。
49. Malignant lymph nodes: To be considered pathologically enlarged and measurable, a lymph node must be 15 mm in short axis when assessed by CT scan (CT scan slice thickness recommended to be no greater than 5 mm)。 At baseline and in follow-up, only the short axis will be measured and followed (see Schwartz et al。 in this Special Issue15). See also notes below on ‘Baseline documentation of target and non—target lesions’ for information on lymph node measurement。
50. 恶性淋巴结:当用CT扫描(CT扫描层厚度建议不大于5毫米)来评估时,淋巴结短轴必须达到15mm才可将其认为是病理扩大和可测量的。术前和后续工作中,只测量并
跟踪短轴长度(见特别问题15中施瓦茨等)。还可从“目标与非目标病灶术前文件”下的注解获取淋巴结测量方面的资料。
51. 3。1.2. Non-measurable
52. 3。1。2 不可测量的(肿瘤)
53. All other lesions, including small lesions (longest diameter <10 mm or pathological lymph nodes with 10 to <15 mm short axis) as well as truly non—measurable lesions。 Lesions considered truly non-measurable include: leptomeningeal disease, ascites, pleural or pericardial effusion, inflammatory breast disease, lymphangitic involvement of skin or lung, abdominal masses/abdominal organomegaly identified by physical exam that is not measurable by reproducible imaging techniques.
54. 其他所有病变,包括小病灶(最长直径小于10毫米或病理淋巴结短轴为10毫米到小于15毫米的)以及真正的不可测病变。视为真正不可测的病变包括:理学检查确定的脑膜疾病、腹水、胸膜或心包积液、炎症乳腺疾病、淋巴管参与的皮肤或肺部、腹部肿块/腹部器官巨大症,这些都是用重现成像技术无法测量的。
55. 3.1。3. Special considerations regarding lesion measurability
56. 3.1。3 病变可测量性的特例
57. Bone lesions, cystic lesions, and lesions previously treated with local
therapy require particular comment:
58. 需要特别注意骨病变、囊性病变和之前进行了局部治疗的病变:
59. Bone lesions:
60. 骨病变
61. • Bone scan, PET scan or plain films are not considered adequate imaging techniques to measure bone lesions。 However, these techniques can be used to confirm the presence or disappearance of bone lesions.
62. • 在测量骨病变方面,骨骼扫描、 PET扫瞄或平片被视为不充分的成像技术。但是,这些技术可以用来确认骨病变的存在或消失。
63. • Lytic bone lesions or mixed lytic-blastic lesions, with identifiable soft tissue components, that can be evaluated by cross sectional imaging techniques such as CT or MRI can be considered as measurable lesions if the soft tissue component meets the definition of measurability described above.
64. • 如果软组织部分符合上述可测量性定义的话,带有可识别软组织的溶解骨病变或溶解—急性混合病变可以通过CT或MRI等交叉成像技术进行评估时,它们可被视为可测性病变.
65. • Blastic bone lesions are non-measurable。
66. • 急性骨病变是不可测量的。
67. Cystic lesions:
68. 囊性病变:
69. • Lesions that meet the criteria for radiographically defined simple cysts should not be considered as malignant lesions (neither measurable nor non-measurable) since they are, by definition, simple cysts.
70. • 符合X线定义的简单囊肿标准的病变不应视为恶性病变(既非可测量的,也非不可测量的),因为根据其定义,它们是简单的囊肿。
71. • ‘Cystic lesions’ thought to represent cystic metastases can be considered as measurable lesions, if they meet the definition of measurability described above. However, if non-cystic lesions are present in the same patient, these are preferred for selection as target lesions.
72. • 被认为囊性转移的“囊性病变”可视为可测量病变,只要是符合上述可测量的定义。但是,如果同一患者体内存在非囊性病变,这些就会被选定为目标病灶。
73. Lesions with prior local treatment:
74. 已经受到局部治疗的病变:
75. • Tumour lesions situated in a previously irradiated area, or in an area
subjected to other loco-regional therapy, are usually not considered measurable unless there has been demonstrated progression in the lesion。 Study protocols should detail the conditions under which such lesions would be considered measurable.
76. • 位于先前照射区或受到其他局部治疗的部位的肿瘤病灶,通常不被视为可测量的,除非已证明病变仍在继续。研究议定书应详细说明在何种条件下这种病变将被视为可测量的.
77. 编译:
78. 2. 该指南的目的
79. 该指南描述了一个实体瘤测量和成人、小儿癌症的临床试验中肿瘤大小变化客观评估的规定的标准做法.预计这些标准将有效用于所有以客观响应为主要的研究终点的试验,以及承担稳定疾病评估、肿瘤进展或进展时间分析的试验,因为所有治疗效果的衡量都是基于研究中解剖学肿瘤负荷及其变化的评估.本文中对于达到相应标准-表明试剂或治疗方案有积极作用的终点—的患者的比例没有任何假设:这些定义依赖于试验中癌症的类型以及正在研究中的特殊试剂。协议必须包括适当的统计学章节,介绍如何以实验样本大小和决策标准为基础来界定疗效参数。除了为肿瘤反应评估提供定义和标准外,这一指南也为以肿瘤反应为终点的试验推荐了标准的研究结果报告。
80. 尽管这些指南可用于恶性脑肿瘤的研究,在这一领域关于响应的评估已有单独的标准出版[13]。由于淋巴瘤反应评估的国际准则也已单独出版[14],这一指南不用于恶性淋巴瘤的研究。
81. 最后,许多肿瘤学家在他们日常的临床实践中依靠多次成像研究来跟踪病人的恶性疾病,并在客观和症状双重标准的基础上决定进一步的治疗方案。只有在治疗的肿瘤学专家判断合理时,这些RECIST指南才会在决策中起到重要作用.
82. 3.术前肿瘤检测
83. 3.1 定义
84. 术前,肿瘤病灶/淋巴结将如下分为可测量与不可测量两类:
85. 3。1。1 可测量肿瘤
86. 肿瘤性病变:至少有一个不小于(仪器检测)低限的尺寸(测量仪器上最长的直径将被记录下来)必须准确测量:
87. • 10毫米用CT扫描( CT扫描层厚度不大于5毫米;见成像指南附录II).
88. • 临床检验10毫米用卡尺测量(不能用卡尺准确测量的病变,应记录为不可测量的)。
89. • 20毫米用胸部X光检查。
90. 恶性淋巴结:当用CT扫描(CT扫描层厚度建议不大于5毫米)来评估时,淋巴结短轴必须达到15mm才可将其认为是病理扩大和可测量的。术前和后续工作中,只测量并跟踪短轴长度(见特别问题15中施瓦茨等)。还可从“目标与非目标病灶术前文件\"下的注解获取淋巴结测量方面的资料.
91. 3。1。2 不可测量的(肿瘤)
92. 其他所有病变,包括小病灶(最长直径小于10毫米或病理淋巴结短轴为10毫米到小于15毫米的)以及真正的不可测病变。视为真正不可测的病变包括:理学检查确定的脑膜疾病、腹水、胸膜或心包积液、炎症乳腺疾病、淋巴管参与的皮肤或肺部、腹部肿块/腹部器官巨大症,这些都是用重现成像技术无法测量的。
93. 3。1。3 病变可测量性的特例
94. 需要特别注意骨病变、囊性病变和之前进行了局部治疗的病变:
95. 骨病变
96. • 在测量骨病变方面,骨骼扫描、 PET扫瞄或平片被视为不充分的成像技术。但是,这些技术可以用来确认骨病变的存在或消失。
97. • 如果软组织部分符合上述可测量性定义的话,带有可识别软组织的溶解骨病变或溶解—急性混合病变可以通过CT或MRI等交叉成像技术进行评估时,它们可被视为可测性病变。
98. • 急性骨病变是不可测量的。
99. 囊性病变:
100. • 符合X线定义的简单囊肿标准的病变不应视为恶性病变(既非可测量的,也非不可测量的),因为根据其定义,它们是简单的囊肿。
101. • 被认为囊性转移的“囊性病变”可视为可测量病变,只要是符合上述可测量的定义。但是,如果同一患者体内存在非囊性病变,这些就会被选定为目标病灶。
102. 已经受到局部治疗的病变:
103. • 位于先前照射区或受到其他局部治疗的部位的肿瘤病灶,通常不被视为可测量的,除非已证明病变仍在继续。研究议定书应详细说明在何种条件下这种病变将被视为可测量的.
3。2. Specifications by methods of measurements
测量方法规范
3。2.1。 Measurement of lesions
病灶的测量
All measurements should be recorded in metric notation, using calipers if clinically assessed.
临床评估用测径器(卡尺)测量,所有测量用米制为单位记录.
All baseline evaluations should be performed as close as possible to the treatment start and never more than 4 weeks before the beginning of the treatment。
所有基线评估必须尽可能在接近治疗开始前进行,不能早于四周。
3。2。2。 Method of assessment
测量方法
The same method of assessment and the same technique should be used to characterise each identified and reported lesion at baseline and during follow-up.
在评价同一个病灶时,基线和随诊应使用同样的技术和方法。
Imaging based evaluation should always be done rather than clinical examination unless the lesion being followed cannot be imaged but are assessable by clinical exam.
除只能用临床检查评估不适用影像检测外,病灶必须采用影像检测评价,不要单纯采用临床检查.
Clinical lesions: Clinical lesions will only be considered measurable when they are superficial and 10 mm diameter as assessed using calipers (e。g. skin nodules).
临床检查病灶:只有在10mm以下的表浅病灶(如皮下小结)考虑使用测径器来进行临床检测。
For the case of skin lesions, documentation by colour photography including a ruler to estimate the size of the lesion is suggested。
皮肤表浅病灶建议使用彩色照片记录,照片附上测量病灶大小的比例尺.
As noted above, when lesions can be evaluated by both clinical exam and imaging, imaging evaluation should be undertaken since it is more objective and may also be reviewed at the end of the study。
如前所述,当病灶既可用临床检测也可用影像学检查时,由于影像学更客观并可用于治疗后研究终点的回顾,应该进行影像学检查。
Chest X-ray: Chest CT is preferred over chest X—ray, particularly when progression is an important endpoint, since CT is more sensitive than X—ray, particularly in identifying new lesions.
胸部X片:胸片和胸部CT测量病灶,因为CT在发现新病灶等方面比较X片更敏感,优先选用CT扫描,特别在重要的治疗终点时。
However, lesions on chest X-ray may be considered measurable if they are clearly defined and surrounded by aerated lung. See Appendix II for more details.
然而,肺实质中边界清楚的病灶也可使用胸片检测。详见附录二.
CT, MRI: CT is the best currently available and reproducible method to measure lesions selected for response assessment.
CT,MRI:CT是目前用来评估病灶疗效最有效和重复性最好的检测方法。
This guideline has defined measurability of lesions on CT scan based on the assumption that CT slice thickness is 5 mm or less。
指南定义可测量病灶用CT扫描基于层厚不超过5mm。
As is described in Appendix II, when CT scans have slice thickness greater than 5 mm, the minimum size for a measurable lesion should be twice the slice thickness.
如附录二所示,当CT层厚超过5mm,可测量病灶最小应是层厚的两倍。
MRI is also acceptable in certain situations (e.g。 for body scans)。
MRI在某也情况下也可使用(如全身扫描)。
More details concerning the use of both CT and MRI for assessment of objective tumour response evaluation are provided in Appendix II.
更多关于使用CT和MRI检测实体瘤评估疗效的意见见附录II。
Ultrasound: Ultrasound is not useful in assessment of lesion size and should not be used as a method of measurement.
超声检查:超声检查不适用于评估病灶大小,不应用于测量方法。
Ultrasound examinations cannot be reproduced in their entirety for
independent review at a later date and, because they are operator dependent, it cannot be guaranteed that the same technique and measurements will be taken from one assessment to the next (described in greater detail in Appendix II).
超声检查在两次相邻的观察间不能完全再现,而且结果依赖于检查者,从一次检测到下一次,不能保证相同的技术和测量结果(详见附录二)。
If new lesions are identified by ultrasound in the course of the study, confirmation by CT or MRI is advised. If there is concern about radiation exposure at CT, MRI may be used instead of CT in selected instances.
如果在研究过程中通过超声发现新的病灶,建议用CT或MRI验证.如果顾虑CT的射线照射,可用MRI代替来检测待检病灶。
Endoscopy, laparoscopy: The utilisation of these techniques for objective tumour evaluation is not advised.
内镜、腹腔镜:不建议用这些技术评估实体瘤.
However, they can be useful to confirm complete pathological response when biopsies are obtained or to determine relapse in trials where recurrence following complete response or surgical resection is an endpoint。
不过,他们在用活检证实完全的病理学缓解或确定完全缓解或手术切除后的再发时是有益的。
Tumour markers: Tumour markers alone cannot be used to assess objective tumour response。
肿瘤标志:肿瘤标记物不能单独用于评估实体瘤疗效。
If markers are initially above the upper normal limit, however, they must normalise for a patient to be considered in complete response。
然而,肿瘤标记物开始高于正常上限时,如果用来判断病人完全缓解,标记物必须标准化。
Because tumour markers are disease specific, instructions for their measurement should be incorporated into protocols on a disease specific basis.
因为肿瘤标志具有疾病特异性,测量技术说明应该标注于对于某一特殊疾病基线检测的记录。
Specific guidelines for both CA—125 response (in recurrent ovarian cancer) and PSA response (in recurrent prostate cancer), have been published.[16], [17] and [18] In addition, the Gynecologic Cancer Intergroup has developed CA125 progression criteria which are to be integrated with objective tumour assessment for use in first—line trials in ovarian cancer。19
关于CA—125变化(在卵巢癌复发)和PSA变化(在前列腺癌复发)的特别指南已经出版,见[16]、[17]、[18]。此外,妇科肿瘤Intergroup 制订了CA125用于实体瘤评
估的标准,首先试验性用于卵巢癌[19]。
Cytology, histology: These techniques can be used to differentiate between PR and CR in rare cases if required by protocol (for example, residual lesions in tumour types such as germ cell tumours, where known residual benign tumours can remain)。
细胞学、组织学:必要时这些技术可用于个别病例来区分部分缓解和完全缓解,(比如在鉴定残存病灶的肿瘤类型时,实例如生殖细胞肿瘤已知残存良性瘤病灶是可以保留的)。
When effusions are known to be a potential adverse effect of treatment (e。g. with certain taxane compounds or angiogenesis inhibitors), the cytological confirmation of the neoplastic origin of any effusion that appears or worsens during treatment can be considered if the measurable tumour has met criteria for response or stable disease in order to differentiate between response (or stable disease) and progressive disease。
当已知治疗中渗出液可能发生严重不良后果(如某些紫杉醇类化疗药或血管生成抑制剂),即使可测量肿瘤符合有效或稳定的标准,在治疗过程中出现的以及恶化的任何渗出液都要考虑用细胞学证实其肿瘤性质,以区分可评价肿瘤的疗效是有效、稳定(无效)还是进展。
编译:color=red][/color]
3。2. 测量方法规范
3.2。1。病灶的测量
临床评估用测径器(卡尺)测量,所有测量用米制为单位记录。所有基线评估必须尽可能在接近治疗开始前进行,不能早于四周。
3.2.2。测量方法
在评价同一个病灶时,基线和随诊应使用同样的技术和方法。除只能用临床检查评估不适用影像检测外,病灶必须采用影像检测评价,不要单纯采用临床检查。
临床检查病灶:只有在10mm以下的表浅病灶(如皮下小结)考虑使用测径器来进行临床检测.皮肤表浅病灶建议使用彩色照片记录,照片附上测量病灶大小的比例尺。如前所述,当病灶既可用临床检测也可用影像学检查时,由于影像学更客观并可用于治疗后研究终点的回顾,应该进行影像学检查。
胸部X片:胸片和胸部CT测量病灶,因为CT在发现新病灶等方面比较X片更敏感,优先选用CT扫描,特别在重要的治疗终点时。当然,肺实质中边界清楚的病灶也可使用胸片检测。详见附录二.
CT,MRI:CT是目前用来评估病灶疗效最有效和重复性最好的检测方法。指南定义可测量病灶用CT扫描基于层厚不超过5mm。如附录二所示,当CT层厚超过5mm,可测量病灶最小应是层厚的两倍.MRI在某也情况下也可使用(如全身扫描)。更多关于使用CT和MRI检测实体瘤评估疗效的意见见附录II.
超声检查:超声检查不适用于评估病灶大小,不应用于测量方法。超声检查在两次相
邻的观察间不能完全再现,而且结果依赖于检查者,从一次检测到下一次,不能保证相同的技术和测量结果(详见附录二)。如果在研究过程中通过超声发现新的病灶,建议用CT或MRI验证。如果顾虑CT的射线照射,可用MRI代替来检测待检病灶.
内镜、腹腔镜:不建议用这些技术评估实体瘤。不过,他们在用活检证实完全的病理学缓解或确定完全缓解或手术切除后的再发时是有益的。
肿瘤标志:肿瘤标记物不能单独用于评估实体瘤疗效。然而,肿瘤标记物开始高于正常上限时,如果用来判断病人完全缓解,标记物必须标准化.因为肿瘤标志具有疾病特异性,测量技术说明应该标注于对于某一特殊疾病基线检测的记录。关于CA-125变化(在卵巢癌复发)和PSA变化(在前列腺癌复发)的特别指南已经出版,见[16]、[17]、[18]。此外,妇科肿瘤国际组(Intergroup) 制订了CA125用于实体瘤评估的标准,首先试验性用于卵巢癌[19]。
细胞学、组织学:必要时这些技术可用于个别病例来区分部分缓解和完全缓解,(比如在鉴定残存病灶的肿瘤类型时,实例如生殖细胞肿瘤已知残存良性瘤病灶是可以保留的需要区分良、恶性病灶)。当已知治疗中渗出液可能发生严重不良后果(如某些紫杉醇类化疗药或血管生成抑制剂),即使可测量肿瘤符合有效或稳定的标准,在治疗过程中出现的以及恶化的任何渗出液都需要考虑用细胞学证实其肿瘤性质,以区分可评价肿瘤的疗效是有效、稳定(无效)还是进展。
4。1-4.2仍未认领翻译.
4。3。 Response criteria 疗效评估标准
This section provides the definitions of the criteria used to determine objective tumour response for target lesions。
本节为目标病灶定义用来确定实体瘤疗效的标准。
4。3。1。 Evaluation of target lesions 目标病灶的疗效评价
Complete Response (CR): 治愈
Disappearance of all target lesions. Any pathological lymph nodes (whether target or non-target) must have reduction in short axis to <10 mm。
所有目标病灶消失,任何病理性淋巴结(无论是否为目标病灶)的短轴值必须〈10 mm
Partial Response (PR):缓减
At least a 30% decrease in the sum of diameters of target lesions, taking as reference the baseline sum diameters.
以临界半径的总和为参照,所有目标病灶半径的总和至少减小30%,
Progressive Disease (PD): 病情恶化
At least a 20% increase in the sum of diameters of target lesions, taking as reference the smallest sum on study (this includes the baseline sum if that is the smallest on study). In addition to the relative increase of 20%, the sum must also
demonstrate an absolute increase of at least 5 mm. (Note: the appearance of one or more new lesions is also considered progression).
以所研究(目标病灶半径)的总和最小值为参照(包括最小值等于临界值的情况),所有目标病灶半径的总和至少增加20%,另外,半径总和增加的绝对值还必须大于5mm(注:出现新的病灶也可认为是恶化)
Stable Disease (SD):病情稳定
Neither sufficient shrinkage to qualify for PR nor sufficient increase to qualify for PD, taking as reference the smallest sum diameters while on study。
以所研究(目标病灶半径)的总和最小值为参照,既达不到缓减标准、也达不到恶化标准者。
4。3.2. Special notes on the assessment of target lesions 目标病灶疗效评价的注意事项
Lymph nodes 淋巴结
Lymph nodes identified as target lesions should always have the actual short axis measurement recorded (measured in the same anatomical plane as the baseline examination), even if the nodes regress to below 10 mm on study。 This means that when lymph nodes are included as target lesions, the ‘sum’ of lesions may not be zero even if complete response criteria are met, since a normal
lymph node is defined as having a short axis of <10 mm。 Case report forms or other data collection methods may therefore be designed to have target nodal lesions recorded in a separate section where, in order to qualify for CR, each node must achieve a short axis 〈10 mm。 For PR, SD and PD, the actual short axis measurement of the nodes is to be included in the sum of target lesions.
若目标病灶为淋巴结时需经常测量并记录其实际的短轴值(作为基准检测时必须测量同一条长径),尽管所研究的淋巴结消退至10mm以下。这意味着当目标病灶为淋巴结时,目标病灶半径的和不会是0,即使达到了治愈的标准,因为短轴值〈10mm的淋巴结被定义为正常淋巴结.病例报告表或其它资料收集方法可能在设计时需单独记录结节性目标病灶以判断是否治愈,因为每个结节都必须达到短轴值〈10mm。而在判断缓减、稳定和恶化时,结节的实际短轴值将包括在目标病灶(半径)的总和中。
Target lesions that become ‘too small to measure’ 太小而不能测量的目标病灶
While on study, all lesions (nodal and non-nodal) recorded at baseline should have their actual measurements recorded at each subsequent evaluation, even when very small (e.g. 2 mm)。 However, sometimes lesions or lymph nodes which are recorded as target lesions at baseline become so faint on CT scan that the radiologist may not feel comfortable assigning an exact measure and may report them as being ‘too small to measure’.
研究中以临界值记录的所有病灶(结节性的和非结节性的)都必须在随后的评估中记录它们的实际测量值,尽管很小很小(如2mm)。但是,有时候病灶或淋巴结以临界值记录
时因为在CT扫描时信号太弱,放射科医生可能不太乐意给出一个精确的测量值,而是报告为“太小而不能测量”.
When this occurs it is important that a value be recorded on the case report form。 If it is the opinion of the radiologist that the lesion has likely disappeared, the measurement should be recorded as 0 mm. If the lesion is believed to be present and is faintly seen but too small to measure, a default value of 5 mm should be assigned (Note: It is less likely that this rule will be used for lymph nodes since they usually have a definable size when normal and are frequently surrounded by fat such as in the retroperitoneum; however, if a lymph node is believed to be present and is faintly seen but too small to measure, a default value of 5 mm should be assigned in this circumstance as well).
出现这种情况时在病例报告表中记下一个测量值是很重要的。如果放射科医生认为病灶可能会消失,测量值可记为0mm.如果病灶确实存在而信号又太弱,可记录为默认值5mm(这条规则不太适合淋巴结,因为正常淋巴结的大小有一个明确的值且经常被脂肪组织包裹,如腹膜后腔的淋巴结;但是,若淋巴结确实存在但信号又太弱而不好测量时,同样可记录为默认值5mm)。
This default value is derived from the 5 mm CT slice thickness (but should not be changed with varying CT slice thickness)。 The measurement of these lesions is potentially non—reproducible, therefore providing this default value will prevent false responses or progressions based upon measurement error。 To reiterate, however, if the radiologist is able to provide an actual measure, that should be recorded, even if it is below 5 mm.
默认值5mm来源于CT扫描断层的厚度(若此厚度有改变,默认值5mm还是不宜改变)。这种(太小而不能测量)病灶的测量值可能缺乏重复性,给出一个默认值可防止测量错误时评估为假治愈或假恶化。再次强调的是,如果放射科医生能给出一个实际测量值,哪怕是小于5mm,也应该记录下来.
Lesions that split or coalesce on treatment 治疗中发生崩裂或融合的病灶
As noted in Appendix II, when non-nodal lesions ‘fragment’, the longest diameters of the fragmented portions should be added together to calculate the target lesion sum。 Similarly, as lesions coalesce, a plane between them may be maintained that would aid in obtaining maximal diameter measurements of each individual lesion。 If the lesions have truly coalesced such that they are no longer separable, the vector of the longest diameter in this instance should be the maximal longest diameter for the ‘coalesced lesion’.
按照附录II的注释,当非结节性病灶“碎裂\"时,所有碎片的最长半径必须加在一起用来计算病灶(半径)的总和。同样,当病灶融合时,它们之间的长径可被保留,这样有助于获得合并前各病灶的最大半径值。如果病灶完全融合而不再彼此分离,这种情况下半径最长者的测量值就是融合病灶的半径值。
4.3.3。 Evaluation of non—target lesions 非目标病灶的评估
This section provides the definitions of the criteria used to determine the tumour response for the group of non—target lesions。 While some non-target lesions may actually be measurable, they need not be measured and instead
should be assessed only qualitatively at the time points specified in the protocol.
本节为非目标病灶组定义用来确定肿瘤疗效的标准。当某些非目标病灶事实上可测量时,在实验程序的特殊时间点可不需测量而只需定性。
Complete Response (CR): 治愈
Disappearance of all non—target lesions and normalisation of tumour marker level。 All lymph nodes must be non—pathological in size (〈10 mm short axis).
所有非目标病灶消失且肿瘤标记物的水平正常化。所有淋巴结在大小上必需是非病理性的(即短轴值小于10mm)
Non-CR/Non-PD: 非治愈/非恶化
Persistence of one or more non—target lesion and/or maintenance of tumour marker level above the normal limits.
有一个或多个非目标病灶持续存在,和/或 肿瘤标志物维持在正常水平以上。
Progressive Disease (PD): 恶化
Unequivocal progression (see comments below) of existing non-target lesions。 (Note: the appearance of one or more new lesions is also considered progression).
存在非目标病灶的明确恶化,请见下面的评论。(注:出现一个或多个新病灶也被认为是恶化)
4.3.4。 Special notes on assessment of progression of non—target disease 判断非目标疾病恶化时的注意事项
The concept of progression of non-target disease requires additional explanation as follows:
非目标疾病恶化的概念--补充如下:
When the patient also has measurable disease 当病人还有可测量的疾病时
In this setting, to achieve ‘unequivocal progression' on the basis of the non-target disease, there must be an overall level of substantial worsening in non—target disease such that, even in presence of SD or PR in target disease, the overall tumour burden has increased sufficiently to merit discontinuation of therapy (see examples in Appendix II and further details below). A modest ‘increase’ in the size of one or more non—target lesions is usually not sufficient to quality for unequivocal progression status. The designation of overall progression solely on the basis of change in non-target disease in the face of SD or PR of target disease will therefore be extremely rare.
此时,要根据非目标疾病来判断是否达到“明确恶化”的标准,还需非目标疾病实质性恶化的总水平(即使目标疾病被判断为稳定或缓减)。这样,总的肿瘤负荷增加到需中断
治疗(请见附录II中的实例和下面的进一步讨论)。一个或多个非目标病灶在体积上稍微增加一般不足以达到“明确恶化\",当目标疾病评定为稳定或缓减时单独根据非目标疾病的变化就判定为总体恶化的情况是极其罕见的。
When the patient has only non-measurable disease 当病人只有不可测量疾病时
This circumstance arises in some phase III trials when it is not a criterion of study entry to have measurable disease。 The same general concepts apply here as noted above, however, in this instance there is no measurable disease assessment to factor into the interpretation of an increase in non-measurable disease burden. Because worsening in non—target disease cannot be easily quantified (by definition: if all lesions are truly non—measurable) a useful test that can be applied when assessing patients for unequivocal progression is to consider if the increase in overall disease burden based on the change in non-measurable disease is comparable in magnitude to the increase that would be required to declare PD for measurable disease: i。e。 an increase in tumour burden representing an additional 73% increase in ‘volume’ (which is equivalent to a 20% increase diameter in a measurable lesion). Examples include an increase in a pleural effusion from ‘trace’ to ‘large’, an increase in lymphangitic disease from localised to widespread, or may be described in protocols as ‘sufficient to require a change in therapy’。 Some illustrative examples are shown in Figs。 5 and 6 in Appendix II. If ‘unequivocal progression’ is seen, the patient should be considered to have had overall PD at that point。 While it would be ideal to have objective criteria to apply to non-measurable disease, the very nature of that disease makes it impossible to do so, therefore the increase must be substantial。
这样的情况发生于某些III期临床试验中所研究的疾病不适合测量,前面也已经提到了这一概念,但是在这一情况下没有可测量疾病的评估值可分解以解释不可测量疾病的负荷增加。因为当非目标疾病的恶化很难定量(根据定义:假设所有的病灶确确实实都是不可测量的)时,要判定病人为明确恶化需考虑不可测量疾病的变化导致疾病总负荷的增加量是否在强度方面与可测量疾病判定为恶化所需的增加量具有可比性,比如(不可测量病灶)体积增加73%导致肿瘤负荷的增加量相当于可测量病灶半径增加20%所导致的肿瘤负荷增加量。同样的例子还包括胸腔积液从“少量”到“大量”,淋巴管病从局限到播散,或者在实验记录中被描述为“需调整治疗方案”。某些例子的解释请见附录II的图—5和图—6。若“明确恶化”很明显时,病人可评定为总体恶化.不要期望不可测量疾病有适用的客观评估标准,因为正是这一疾病的本质使其不可能,所以增加量必须是实质性的。
4。3.5. New lesions 新病灶
The appearance of new malignant lesions denotes disease progression; therefore, some comments on detection of new lesions are important. There are no specific criteria for the identification of new radiographic lesions; however, the finding of a new lesion should be unequivocal: i。e. not attributable to differences in scanning technique, change in imaging modality or findings thought to represent something other than tumour (for example, some ‘new' bone lesions may be simply healing or flare of pre—existing lesions)。 This is particularly important when the patient's baseline lesions show partial or complete response。 For example, necrosis of a liver lesion may be reported on a CT scan report as a ‘new’ cystic lesion, which it is not.
新的恶性病灶的出现意味着病情的恶化,所以讨论一下新病灶的检测是非常重要的。
因为没有专门的标准来鉴定X光片上的新病灶,所以新病灶的指征必须非常明确,比如不能怀疑为扫描技术的差异、显像模式的变化或倾向于是非肿瘤的(如某些“新的\"骨损害灶可能仅仅是先前就存在的病灶在愈合或突现).这一点在当病人的临界性病灶表现为缓减或治愈时尤其重要。例如:肝脏病灶的坏死可能被CT扫描报告为“新的囊性病灶”,实际上不是。
A lesion identified on a follow-up study in an anatomical location that was not scanned at baseline is considered a new lesion and will indicate disease progression。 An example of this is the patient who has visceral disease at baseline and while on study has a CT or MRI brain ordered which reveals metastases. The patient’s brain metastases are considered to be evidence of PD even if he/she did not have brain imaging at baseline.
在基准扫描中未检出病灶的解剖学位置若在随访研究中检出了病灶可以认为是新的病灶并意味着病情恶化.这样的例子可见于有临界性内脏疾病的病人需在研究中做脑部CT或MRI以发现转移灶的情况。此病人的脑部转移灶可认为是恶化的证据,不管他/她以前有没有在基准测试中做脑部成像.
If a new lesion is equivocal, for example because of its small size, continued therapy and follow-up evaluation will clarify if it represents truly new disease。 If repeat scans confirm there is definitely a new lesion, then progression should be declared using the date of the initial scan.
如果新病灶很难鉴定,例如太小,但它确实代表了新的疾病,则需要在后面的治疗和随访评估中分类.如果跟最初的扫描数据比较,重复扫描证实是一个明确的新病灶,那么应该
判定为恶化。
While FDG—PET response assessments need additional study, it is sometimes reasonable to incorporate the use of FDG-PET scanning to complement CT scanning in assessment of progression (particularly possible ‘new’ disease)。 New lesions on the basis of FDG-PET imaging can be identified according to the following algorithm:
当FDG—PET评估疗效需额外的研究时,判断恶化将FDG—PET扫描结合互补CT扫描有时候是很有道理的(特别是“新”疾病可能性比较大时)。基于FDG—PET成像来判定为新病灶可根据下面的算法:
a。 Negative FDG—PET at baseline, with a positivel FDG—PET at follow—up is a sign of PD based on a new lesion.
a。 基准测试中FDG-PET阴性,随访研究中FDG—PET阳性——因为有新病灶可判定为恶化。
b。 No FDG-PET at baseline and a positive FDG—PET at follow—up:
b. 基准测试中没有做FDG-PET,但随访研究中FDG-PET阳性.
If the positive FDG—PET at follow—up corresponds to a new site of disease confirmed by CT, this is PD。
若随访研究中FDG-PET阳性的病灶可以被CT证实,可判定为恶化。
If the positive FDG-PET at follow-up is not confirmed as a new site of disease on CT, additional follow—up CT scans are needed to determine if there is truly progression occurring at that site (if so, the date of PD will be the date of the initial abnormal FDG—PET scan)。
若随访研究中FDG-PET阳性的病灶不可以被CT证实,那么需要在随访研究的下一次CT扫描来决定是否是真正的恶化(如此,FDG-PET扫描发现异常的时间就是判定为恶化的时间)
If the positive FDG-PET at follow—up corresponds to a pre-existing site of disease on CT that is not progressing on the basis of the anatomic images, this is not PD.
若随访研究中FDG-PET阳性的病灶是CT发现的已经存在的病灶且根据解剖学成像没有恶化,那么就不是恶化。
编译:
4。3. 疗效评估标准
本节为目标病灶定义用来确定实体瘤疗效的标准。
4。3。1. 目标病灶的疗效评价
治愈
所有目标病灶消失,任何病理性淋巴结(无论是否为目标病灶)的短轴值必须<10 mm
缓减
以临界半径的总和为参照,所有目标病灶半径的总和至少减小30%,
恶化
以所研究(目标病灶半径)的总和最小值为参照(包括最小值等于临界值的情况),所有目标病灶半径的总和至少增加20%,另外,半径总和增加的绝对值还必须大于5mm(注:出现新的病灶也可认为是恶化)
稳定
以所研究(目标病灶半径)的总和最小值为参照,既达不到缓减标准、也达不到恶化标准者。
4.3.2. 目标病灶疗效评价的注意事项
淋巴结
若目标病灶为淋巴结时需经常测量并记录其实际的短轴值(作为基准检测时必须测量同一条长径),尽管所研究的淋巴结消退至10mm以下.这意味着当目标病灶为淋巴结时,目标病灶半径的和不会是0,即使达到了治愈的标准,因为短轴值〈10mm的淋巴结被定义为正常淋巴结。病例报告表或其它资料收集方法可能在设计时需单独记录结节性目标病灶以判断是否治愈,因为每个结节都必须达到短轴值<10mm。而在判断缓减、稳定和恶化
时,结节的实际短轴值将包括在目标病灶(半径)的总和中。
太小而不能测量的目标病灶
研究中以临界值记录的所有病灶(结节性的和非结节性的)都必须在随后的评估中记录它们的实际测量值,尽管很小很小(如2mm).但是,有时候病灶或淋巴结以临界值记录时因为在CT扫描时信号太弱,放射科医生可能不太乐意给出一个精确的测量值,而是报告为“太小而不能测量”.
出现这种情况时在病例报告表中记下一个测量值是很重要的。如果放射科医生认为病灶可能会消失,测量值可记为0mm.如果病灶确实存在而信号又太弱,可记录为默认值5mm(这条规则不太适合淋巴结,因为正常淋巴结的大小有一个明确的值且经常被脂肪组织包裹,如腹膜后腔的淋巴结;但是,若淋巴结确实存在但信号又太弱而不好测量时,同样可记录为默认值5mm)。
默认值5mm来源于CT扫描断层的厚度(若此厚度有改变,默认值5mm还是不宜改变)。这种(太小而不能测量)病灶的测量值可能缺乏重复性,给出一个默认值可防止测量错误时评估为假治愈或假恶化。再次强调的是,如果放射科医生能给出一个实际测量值,哪怕是小于5mm,也应该记录下来。
治疗中发生崩裂或融合的病灶
按照附录II的注释,当非结节性病灶“碎裂”时,所有碎片的最长半径必须加在一起用来计算病灶(半径)的总和。同样,当病灶融合时,它们之间的长径可被保留,这样有助于获得合并前各病灶的最大半径值.如果病灶完全融合而不再彼此分离,这种情况下半径最
长者的测量值就是融合病灶的半径值.
4.3。3. 非目标病灶的评估
本节为非目标病灶组定义用来确定肿瘤疗效的标准.当某些非目标病灶事实上可测量时,在实验程序的特殊时间点可不需测量而只需定性。
治愈
所有非目标病灶消失且肿瘤标记物的水平正常化。所有淋巴结在大小上必需是非病理性的(即短轴值小于10mm)
非治愈/非恶化
有一个或多个非目标病灶持续存在,和/或 肿瘤标志物维持在正常水平以上.
恶化
存在非目标病灶的明确恶化,请见下面的评论。(注:出现一个或多个新病灶也被认为是恶化)
4。3。4. 判断非目标疾病恶化时的注意事项
非目标疾病恶化的概念—-补充如下:
当病人还有可测量的疾病时
此时,要根据非目标疾病来判断是否达到“明确恶化”的标准,还需非目标疾病实质性恶化的总水平(即使目标疾病被判断为稳定或缓减)。这样,总的肿瘤负荷增加到需中断治疗(请见附录II中的实例和下面的进一步讨论)。一个或多个非目标病灶在体积上稍微增加一般不足以达到“明确恶化\",当目标疾病评定为稳定或缓减时单独根据非目标疾病的变化就判定为总体恶化的情况是极其罕见的。
当病人只有不可测量疾病时
这样的情况发生于某些III期临床试验中所研究的疾病不适合测量,前面也已经提到了这一概念,但是在这一情况下没有可测量疾病的评估值可分解以解释不可测量疾病的负荷增加.因为当非目标疾病的恶化很难定量(根据定义:假设所有的病灶确确实实都是不可测量的)时,要判定病人为明确恶化需考虑不可测量疾病的变化导致疾病总负荷的增加量是否在强度方面与可测量疾病判定为恶化所需的增加量具有可比性,比如(不可测量病灶)体积增加73%导致肿瘤负荷的增加量相当于可测量病灶半径增加20%所导致的肿瘤负荷增加量.同样的例子还包括胸腔积液从“少量”到“大量”,淋巴管病从局限到播散,或者在实验记录中被描述为“需调整治疗方案”.某些例子的解释请见附录II的图—5和图-6.若“明确恶化”很明显时,病人可评定为总体恶化。不要期望不可测量疾病有适用的客观评估标准,因为正是这一疾病的本质使其不可能,所以增加量必须是实质性的。
4。3。5. 新病灶
新的恶性病灶的出现意味着病情的恶化,所以讨论一下新病灶的检测是非常重要的。因为没有专门的标准来鉴定X光片上的新病灶,所以新病灶的指征必须非常明确,比如不能怀疑为扫描技术的差异、显像模式的变化或倾向于是非肿瘤的(如某些“新的”骨损害灶可能仅仅是先前就存在的病灶在愈合或突现)。这一点在当病人的临界性病灶表现为缓减
或治愈时尤其重要.例如:肝脏病灶的坏死可能被CT扫描报告为“新的囊性病灶\",实际上不是。
在基准扫描中未检出病灶的解剖学位置若在随访研究中检出了病灶可以认为是新的病灶并意味着病情恶化.这样的例子可见于有临界性内脏疾病的病人需在研究中做脑部CT或MRI以发现转移灶的情况。此病人的脑部转移灶可认为是恶化的证据,不管他/她以前有没有在基准测试中做脑部成像。
如果新病灶很难鉴定,例如太小,但它确实代表了新的疾病,则需要在后面的治疗和随访评估中分类。如果跟最初的扫描数据比较,重复扫描证实是一个明确的新病灶,那么应该判定为恶化。
当FDG-PET评估疗效需额外的研究时,判断恶化将FDG-PET扫描结合互补CT扫描有时候是很有道理的(特别是“新”疾病可能性比较大时)。基于FDG—PET成像来判定为新病灶可根据下面的算法:
a. 基准测试中FDG—PET阴性,随访研究中FDG—PET阳性——因为有新病灶可判定为恶化。
b. 基准测试中没有做FDG—PET,但随访研究中FDG—PET阳性.
若随访研究中FDG-PET阳性的病灶可以被CT证实,可判定为恶化。
若随访研究中FDG-PET阳性的病灶不可以被CT证实,那么需要在随访研究的下一次CT扫描来决定是否是真正的恶化(如此,FDG-PET扫描发现异常的时间就是判定为恶化的
时间)
若随访研究中FDG—PET阳性的病灶是CT发现的已经存在的病灶且根据解剖学成像没有恶化,那么就不是恶化。
.4。 Evaluation of best overall response
最佳总疗效的评价
The best overall response is the best response recorded from the start of the study treatment until the end of treatment taking into account any requirement for confirmation. 最佳总疗效是指考虑了各种因素后确认的从研究治疗开始到治疗结束的最佳疗效的记录。
On occasion a response may not be documented until after the end of therapy so protocols should be clear if post-treatment assessments are to be considered in determination of best overall response。 有时候一种疗效可能直到治疗结束才得以证实,因此实验设计时应该明确:治疗后的评估是否作为决定最佳总疗效的因素。
Protocols must specify how any new therapy introduced before progression will affect best response designation。 实验设计必须规定被引入的新的治疗在进行治疗之前将怎样对最佳疗效指标起作用。
The patient’s best overall response assignment will depend on the findings of both target and non—target disease and will also take into consideration the
appearance of new lesions。 患者的最佳疗效评价将依赖于靶和非靶病灶的发现,也将考虑新的病灶的出现。
Furthermore, depending on the nature of the study and the protocol requirements, it may also require confirmatory measurement (see Section 4。6)。
而且,由于研究本身和实验设计的需要,可能也需要确定的度量值(参照4.6节)。
Specifically, in non—randomised trials where response is the primary endpoint, confirmation of PR or CR is needed to deem either one the ‘best overall response'。 This is described further below.特别是,在非随机实验中,疗效是最重要的终点,PR或CR的确定被认为是“最佳总疗效”。这将在下面进一步描述。
4.4.1。 Time point response
时间点疗效
It is assumed that at each protocol specified time point, a response assessment occurs. 假定在每个实验特定时间点,一种效应评价开始。
Table 1 on the next page provides a summary of the overall response status calculation at each time point for patients who have measurable disease at baseline.下页的表1提供了在基线水平有可测量病灶的患者每个时间点总疗效计算情况的综述
Table 1.
Time point response: patients with target (+/– non-target) disease.
时间点疗效:目标/非目标病灶的患者
Target lesions Non-target lesions New lesions Overall response
目标病灶 非目标病灶 新病灶 总疗效
CR CR No CR
CR Non-CR/non—PD No PR
CR Not evaluated No PR
PR Non-PD or not all evaluated No PR
SD Non—PD or not all evaluated No SD
Not all evaluated Non—PD No NE
PD Any Yes or No PD
Any PD Yes or No PD
Any Any Yes PD
Full—size table
CR = complete response, PR = partial response, SD = stable disease, PD = progressive disease, and NE = inevaluable.
CR =完全缓解,PR=部分缓解,SD=稳定病灶,PD=进展,NE=不能评价
View Within Article
When patients have non-measurable (therefore non—target) disease only, Table 2 is to be used。
当患者只有非测量性病灶时,用表2
--—-——--———---—--——--——-——-—-—---—-—--—-——--——--———--———-————-——--—————-—-—-——-—
Table 2.
Time point response: patients with non—target disease only.
时间点效应:只有非目标病灶的患者
Non-target lesions New lesions Overall response
CR No CR
Non—CR/non-PD No Non-CR/non-PDa
Not all evaluated No NE
Unequivocal PD Yes or No PD
Any Yes PD
Full-size table
CR = complete response, PD = progressive disease, and NE = inevaluable.
a ‘Non-CR/non—PD' is preferred over ‘stable disease’ for non—target disease since SD is increasingly used as endpoint for assessment of efficacy in some trials so to assign this category when no lesions can be measured is not advised.
View Within Article
4。4。2。 Missing assessments and inevaluable designation
消失病灶的评估和非测量性指标
When no imaging/measurement is done at all at a particular time point, the patient is not evaluable (NE) at that time point. 如果在所有某一特定时间点,没有影像资料和其他测量指标,那么该患者在该时间点是不可评估的.
If only a subset of lesion measurements are made at an assessment, usually the case is also considered NE at that time point, unless a convincing argument can be made that the contribution of the individual missing lesion would not change the assigned time point response。如果在一次评估中只做了一套病灶的测量,那么通常情况下该时间点也被认为是不可测量的,除非有令人信服的证据证明个人消失的病灶不会改变所指定时间点效应.
This would be most likely to happen in the case of PD。这将最有可能在进展病灶情况下发生。
For example, if a patient had a baseline sum of 50 mm with three measured lesions and at follow-up only two lesions were assessed, but those gave a sum of 80 mm, the patient will have achieved PD status, regardless of the contribution of the missing lesion。 例如,如果一个患者的基线数是50毫米,有三个可测量病灶,随后只有两个病灶可供评估,但病灶达到了80毫米,我们认为病人处于进展状态,而不考虑其是否有一个病灶消失。
4.4。3. Best overall response: all time points
最佳总疗效:所有时间点
The best overall response is determined once all the data for the patient is known.
最佳总疗效由患者已知的所有数据资料来决定。
Best response determination in trials where confirmation of complete or partial response IS NOT required: Best response in these trials is defined as the best response across all time points (for example, a patient who has SD at first assessment, PR at second assessment, and PD on last assessment has a best overall response of PR). 在最佳疗效中确认完全或部分缓解的具体时间并不需要的情况:在各个阶段中的最佳总疗效定义为所有时间点是最好的疗效(例如,病人第一次评估为稳定病灶,第二次评估为部分缓解,最后评估为进展,则最佳总疗效评价为部分缓解)。
When SD is believed to be best response, it must also meet the protocol specified minimum time from baseline。 当认为稳定病灶是最佳疗效时,它也必须符合从基线记录规定的最低时间。
If the minimum time is not met when SD is otherwise the best time point response, the patient’s best response depends on the subsequent assessments. 如果病灶稳定不到规定的最短时间,则不能满足统计处时,其他的最佳时间点反应,病人的最佳疗效取决于随后的评估。
For example, a patient who has SD at first assessment, PD at second and does not meet minimum duration for SD, will have a best response of PD. 例如;病人第一次评估为稳定病灶,第二次为进展,而稳定病灶时间达不到最低要求,则其最佳疗效为进展。
The same patient lost to follow—up after the first SD assessment would be considered inevaluable。
同一病人第一次评估稳定病灶后如果不能随访,则被认为不可评估。
Best response determination in trials where confirmation of complete or partial response IS required: Complete or partial responses may be claimed only if the criteria for each are met at a subsequent time point as specified in the protocol (generally 4 weeks later). In this circumstance, the best overall response can be interpreted as in Table 3。
在最佳疗效中确认需要完全或部分缓解的具体时间的情况:当满足在随后的时间点(一般4周后)所指明的各个标准要求时,可认为完全或部分缓解。在这种情况下,最佳疗效的解释见表3。
——--————-——----—————-————-—---————-—--—————-------—--—-—-—----—-—--—---————-—--—
Table 3。
Best overall response when confirmation of CR and PR required.
Overall response Overall response BEST overall response
First time point Subsequent time point
CR CR CR
CR PR SD, PD or PRa
CR SD SD provided minimum criteria for SD duration met, otherwise, PD
CR PD SD provided minimum criteria for SD duration met, otherwise, PD
CR NE SD provided minimum criteria for SD duration met, otherwise NE
PR CR PR
PR PR PR
PR SD SD
PR PD SD provided minimum criteria for SD duration met, otherwise, PD
PR NE SD provided minimum criteria for SD duration met, otherwise NE
NE NE NE
Full—size table
CR = complete response, PR = partial response, SD = stable disease, PD = progressive disease, and NE = inevaluable.
a If a CR is truly met at first time point, then any disease seen at a subsequent time point, even disease meeting PR criteria relative to baseline, makes the disease PD at that point (since disease must have reappeared after CR)。
如果在第一时间点为完全缓解,然后在随后的时间点出现疾病,即使疾病相对基准标准出现部分缓解,在这个时间点评估为进展(因为疾病在完全缓解后再发)。
Best response would depend on whether minimum duration for SD was met. However, sometimes ‘CR' may be claimed when subsequent scans suggest small lesions were likely still present and in fact the patient had PR, not CR at the first time point. Under these circumstances, the original CR should be changed to PR and the best response is PR.
最佳疗效取决于稳定病灶的最低期限是否满足。然而,有时评估为“完全缓解”,在随后的扫描提示小的病灶可能依然存在实际上病人在第一时间点为部分缓解而非完成缓解。这种情况下,原来的“完全缓解”应该改为“部分缓解\最佳疗效也应该是部分缓解。
View Within Article
4。4。4。 Special notes on response assessment
4。4.4 疗效评估特别说明
When nodal disease is included in the sum of target lesions and the nodes decrease to ‘normal' size (〈10 mm), they may still have a measurement reported on scans.
当淋巴结病变已被列入目标病灶,以及淋巴结减少到'正常’的大小(<10毫米) ,它们在扫描记录仍可有一个测量数据。
This measurement should be recorded even though the nodes are normal in order not to overstate progression should it be based on increase in size of the nodes。
既使淋巴结已正常这些测量结果仍应该记录,为了不夸大效果应该是以淋巴结变化的大小为依据。
As noted earlier, this means that patients with CR may not have a total sum of ‘zero’ on the case report form (CRF).
正如早先说明的一样,这意味着完全缓解的患者可能在病例报告表中(CRF)没有一个完整的“零点”
In trials where confirmation of response is required, repeated ‘NE' time point assessments may complicate best response determination. 在需要确定疗效的实验中,重复的“不可评估\"时间点评估可能使最佳疗效的确定复杂化.
The analysis plan for the trial must address how missing data/assessments will be addressed in determination of response and progression。 For example, in most trials it is reasonable to consider a patient with time point responses of PR-NE—PR as a confirmed response。该实验的分析计划必须说明丢失的数据/评估信息将怎样被用来决定是有效还是进展。例如,在大多数实验中考虑患者不同时间点疗效,将PR—NE-PR作为一个有效的疗效评价是合理的。
Patients with a global deterioration of health status requiring discontinuation
of treatment without objective evidence of disease progression at that time should be reported as ‘symptomatic deterioration’. 整体健康状况恶化没有该时间点疾病进展客观证据而需要中断治疗的患者应报告为“症状性恶化\"
Every effort should be made to document objective progression even after discontinuation of treatment。 即使中断治疗后,也应积极证实其客观进展。
Symptomatic deterioration is not a descriptor of an objective response: it is a reason for stopping study therapy. 症状性恶化不是客观疗效的描述,只是一个停止治疗的原因.
The objective response status of such patients is to be determined by evaluation of target and non—target disease as shown in Table 1, Table 2 and Table 3.这样的患者的客观疗效情况应由表1、2、3中显示的靶病灶和非靶病灶的评估来决定。
Conditions that define ‘early progression, early death and inevaluability’ are study specific and should be clearly described in each protocol (depending on treatment duration, treatment periodicity)。限定“早期进展,早期死亡和不可估计”的条件具研究特殊性,应该在实验计划早期明确作出规定(取决于治疗持续时间,治疗周期)
In some circumstances it may be difficult to distinguish residual disease from normal tissue. 在某些情况下,鉴别残留病灶和正常组织可能很困难。
When the evaluation of complete response depends upon this determination, it is recommended that the residual lesion be investigated (fine needle aspirate/biopsy) before assigning a status of complete response. 当需要依靠这些结果来评价完全缓解时,建议在下完全缓解的结论前先检查残留病灶(通过细针穿刺活检)。
FDG-PET may be used to upgrade a response to a CR in a manner similar to a biopsy in cases where a residual radiographic abnormality is thought to represent fibrosis or scarring。
常规影像学认为异常的残留病灶,FDG-PET诊断为纤维化或疤痕,其可能通过这种和活检类似的方式来提高评估效应到CR.
The use of FDG-PET in this circumstance should be prospectively described in the protocol and supported by disease specific medical literature for the indication. 在这种情况下用FDG-PET应该在实验设计中提前描述,同时也应该受疾病特异性相关医学文献报道的适应症的支持.
However, it must be acknowledged that both approaches may lead to false positive CR due to limitations of FDG—PET and biopsy resolution/sensitivity。然而,必须了解由于FDG—PET和活检分辨能力和敏感性的限制可能导致CR的假阳性。
For equivocal findings of progression (e.g。 very small and uncertain new lesions; cystic changes or necrosis in existing lesions), treatment may continue until the next scheduled assessment。
由于进展的模糊发现(例如非常小而不确定的新病灶;已有病灶中的囊性和坏死改变等),治疗可持续到下一个评估日程。
If at the next scheduled assessment, progression is confirmed, the date of progression should be the earlier date when progression was suspected。如果在下一个评估时间表中,确认为进展,进展的日期应该是比进展被怀疑的更早的日期。
=======================================================
编译
4。4最佳总疗效的评价
最佳总疗效是指考虑了各种因素后确认的从研究治疗开始到治疗结束的最佳疗效的记录.有时候一种疗效可能直到治疗结束才得以证实,因此实验设计时应该明确:治疗后的评估是否作为决定最佳总疗效的因素。实验设计必须规定被引入的新的治疗在进行治疗之前将怎样对最佳疗效指标起作用。患者的最佳疗效评价将依赖于靶和非靶病灶的发现,也将考虑新的病灶的出现。而且,由于研究本身和实验设计的需要,可能也需要确定的度量值(参照4.6节)。特别是,在非随机实验中,疗效是最重要的终点,PR或CR的确定被认为是“最佳总疗效\"。这将在下面进一步描述。
4。4.1。 时间点疗效
假定在每个实验特定时间点,一种效应评价开始。下页的表1提供了在基线水平有可
测量病灶的患者每个时间点总疗效计算情况的综述
Table 1. 时间点疗效:目标/非目标病灶的患者
目标病灶 非目标病灶 新病灶 总疗效
CR =完全缓解,PR=部分缓解,SD=稳定病灶,PD=进展,NE=不能评价
当患者只有非测量性病灶时,用表2
Table 2。 时间点效应:只有非目标病灶的患者
4。4.2.消失病灶的评估和非测量性指标
如果在所有某一特定时间点,没有影像资料和其他测量指标,那么该患者在该时间点是不可评估的。如果在一次评估中只做了一套病灶的测量,那么通常情况下该时间点也被认为是不可测量的,除非有令人信服的证据证明个人消失的病灶不会改变所指定时间点效应。这将最有可能在进展病灶情况下发生.例如,如果一个患者的基线数是50毫米,有三个可测量病灶,随后只有两个病灶可供评估,但病灶达到了80毫米,我们认为病人处于进展状态,而不考虑其是否有一个病灶消失。
4.4.3。最佳总疗效:所有时间点
最佳总疗效由患者已知的所有数据资料来决定。
在最佳疗效中确认完全或部分缓解的具体时间并不需要的情况:在各个阶段中的最佳
总疗效定义为所有时间点是最好的疗效(例如,病人第一次评估为稳定病灶,第二次评估为部分缓解,最后评估为进展,则最佳总疗效评价为部分缓解)。
当认为稳定病灶是最佳疗效时,它也必须符合从基线记录规定的最低时间.
如果病灶稳定不到规定的最短时间,则不能满足统计处时,其他的最佳时间点反应,病人的最佳疗效取决于随后的评估。例如;病人第一次评估为稳定病灶,第二次为进展,而稳定病灶时间达不到最低要求,则其最佳疗效为进展.同一病人第一次评估稳定病灶后如果不能随访,则被认为不可评估。
在最佳疗效中确认需要完全或部分缓解的具体时间的情况:当满足在随后的时间点(一般4周后)所指明的各个标准要求时,可认为完全或部分缓解。在这种情况下,最佳疗效的解释见表3。
Table 3。
如果在第一时间点为完全缓解,然后在随后的时间点出现疾病,即使疾病相对基准标准出现部分缓解,在这个时间点评估为进展(因为疾病在完全缓解后再发)。
最佳疗效取决于稳定病灶的最低期限是否满足。然而,有时评估为“完全缓解”,在随后的扫描提示小的病灶可能依然存在实际上病人在第一时间点为部分缓解而非完成缓解。这种情况下,原来的“完全缓解\"应该改为“部分缓解”,最佳疗效也应该是部分缓解。
4。4.4。 疗效评估特别说明
当淋巴结病变已被列入目标病灶,以及淋巴结减少到’正常'的大小(<10毫米),它
们在扫描记录仍可有一个测量数据。既使淋巴结已正常这些测量结果仍应该记录,为了不夸大效果应该是以淋巴结变化的大小为依据。正如早先说明的一样,这意味着完全缓解的患者可能在病例报告表中(CRF)没有一个完整的“零点”。在需要确定疗效的实验中,重复的“不可评估\"时间点评估可能使最佳疗效的确定复杂化。该实验的分析计划必须说明丢失的数据/评估信息将怎样被用来决定是有效还是进展。例如,在大多数实验中考虑患者不同时间点疗效,将PR-NE—PR作为一个有效的疗效评价是合理的。整体健康状况恶化没有该时间点疾病进展客观证据而需要中断治疗的患者应报告为“症状性恶化”即使中断治疗后,也应积极证实其客观进展。症状性恶化不是客观疗效的描述,只是一个停止治疗的原因.这样的患者的客观疗效情况应由表1、2、3中显示的靶病灶和非靶病灶的评估来决定。限定“早期进展,早期死亡和不可估计”的条件具研究特殊性,应该在实验计划早期明确作出规定(取决于治疗持续时间,治疗周期)在某些情况下,鉴别残留病灶和正常组织可能很困难。当需要依靠这些结果来评价完全缓解时,建议在下完全缓解的结论前先检查残留病灶(通过细针穿刺活检)。常规影像学认为异常的残留病灶,FDG-PET诊断为纤维化或疤痕,其可能通过这种和活检类似的方式来提高评估效应到CR。 在这种情况下用FDG-PET应该在实验设计中提前描述,同时也应该受疾病特异性相关医学文献报道的适应症的支持。然而,必须了解由于FDG—PET和活检分辨能力和敏感性的限制可能导致CR的假阳性。由于进展的模糊发现(例如非常小而不确定的新病灶;已有病灶中的囊性和坏死改变等),治疗可持续到下一个评估日程。如果在下一个评估时间表中,确认为进展,进展的日期应该是比进展被怀疑的更早的日期。
4。5 肿瘤评价的频次
Frequency of tumour re-evaluation
治疗期间肿瘤再评价的次数应依据研究计划及肿瘤的类型和治疗时程而
定.Frequency of tumour re—evaluation while on treatment should be protocol specific and adapted to the type and schedule of treatment.
但在二期临床试验中,疗效尚为未知数,因此每一个治疗周期约6-8周的随访是合理的.特定情况可调整评价周期的长短。
However, in the context of phase II studies where the beneficial effect of therapy is not known, follow—up every 6–8 weeks (timed to coincide with the end of a cycle) is reasonable.
Smaller or greater time intervals than these could be justified in specific regimens or circumstances。
协议应当具体规定哪些器官一开始即需要进行评价(通常是那些有转移倾向的肿瘤)以及多长时间进行重复评估。
The protocol should specify which organ sites are to be evaluated at baseline (usually those most likely to be involved with metastatic disease for the tumour type under study) and how often evaluations are repeated。
通常在每次评估时对于所有标的和非标的病变均需要进行评价。
Normally, all target and non-target sites are evaluated at each assessment。
在一些情况下非标的器官可减少评估次数。例如,骨扫描仅在需要确认标的病变完全缓解或怀疑有骨转移时才需要重复进行。
In selected circumstances certain non—target organs may be evaluated less frequently。 For example, bone scans may need to be repeated only when complete response is identified in target disease or when progression in bone is suspected.
治疗结束后,肿瘤是否需要再评估取决于研究目标是否要看缓解率或者肿瘤进展/死亡事件发生。
After the end of the treatment, the need for repetitive tumour evaluations depends on whether the trial has as a goal the response rate or the time to an event (progression/death).
若研究目标是事件发生的期间(如进展期、无病生存期、无进展生存期),那么需要根据研究计划进行例行的再评估.
If ‘time to an event’ (e.g. time to progression, disease-free survival, progression—free survival) is the main endpoint of the study, then routine scheduled re—evaluation of protocol specified sites of disease is warranted.
特别是在随机对照试验中,应依据疗程来进行重复评估(如每治疗6-8周或治疗后每3-4个月),且不可因治疗延误、药物假期或任何可打破治疗平衡的事件而延期。
In randomised comparative trials in particular, the scheduled assessments should be performed as identified on a calendar schedule (for example: every 6–8 weeks on treatment or every 3–4 months after treatment) and should not be
affected by delays in therapy, drug holidays or any other events that might lead to imbalance in a treatment arm in the timing of disease assessment
4。5 肿瘤评价的频次
治疗期间肿瘤再评价的次数应依据研究计划及肿瘤的类型和治疗时程而定。但在二期临床试验中,疗效尚为未知数,因此每一个治疗周期约6-8周的随访是合理的。特定情况可调整评价周期的长短。计划应当具体规定哪些器官一开始即需要进行评价(通常是那些有转移倾向的肿瘤)以及多长时间进行重复评估.通常在每次评估时对于所有标的和非标的病变均需要进行评价。在一些情况下非标的器官可减少评估次数。例如,骨扫描仅在需要确认标的病变完全缓解或怀疑有骨转移时才需要重复进行。
治疗结束后,肿瘤是否需要再评估取决于研究目标是否要看缓解率或者肿瘤进展/死亡事件发生.若研究目标是事件发生的期间(如进展期、无病生存期、无进展生存期),那么需要根据研究计划进行例行的再评估。特别是在随机对照试验中,应依据疗程来进行重复评估(如每治疗6-8周或治疗后每3-4个月),且不可因治疗延误、药物假期或任何可打破治疗平衡的事件而延期。特别是在随机对照试验中,应依据疗程来进行重复评估(如每治疗6-8周或治疗后每3-4个月),且不可因治疗延误、药物假期或任何可打破治疗平衡的事件而延期。
4.6. Confirmatory measurement/duration of response 有效期的界定
4.6。1。 Confirmation 确认办法
In non—randomised trials where response is the primary endpoint,
confirmation of PR and CR is required to ensure responses identified are not the result of measurement error。 This will also permit appropriate interpretation of results in the context of historical data where response has traditionally required confirmation in such trials (see the paper by Bogaerts et al. in this Special Issue10)。 However, in all other circumstances, i。e。 in randomised trials (phase II or III) or studies where stable disease or progression are the primary endpoints, confirmation of response is not required since it will not add value to the interpretation of trial results。 However, elimination of the requirement for response confirmation may increase the importance of central review to protect against bias, in particular in studies which are not blinded.
在以疗效为主要终值的非随机化实验中,确认为缓减或痊愈需要鉴别疗效不是测量错误所致,另外,还要求能对某些原来就要求确认的试验历史数据进行合理的解释(关于此专题请见Bogaerts等的文章).然而,在所有其它情况中,比如II期或III期的随机化试验、以稳定或恶化为起始终值的试验中,由于不需给试验结果的解释赋值,故疗效的确认可不必要求。不过取消对疗效确认的要求可能会使预防偏倚的中心思想显得更加重要,尤其在非盲试验中。
In the case of SD, measurements must have met the SD criteria at least once after study entry at a minimum interval (in general not less than 6–8 weeks) that is defined in the study protocol.
例如稳定的测量必须符合稳定的起码评估标准—-一旦实验介入时刚好是按照实验程序中规定的最短间隔期(一般不短于6—8周)
4.6.2。 Duration of overall response 总的疗效期
The duration of overall response is measured from the time measurement criteria are first met for CR/PR (whichever is first recorded) until the first date that recurrent or progressive disease is objectively documented (taking as reference for progressive disease the smallest measurements recorded on study)。
总的疗效期是指从首次符合痊愈或缓减的评估标准日期(首次记录)到复发或恶化客观上确认的第一天(参照试验中记录的恶化最小测量值)
The duration of overall complete response is measured from the time measurement criteria are first met for CR until the first date that recurrent disease is objectively documented。
总的痊愈期是指到从达到痊愈评估标准的日期到客观上确认复发的第一天.
4。6。3。 Duration of stable disease 稳定期
Stable disease is measured from the start of the treatment (in randomised trials, from date of randomisation) until the criteria for progression are met, taking as reference the smallest sum on study (if the baseline sum is the smallest, this is the reference for calculation of PD)。
稳定期是指从治疗开始的日期(在随机化试验中就是随机日期)起到符合恶化评估标准的第一天,参照试验中(病灶半径)和的最小值(若最小值就是临界值,参照缓减的计算)
The clinical relevance of the duration of stable disease varies in different studies and diseases。 If the proportion of patients achieving stable disease for a minimum period of time is an endpoint of importance in a particular trial, the protocol should specify the minimal time interval required between two measurements for determination of stable disease。
稳定期的临床相关性不同试验和不同疾病中变化很大.在特殊的试验中,部分病人达到的若是稳定期的最小值并且还是一个重要的终值,试验程序应该特别指明2种判定稳定的测量方法的最小时间间隔。
Note: The duration of response and stable disease as well as the progression—free survival are influenced by the frequency of follow-up after baseline evaluation。 It is not in the scope of this guideline to define a standard follow—up frequency。 The frequency should take into account many parameters including disease types and stages, treatment periodicity and standard practice. However, these limitations of the precision of the measured endpoint should be taken into account if comparisons between trials are to be made.
注:有效期、稳定期及与恶化无关的存活期会受到基准评估后随访频率的影响。指定标准的随访频率超出了本指南的范围。确定随访频率时要考虑许多参数,如疾病类型、分期、治疗周期和标准操作等.但是,如果试验间进行比较时必须考虑到终值测量精度的这些限制.
编译:
4.6。 有效期的界定
4。6。1. 确认办法
在以疗效为主要终值的非随机化实验中,确认为缓减或痊愈需要鉴别疗效不是测量错误所致,另外,还要求能对某些原来就要求确认的试验历史数据进行合理的解释(关于此专题请见Bogaerts等的文章)。然而,在所有其它情况中,比如II期或III期的随机化试验、以稳定或恶化为起始终值的试验中,由于不需给试验结果的解释赋值,故疗效的确认可不必要求。不过取消对疗效确认的要求可能会使预防偏倚的中心思想显得更加重要,尤其在非盲试验中。
例如稳定的测量必须符合稳定的起码评估标准—-一旦实验介入时刚好是按照实验程序中规定的最短间隔期(一般不短于6-8周)
4。6。2. 总的疗效期
总的疗效期是指从首次符合痊愈或缓减的评估标准日期(首次记录)到复发或恶化客观上确认的第一天(参照试验中记录的恶化最小测量值)
总的痊愈期是指到从达到痊愈评估标准的日期到客观上确认复发的第一天.
4.6。3。 稳定期
稳定期是指从治疗开始的日期(在随机化试验中就是随机日期)起到符合恶化评估标准的第一天,参照试验中(病灶半径)和的最小值(若最小值就是临界值,参照缓减的计算)
稳定期的临床相关性不同试验和不同疾病中变化很大。在特殊的试验中,部分病人达到的若是稳定期的最小值并且还是一个重要的终值,试验程序应该特别指明2种判定稳定的
测量方法的最小时间间隔。
注:有效期、稳定期及与恶化无关的存活期会受到基准评估后随访频率的影响。指定标准的随访频率超出了本指南的范围.确定随访频率时要考虑许多参数,如疾病类型、分期、治疗周期和标准操作等。但是,如果试验间进行比较时必须考虑到终值测量精度的这些限制。
4。7。 Progression-free survival/proportion progression-free 无恶化存活/率
4.7。1. Phase II trials II期试验
This guideline is focused primarily on the use of objective response endpoints for phase II trials. In some circumstances, ‘response rate' may not be the optimal method to assess the potential anticancer activity of new agents/regimens。 In such cases ‘progression—free survival’ (PFS) or the ‘proportion progression-free’ at landmark time points, might be considered appropriate alternatives to provide an initial signal of biologic effect of new agents. It is clear, however, that in an uncontrolled trial, these measures are subject to criticism since an apparently promising observation may be related to biological factors such as patient selection and not the impact of the intervention. Thus, phase II screening trials utilising these endpoints are best designed with a randomised control。 Exceptions may exist where the behaviour patterns of certain cancers are so consistent (and usually consistently poor), that a non—randomised trial is justifiable (see for example van Glabbeke et al。20). However, in these cases it will be essential to document with care the basis for estimating the expected PFS or
proportion progression-free in the absence of a treatment effect.
本指南主要把重点放在运用客观的疗效终值到临床II期试验中。在某些情况下,“缓解率”可能不是评估新药的潜在抗癌活性的最佳方法。比如在界定“无恶化存活”或“无恶化率”的时间点时,可能要考虑其它的替代方法来提供合适的观察新药生物学活性的指标。但是,在一个非受控试验中有一点是清楚的-—这些测量方法必须符合评估标准,因为一个明显有希望的观察指标可能与生物学因素(如病例的选择)有关,同时要与干预的影响无关。这样,使用这些终值的II期筛选试验可以设置理想的随机对照组.也有例外,若存在某些肿瘤的行为模式一致时(通常都很不一致)采用非随机化试验是无可厚非的(见van Glabbeke等的举例[20])。但是,这样的例子中,缺乏疗效时谨慎地声明“无恶化存活”或“恶化无关比率”评价基础是很重要的。
4.7。2。 Phase III trials III期试验
Phase III trials in advanced cancers are increasingly designed to evaluate progression-free survival or time to progression as the primary outcome of interest。 Assessment of progression is relatively straightforward if the protocol requires all patients to have measurable disease. However, restricting entry to this subset of patients is subject to criticism: it may result in a trial where the results are less likely to be generalisable if, in the disease under study, a substantial proportion of patients would be excluded. Moreover, the restriction to entry will slow recruitment to the study.
在进展期肿瘤中进行的III期试验越来越多的用来评估感兴趣的最主要结局-—无恶化存活或恶化时间。如果程序规定所有的病人都为可测量疾病,那么恶化的评估是相当简单
的.但是,限制进入这部分病人要依评估标准而定:(1)如果研究的疾病有一部分重要的病人需排除,可能导致试验的结果不能普遍通用;(2)甚至延长病例收集的时间.
Increasingly, therefore, trials allow entry of both patients with measurable disease as well as those with non-measurable disease only. In this circumstance, care must be taken to explicitly describe the findings which would qualify for progressive disease for those patients without measurable lesions。 Furthermore, in this setting, protocols must indicate if the maximum number of recorded target lesions for those patients with measurable disease may be relaxed from five to three (based on the data found in Bogaerts et al.10 and Moskowitz et al.11). As found in the ‘special notes on assessment of progression', these guidelines offer recommendations for assessment of progression in this setting。
所以,越来越多的试验允许接纳可测量疾病的病人和只有不可测量疾病的病人。此时,必须谨慎而明确的描述无可测量病灶的病人判定为恶化的依据.另外,这样的情况中,如果记录到的这些有可测量疾病病人的目标病灶最大数目可适当从5个放宽到3个(根据Bogaerts[10]和Moskowitz[11]的数据), 则试验程序必须指明。
Furthermore, if available, validated tumour marker measures of progression (as has been proposed for ovarian cancer) may be useful to integrate into the definition of progression. Centralised blinded review of imaging studies or of source imaging reports to verify ‘unequivocal progression’ may be needed if important drug development or drug approval decisions are to be based on the study outcome. Finally, as noted earlier, because the date of progression is subject to ascertainment bias, timing of investigations in study arms should be the same。
The article by Dancey et al. in this special issue21 provides a more detailed discussion of the assessment of progression in randomised trials。
另外,如果可能,有效的肿瘤标志来衡量恶化(卵巢癌中已提出)可能有助于更充分的判定恶化.为核实“明确恶化”对影像学研究或原始成像报告集中盲评在重要药物开发或药物批准决定需要根据此实验结果时可能是需要的。 最后,如前面提到的那样,因为恶化的日期易受评定偏倚的影响,各试验组中的调查计时应该相同。Dancey等的文章有专题[21]提供了随机化试验如何评估恶化的详细讨论。
4。8。 Independent review of response and progression 缓减和恶化的独立评论
For trials where objective response (CR + PR) is the primary endpoint, and in particular where key drug development decisions are based on the observation of a minimum number of responders, it is recommended that all claimed responses be reviewed by an expert independent of the study。 If the study is a randomised trial, ideally reviewers should be blinded to treatment assignment。 Simultaneous review of the patients’ files and radiological images is the best approach.
以客观反应(完全缓减和部分缓减)为初始终值的试验,特别是关键药物开发决策所依据的反应指标的数目最小时,推荐将所有声称的反应给独立于此研究之外的专家进行评论。如果是随机化试验的研究,理想的评审者应该不知道治疗的分组情况,最好能同时给出病人资料及放射影像的评论。
Independent review of progression presents some more complex issues: for example, there are statistical problems with the use of central—review-based
progression time in place of investigator—based progression time due to the potential introduction of informative censoring when the former precedes the latter。 An overview of these factors and other lessons learned from independent review is provided in an article by Ford et al。 in this special issue.22
对(病情)恶化的独立评论提出了一些更复杂的话题:例如,在使用基于集中评审的恶化时间代替基于调查员的恶化时间的问题上,因为当前者先于后者时会潜在的引入一些有益资料的删改,这样会出现一些统计学问题。Ford等的文章[22]有专题对这些因素和一些其它的从独立评论中得来的经验教训进行了综述
编译:
4。7. 无恶化存活/率
4。7。1。 II期试验
本指南主要把重点放在运用客观的疗效终值到临床II期试验中。在某些情况下,“缓解率”可能不是评估新药的潜在抗癌活性的最佳方法。比如在界定“无恶化存活”或“无恶化率\"的时间点时,可能要考虑其它的替代方法来提供合适的观察新药生物学活性的指标。但是,在一个非受控试验中有一点是清楚的——这些测量方法必须符合评估标准,因为一个明显有希望的观察指标可能与生物学因素(如病例的选择)有关,同时要与干预的影响无关。这样,使用这些终值的II期筛选试验可以设置理想的随机对照组。也有例外,若存在某些肿瘤的行为模式一致时(通常都很不一致)采用非随机化试验是无可厚非的(见van Glabbeke等的举例[20]).但是,这样的例子中,缺乏疗效时谨慎地声明“无恶化存活”或“恶化无关比率”评价基础是很重要的。
4.7。2. III期试验
在进展期肿瘤中进行的III期试验越来越多的用来评估感兴趣的最主要结局——无恶化存活或恶化时间。如果程序规定所有的病人都为可测量疾病,那么恶化的评估是相当简单的.但是,限制进入这部分病人要依评估标准而定:(1)如果研究的疾病有一部分重要的病人需排除,可能导致试验的结果不能普遍通用;(2)甚至延长病例收集的时间。
所以,越来越多的试验允许接纳可测量疾病的病人和只有不可测量疾病的病人。此时,必须谨慎而明确的描述无可测量病灶的病人判定为恶化的依据。另外,这样的情况中,如果记录到的这些有可测量疾病病人的目标病灶最大数目可适当从5个放宽到3个(根据Bogaerts[10]和Moskowitz[11]的数据), 则试验程序必须指明.
另外,如果可能,有效的肿瘤标志来衡量恶化(卵巢癌中已提出)可能有助于更充分的判定恶化。为核实“明确恶化”对影像学研究或原始成像报告集中盲评在重要药物开发或药物批准决定需要根据此实验结果时可能是需要的。 最后,如前面提到的那样,因为恶化的日期易受评定偏倚的影响,各试验组中的调查计时应该相同。Dancey等的文章有专题[21]提供了随机化试验如何评估恶化的详细讨论.
4。8。 缓减和恶化的独立评论
以客观反应(完全缓减和部分缓减)为初始终值的试验,特别是关键药物开发决策所依据的反应指标的数目最小时,推荐将所有声称的反应给独立于此研究之外的专家进行评论。如果是随机化试验的研究,理想的评审者应该不知道治疗的分组情况,最好能同时给出病人资料及放射影像的评论。
对(病情)恶化的独立评论引出了一些更复杂的话题:例如,在使用基于集中评审的恶化时间代替基于调查员的恶化时间的问题上,因为当前者先于后者时会潜在的引入一些有益资料的删改,这样会出现一些统计学问题.Ford等的文章[22]有专题对这些因素和一些其它的从独立评论中得来的经验教训进行了综述.
4。9. Reporting best response results
4。9。最佳疗效结果报告
4.9。1。 Phase II trials
4.9。1.Ⅱ期临床试验
When response is the primary endpoint, and thus all patients must have measurable disease to enter the trial, all patients included in the study must be accounted for in the report of the results, even if there are major protocol treatment deviations or if they are not evaluable.
若以疗效为主要终点,则进入临床试验的所有患者必须有可测量病灶,在进行结果报告时,所有受试患者均须包含在内,即使存在主要治疗协议的偏差或者疗效不可评价。
Each patient will be assigned one of the following categories:
患者分为以下各组:
1. Complete response
1。完全缓解
2。 Partial response
2。部分缓解
3。 Stable disease
3.疾病稳定
4. Progression
4.疾病进展
5. Inevaluable for response: specify reasons (for example: early death, malignant disease; early death, toxicity; tumour assessments not repeated/incomplete; other (specify))。
5。疗效不可评价:特定原因(例如:因肿瘤而早期死亡;因毒性早期死亡;肿瘤评估资料不能重复或不完全;其他(特定))
Normally, all eligible patients should be included in the denominator for the calculation of the response rate for phase II trials (in some protocols it will be appropriate to include all treated patients).
正常情况下,Ⅱ期临床试验中,所有符合标准的患者都应包括在有效率分析的人群中
(在一些协议中,应当包括所有接受治疗的患者)。
It is generally preferred that 95% two—sided confidence limits are given for the calculated response rate。
一般首选95%双边可信区间以限定有效率的评估。
Trial conclusions should be based on the response rate for all eligible (or all treated) patients and should not be based on a selected ‘evaluable' subset。
试验结论应基于所有符合标准或所有接受治疗患者的有效率,而不是基于选定可评价的亚组的有效率。
4。9。2。 Phase III trials
4。9.2。Ⅲ期临床试验
Response evaluation in phase III trials may be an indicator of the relative anti-tumour activity of the treatments evaluated and is almost always a secondary endpoint.
Ⅲ期临床试验中,有效率评价可用来作为抗肿瘤治疗相关活性的评估,常常是一个次要终点。
Observed differences in response rate may not predict the clinically relevant therapeutic benefit for the population studied。
有效率上观察到的差异可能并不能预测所研究人群临床相关治疗的获益。
If objective response is selected as a primary endpoint for a phase III study (only in circumstances where a direct relationship between objective tumour response and a clinically relevant therapeutic benefit can be unambiguously demonstrated for the population studied), the same criteria as those applying to phase II trials should be used and all patients entered should have at least one measurable lesion.
如果客观有效率被选择作为一个Ⅲ期临床试验的主要终点时(仅仅是肿瘤客观有效率与临床相关治疗获益在所研究人群有明确关系的情况下),Ⅱ期临床试验中的标准可同样适用,同时所有入组患者须有至少一个可测量病灶。
In those many cases where response is a secondary endpoint and not all trial patients have measurable disease, the method for reporting overall best response rates must be pre-specified in the protocol.
在许多试验中,有效率为次要终点,而且不是所有的入组患者都有可测量病灶,这种情况下,总体最佳有效率的报告方式必须在设计协议中提前说明.
In practice, response rate may be reported using either an ‘intent to treat’ analysis (all randomised patients in the denominator) or an analysis where only the subset of patients with measurable disease at baseline are included。
实际上,有效率可能以一个“意向治疗”分析(所有随机患者均包括在内)来报告,或者
仅以具有基线可测量病灶的亚组人群分析来报告。
The protocol should clearly specify how response results will be reported, including any subset analyses that are planned。
设计协议应明确界定疗效结果如何报告,包括所有计划的亚组.
The original version of RECIST suggested that in phase III trials one could write protocols using a ‘relaxed’ interpretation of the RECIST guidelines (for example, reducing the number of lesions measured) but this should no longer be done since these revised guidelines have been amended in such a way that it is clear how these criteria should be applied for all trials in which anatomical assessment of tumour response or progression are endpoints。
RECIST初始版本使Ⅲ期临床试验的设计者在设计协议时,可能采用一个对RECIST指南的不严格的判读(例如,减少测量病灶的数目)为标准,而这在修订后的指南中将不再可行。指南修订的原则是,明确指南的标准应当适用于所有的临床试验,而这些试验是以解剖学上对肿瘤有效或进展的评估为终点的。
编译:
4.9.最佳疗效结果报告
4.9.1.Ⅱ期临床试验
若以疗效为主要终点,则进入临床试验的所有患者必须有可测量病灶,在进行结果报告
时,所有受试患者均须包含在内,即使存在主要治疗协议的偏差或者疗效不可评价。
患者分为以下各组:
1。完全缓解
2.部分缓解
3。疾病稳定
4。疾病进展
5。疗效不可评价:特定原因(例如:因肿瘤而早期死亡;因毒性早期死亡;肿瘤评估资料不能重复或不完全;其他(特定))
正常情况下,Ⅱ期临床试验中,所有符合标准的患者都应包括在有效率分析的人群中(在一些协议中,应当包括所有接受治疗的患者)。一般首选95%双边可信区间以限定有效率的评估.试验结论应基于所有符合标准或所有接受治疗患者的有效率,而不是基于选定可评价的亚组的有效率.
4.9.2.Ⅲ期临床试验
Ⅲ期临床试验中,有效率评价可用来作为抗肿瘤治疗相关活性的评估,常常是一个次要终点。有效率上观察到的差异可能并不能预测所研究人群临床相关治疗的获益.如果客观有效率被选择作为一个Ⅲ期临床试验的主要终点时(仅仅是肿瘤客观有效率与临床相关治疗获益在所研究人群有明确关系的情况下),Ⅱ期临床试验中的标准可同样适用,同时所有入
组患者须有至少一个可测量病灶。在许多试验中,以有效率为次要终点,而且不是所有的入组患者都有可测量病灶,这种情况下,总体最佳有效率的报告方式必须在设计协议中提前说明.实际上,有效率可能以一个“意向治疗”分析(所有随机患者均包括在内)来报告,或者仅以具有基线可测量病灶的亚组人群分析来报告。设计协议应明确界定疗效结果如何报告,包括所有计划的亚组.RECIST初始版本使Ⅲ期临床试验的设计者在设计协议时,可能采用一个对RECIST指南的不严格的判读(例如,减少测量病灶的数目)为标准,而这在修订后的指南中将不再可行。指南修订的原则是,明确指南的标准应当适用于所有的临床试验,而这些试验是以解剖学上对肿瘤有效或进展的评估为终点的.
新版实体瘤疗效评价标准:修订的RECIST指南(1.1版本)
摘要
背景介绍
临床上评价肿瘤治疗效果最重要的一点就是对肿瘤负荷变化的评估:瘤体皱缩(目标疗效)和病情恶化在临床试验中都是有意义的判断终点。自从2000年RECIST出版以来,许多研究人员、企业团体、行业和政府当局都采纳了这一标准来评价治疗效果.但是,随之涌现出的一些问题导致了本修订版的出版(1。1版)。修正之处(请见各章的专题)源自于对大型数据库(超过6500例患者)、模拟研究以及文献综述的评估。
1。1版RECIST的重要修订之处
主要的修订之处有:病灶数目的判定:为了方便分析,很多小型试验数据库的证据被合并成一个大型数据库。根据该数据库,为判断疗效对肿瘤负荷进行评估所需病灶的总数由原
来的最多10个减至现在的5个(每个器官由最多5个减至2个)。病理性淋巴结的判定现在也合并为:短轴值15mm的淋巴结现在也被认为是可检测和评估的目标病灶。计算肿瘤疗效时,(结节性病灶的)短轴值必须包括在病灶(半径的)总和中。结节皱缩至短轴值<10mm时可以认为是正常的。疗效的确认因为控制限已用作解释数据的合适均值,试验所必需的疗效最初的终点值在现在的随机化研究中已不再必需.病情恶化根据以下几个方面分类:除了原先的定义——目标病灶(半径)的总和增加20%外,若总数很小,为预防过高估计恶化程度,(病灶短轴的)绝对值增加5mm也必须具备。另外,还提供了关于构成不可测量或非目标病灶“明确恶化”的指南-—即初版RECIST指南中容易混淆的地方。最后还有一节专门介绍新损害的检测,包括解释FDG-PET的扫描结果。影像学指南:修订后的RECIST包含了新的影像学附录,内有更新了的病灶最佳解剖学评估的推荐。
下一步工作
工作组在修订RECIST 1.1时考虑到的一个关键问题是:评估肿瘤负荷从一维的解剖学评估修改为三维的解剖学评估或用PET和MRI作出的功能评估是否恰当。目前的结论是缺乏足够的标准或证据放弃对肿瘤负荷的解剖学评估。对此唯一的解释是使用FDG—PET成像作为病情恶化判断的辅助手段。正如最后一章的专题中详细讨论的那样,使用这些最新的、前景诱人的技术需要有相应的临床验证研究。
关键词:疗效评估标准;实体瘤;指南
1 背景
1。1 RECIST标准的历史
评价肿瘤负荷的改变是癌症治疗的临床评价的一个重要特征。肿瘤缩小(客观反应)和疾病进展的时间都是癌症临床试验中的重要端点。为了筛查新的抗肿瘤药物,肿瘤缩小作为II期试验端点被多年研究的证据所支持。这些研究提示对于多种实体肿瘤来说,促使部分病人肿瘤缩小的药物以后都有可能(尽管不完美)被证实可提高病人的总体生存期或在随机Ⅲ期试验中有进入事件评价的其他机会。目前在Ⅱ期筛查试验中评价治疗效果的指标中,客观反应比任何其他生物标记更可靠。而且,在Ⅱ和Ⅲ期药物试验中,进展期疾病中的临床试验正越来越利用疾病进展的时间(无进展生存)作为得出有治疗效果结论的端点,而这些也是建立在肿瘤大小的基础上。
然而这些肿瘤端点、客观反应和疾病进展时间,只有建立在以肿瘤负荷解剖学基础上的广泛接受和容易使用的标准准则上才有价值。1981年世界卫生组织(WHO)首次出版了肿瘤反应标准,主要用于肿瘤反应是主要终点的试验中。WHO标准通过测量病变二维大小并进行合计介绍了肿瘤负荷总体评价的概念,通过评价治疗期间基线的改变而判断治疗的反应。然而,在该标准出版后的十几年中,使用该标准的协作组和制药公司通常对其进行修改以适应新的技术或在原始文献中提出了不清楚的地方,这就导致了试验结果解释的混乱。事实上,各种反应标准的应用导致同一种治疗方法的治疗效果大相径庭。对这些问题的反应是国际工作组于19世纪中期形成,并对反应标准进行了标准化和简化。新的标准,也称为RECIST(实体肿瘤的反应评价标准)于2000年出版。最初的TECIST关键特征包括病变最小大小的确定、对随访病变数目的建议(最多10个;每个器官最大5个)、一维而不是二维的使用、肿瘤负荷的总体评价。这些标准后来被学术团体、协作组和制药工业广泛采用,而该标准的最初端点就是客观反应或疾病进展。另外,当局接受RECIST作为这些评价的合适的标准.
1.2 为什么要更新RECIST?
自从2000年出版RECIST后,许多研究者在前瞻性研究中证实将以二维测量为基础的标准(甚至是三维测量)替换为一维测量的有效性。但也有例外(如间皮瘤),一维测量标准似乎在实体肿瘤Ⅱ期试验中更好。
然而大量问题开始出现需要回答和阐明。如在不影响病人总体预定反应(或试验结束)情况下是否要超过10人才能评估?在随机Ⅲ期试验中,特别当病人没有可测量的病变,而疾病进展,无反应作为主要的端点时,如何应用RECIST?是否或怎样利用新的影像学技术如FDG-PET和MRI?如何评价淋巴结?是否需要确认治疗反应?RECIST在靶向非细胞毒性药物试验中的最大适用范围。RECIST标准的修改包括所有这些问题的更新。
1.3 RECIST1。1版形成过程
RECIST工作组,是由来自于学术研究机构、政府和制药企业的早期药物开发的有经验的临床医生、影像学专家和统计学家组成,他们为RECIST更新定期举行会议,确定对种种变化是否需要做出调整和复习新出现的证据。修订过程中一个最重要的方面是建立一个回顾性的数据库,该数据库的资料来自于工业和学术协作组试验中获得的实体肿瘤相关数据.这个数据库在Jan Bogaerts 和 Patrick Therasse领导下,在EORTC资料中心完成的。该数据库有〉6500病人,病变器官〉18000个,被用来调查各种问题(如需要病变的数量、治疗反应确认的需要性,淋巴结测量规则)对治疗反应和无疾病进展生存期的影响。这项工作的结果是由RECIST工作组做出评价后在修改的指南中发生了较大变动,并且在这个专期中做出了具体报道.Larry Schwartz and Robert Ford(该指南的共同作者)也提供了来自于推理的关键的数据库,这些数据库形成了这项修改.
这个修改指南的出版被认为是及时的,因为它将各种变化进行了简化、完美化,使临床试验的肿瘤负荷的评价标准化.关键的变动鉴于附录Ⅰ。由于基本的评价方法仍然是解剖,
而不是功能上的,因此我们将这个版本命名为RECIST1.1而不是2。0.
1.4 体积或功能评价怎么样?
这就提出了一个问题即是否可以将肿瘤负荷的解剖的一维评价转变为体积评价或功能评价(如动态对比增强MRI或CT或FDG-PET评价肿瘤代谢)。正如大家看到的,工作组特别是那些从事影像学研究者,相信目前还没有完全的标准化和这些推荐的替代评价方法还不能广泛应用。正如指南后面描述的,唯一的例外是FDG-PET作为确定疾病进展的辅助工具。根据此专期的介绍,我们相信这些有希望的新的方法(如RECIST描述中的增加或替代解剖评价)需要适当的和严格的临床评价.Sargent等的文章表明那些将需要确定这些形式的“端点”的资料类型,如何确定这些标准/形式的地点和时间以提高其可靠性,以至于在Ⅱ期筛查试验中通过与RECIST标准比较,确定那些为有活性的新的药物,而哪些不是.RECIST工作组期望明年出现这样的资料,允许在下一版的RECIST标准中做出适当的变动.
2。 该指南的目的
该指南描述了一个实体瘤测量和成人、小儿癌症的临床试验中肿瘤大小变化客观评估的规定的标准做法。预计这些标准将有效用于所有以客观响应为主要的研究终点的试验,以及承担稳定疾病评估、肿瘤进展或进展时间分析的试验,因为所有治疗效果的衡量都是基于研究中解剖学肿瘤负荷及其变化的评估.本文中对于达到相应标准—表明试剂或治疗方案有积极作用的终点—的患者的比例没有任何假设:这些定义依赖于试验中癌症的类型以及正在研究中的特殊试剂。协议必须包括适当的统计学章节,介绍如何以实验样本大小和决策标准为基础来界定疗效参数。除了为肿瘤反应评估提供定义和标准外,这一指南也为以肿瘤反应为终点的试验推荐了标准的研究结果报告。
尽管这些指南可用于恶性脑肿瘤的研究,在这一领域关于响应的评估已有单独的标准出版[13].由于淋巴瘤反应评估的国际准则也已单独出版[14],这一指南不用于恶性淋巴瘤的研究。
最后,许多肿瘤学家在他们日常的临床实践中依靠多次成像研究来跟踪病人的恶性疾病,并在客观和症状双重标准的基础上决定进一步的治疗方案。只有在治疗的肿瘤学专家判断合理时,这些RECIST指南才会在决策中起到重要作用。
3。术前肿瘤检测
3.1 定义
术前,肿瘤病灶/淋巴结将如下分为可测量与不可测量两类:
3。1。1 可测量肿瘤
肿瘤性病变:至少有一个不小于(仪器检测)低限的尺寸(测量仪器上最长的直径将被记录下来)必须准确测量:
• 10毫米用CT扫描( CT扫描层厚度不大于5毫米;见成像指南附录II)。
• 临床检验10毫米用卡尺测量(不能用卡尺准确测量的病变,应记录为不可测量的)。
• 20毫米用胸部X光检查。
恶性淋巴结:当用CT扫描(CT扫描层厚度建议不大于5毫米)来评估时,淋巴结短轴
必须达到15mm才可将其认为是病理扩大和可测量的。术前和后续工作中,只测量并跟踪短轴长度(见特别问题15中施瓦茨等)。还可从“目标与非目标病灶术前文件”下的注解获取淋巴结测量方面的资料。
3。1.2 不可测量的(肿瘤)
其他所有病变,包括小病灶(最长直径小于10毫米或病理淋巴结短轴为10毫米到小于15毫米的)以及真正的不可测病变。视为真正不可测的病变包括:理学检查确定的脑膜疾病、腹水、胸膜或心包积液、炎症乳腺疾病、淋巴管参与的皮肤或肺部、腹部肿块/腹部器官巨大症,这些都是用重现成像技术无法测量的。
3.1。3 病变可测量性的特例
需要特别注意骨病变、囊性病变和之前进行了局部治疗的病变:
骨病变
• 在测量骨病变方面,骨骼扫描、 PET扫瞄或平片被视为不充分的成像技术。但是,这些技术可以用来确认骨病变的存在或消失.
• 如果软组织部分符合上述可测量性定义的话,带有可识别软组织的溶解骨病变或溶解—急性混合病变可以通过CT或MRI等交叉成像技术进行评估时,它们可被视为可测性病变。
• 急性骨病变是不可测量的.
囊性病变:
• 符合X线定义的简单囊肿标准的病变不应视为恶性病变(既非可测量的,也非不可测量的),因为根据其定义,它们是简单的囊肿。
• 被认为囊性转移的“囊性病变”可视为可测量病变,只要是符合上述可测量的定义。但是,如果同一患者体内存在非囊性病变,这些就会被选定为目标病灶。
已经受到局部治疗的病变:
• 位于先前照射区或受到其他局部治疗的部位的肿瘤病灶,通常不被视为可测量的,除非已证明病变仍在继续。研究议定书应详细说明在何种条件下这种病变将被视为可测量的。
3.2. 测量方法规范
3。2.1.病灶的测量
临床评估用测径器(卡尺)测量,所有测量用米制为单位记录。所有基线评估必须尽可能在接近治疗开始前进行,不能早于四周。
3.2.2.测量方法
在评价同一个病灶时,基线和随诊应使用同样的技术和方法.除只能用临床检查评估不适用影像检测外,病灶必须采用影像检测评价,不要单纯采用临床检查。
临床检查病灶:只有在10mm以下的表浅病灶(如皮下小结)考虑使用测径器来进行
临床检测。皮肤表浅病灶建议使用彩色照片记录,照片附上测量病灶大小的比例尺。如前所述,当病灶既可用临床检测也可用影像学检查时,由于影像学更客观并可用于治疗后研究终点的回顾,应该进行影像学检查。
胸部X片:胸片和胸部CT测量病灶,因为CT在发现新病灶等方面比较X片更敏感,优先选用CT扫描,特别在重要的治疗终点时。当然,肺实质中边界清楚的病灶也可使用胸片检测.详见附录二。
CT,MRI:CT是目前用来评估病灶疗效最有效和重复性最好的检测方法。指南定义可测量病灶用CT扫描基于层厚不超过5mm。如附录二所示,当CT层厚超过5mm,可测量病灶最小应是层厚的两倍。MRI在某也情况下也可使用(如全身扫描)。更多关于使用CT和MRI检测实体瘤评估疗效的意见见附录II。
超声检查:超声检查不适用于评估病灶大小,不应用于测量方法.超声检查在两次相邻的观察间不能完全再现,而且结果依赖于检查者,从一次检测到下一次,不能保证相同的技术和测量结果(详见附录二)。如果在研究过程中通过超声发现新的病灶,建议用CT或MRI验证。如果顾虑CT的射线照射,可用MRI代替来检测待检病灶.
内镜、腹腔镜:不建议用这些技术评估实体瘤。不过,他们在用活检证实完全的病理学缓解或确定完全缓解或手术切除后的再发时是有益的。
肿瘤标志:肿瘤标记物不能单独用于评估实体瘤疗效。然而,肿瘤标记物开始高于正常上限时,如果用来判断病人完全缓解,标记物必须标准化。因为肿瘤标志具有疾病特异性,测量技术说明应该标注于对于某一特殊疾病基线检测的记录。关于CA-125变化(在卵巢癌复发)和PSA变化(在前列腺癌复发)的特别指南已经出版,见[16]、[17]、[18].此外,
妇科肿瘤国际组(Intergroup) 制订了CA125用于实体瘤评估的标准,首先试验性用于卵巢癌[19]。
细胞学、组织学:必要时这些技术可用于个别病例来区分部分缓解和完全缓解,(比如在鉴定残存病灶的肿瘤类型时,实例如生殖细胞肿瘤已知残存良性瘤病灶是可以保留的需要区分良、恶性病灶).当已知治疗中渗出液可能发生严重不良后果(如某些紫杉醇类化疗药或血管生成抑制剂),即使可测量肿瘤符合有效或稳定的标准,在治疗过程中出现的以及恶化的任何渗出液都需要考虑用细胞学证实其肿瘤性质,以区分可评价肿瘤的疗效是有效、稳定(无效)还是进展。
4。1-4。2仍未认领翻译。
4。3. 疗效评估标准
本节为目标病灶定义用来确定实体瘤疗效的标准。
4.3。1. 目标病灶的疗效评价
治愈
所有目标病灶消失,任何病理性淋巴结(无论是否为目标病灶)的短轴值必须〈10 mm
缓减
以临界半径的总和为参照,所有目标病灶半径的总和至少减小30%,
恶化
以所研究(目标病灶半径)的总和最小值为参照(包括最小值等于临界值的情况),所有目标病灶半径的总和至少增加20%,另外,半径总和增加的绝对值还必须大于5mm(注:出现新的病灶也可认为是恶化)
稳定
以所研究(目标病灶半径)的总和最小值为参照,既达不到缓减标准、也达不到恶化标准者。
4。3。2。 目标病灶疗效评价的注意事项
淋巴结
若目标病灶为淋巴结时需经常测量并记录其实际的短轴值(作为基准检测时必须测量同一条长径),尽管所研究的淋巴结消退至10mm以下.这意味着当目标病灶为淋巴结时,目标病灶半径的和不会是0,即使达到了治愈的标准,因为短轴值<10mm的淋巴结被定义为正常淋巴结。病例报告表或其它资料收集方法可能在设计时需单独记录结节性目标病灶以判断是否治愈,因为每个结节都必须达到短轴值〈10mm。而在判断缓减、稳定和恶化时,结节的实际短轴值将包括在目标病灶(半径)的总和中。
太小而不能测量的目标病灶
研究中以临界值记录的所有病灶(结节性的和非结节性的)都必须在随后的评估中记录它们的实际测量值,尽管很小很小(如2mm)。但是,有时候病灶或淋巴结以临界值记录时
因为在CT扫描时信号太弱,放射科医生可能不太乐意给出一个精确的测量值,而是报告为“太小而不能测量”.
出现这种情况时在病例报告表中记下一个测量值是很重要的。如果放射科医生认为病灶可能会消失,测量值可记为0mm。如果病灶确实存在而信号又太弱,可记录为默认值5mm(这条规则不太适合淋巴结,因为正常淋巴结的大小有一个明确的值且经常被脂肪组织包裹,如腹膜后腔的淋巴结;但是,若淋巴结确实存在但信号又太弱而不好测量时,同样可记录为默认值5mm)。
默认值5mm来源于CT扫描断层的厚度(若此厚度有改变,默认值5mm还是不宜改变)。这种(太小而不能测量)病灶的测量值可能缺乏重复性,给出一个默认值可防止测量错误时评估为假治愈或假恶化。再次强调的是,如果放射科医生能给出一个实际测量值,哪怕是小于5mm,也应该记录下来。
治疗中发生崩裂或融合的病灶
按照附录II的注释,当非结节性病灶“碎裂”时,所有碎片的最长半径必须加在一起用来计算病灶(半径)的总和.同样,当病灶融合时,它们之间的长径可被保留,这样有助于获得合并前各病灶的最大半径值。如果病灶完全融合而不再彼此分离,这种情况下半径最长者的测量值就是融合病灶的半径值。
4。3.3。 非目标病灶的评估
本节为非目标病灶组定义用来确定肿瘤疗效的标准.当某些非目标病灶事实上可测量时,在实验程序的特殊时间点可不需测量而只需定性。
治愈
所有非目标病灶消失且肿瘤标记物的水平正常化。所有淋巴结在大小上必需是非病理性的(即短轴值小于10mm)
非治愈/非恶化
有一个或多个非目标病灶持续存在,和/或 肿瘤标志物维持在正常水平以上。
恶化
存在非目标病灶的明确恶化,请见下面的评论.(注:出现一个或多个新病灶也被认为是恶化)
4.3.4. 判断非目标疾病恶化时的注意事项
非目标疾病恶化的概念——补充如下:
当病人还有可测量的疾病时
此时,要根据非目标疾病来判断是否达到“明确恶化\"的标准,还需非目标疾病实质性恶化的总水平(即使目标疾病被判断为稳定或缓减)。这样,总的肿瘤负荷增加到需中断治疗(请见附录II中的实例和下面的进一步讨论)。一个或多个非目标病灶在体积上稍微增加一般不足以达到“明确恶化”,当目标疾病评定为稳定或缓减时单独根据非目标疾病的变化就判定为总体恶化的情况是极其罕见的。
当病人只有不可测量疾病时
这样的情况发生于某些III期临床试验中所研究的疾病不适合测量,前面也已经提到了这一概念,但是在这一情况下没有可测量疾病的评估值可分解以解释不可测量疾病的负荷增加。因为当非目标疾病的恶化很难定量(根据定义:假设所有的病灶确确实实都是不可测量的)时,要判定病人为明确恶化需考虑不可测量疾病的变化导致疾病总负荷的增加量是否在强度方面与可测量疾病判定为恶化所需的增加量具有可比性,比如(不可测量病灶)体积增加73%导致肿瘤负荷的增加量相当于可测量病灶半径增加20%所导致的肿瘤负荷增加量。同样的例子还包括胸腔积液从“少量\"到“大量”,淋巴管病从局限到播散,或者在实验记录中被描述为“需调整治疗方案”。某些例子的解释请见附录II的图-5和图-6.若“明确恶化\"很明显时,病人可评定为总体恶化。不要期望不可测量疾病有适用的客观评估标准,因为正是这一疾病的本质使其不可能,所以增加量必须是实质性的。
4。3。5. 新病灶
新的恶性病灶的出现意味着病情的恶化,所以讨论一下新病灶的检测是非常重要的。因为没有专门的标准来鉴定X光片上的新病灶,所以新病灶的指征必须非常明确,比如不能怀疑为扫描技术的差异、显像模式的变化或倾向于是非肿瘤的(如某些“新的\"骨损害灶可能仅仅是先前就存在的病灶在愈合或突现)。这一点在当病人的临界性病灶表现为缓减或治愈时尤其重要。例如:肝脏病灶的坏死可能被CT扫描报告为“新的囊性病灶”,实际上不是。
在基准扫描中未检出病灶的解剖学位置若在随访研究中检出了病灶可以认为是新的病灶并意味着病情恶化。这样的例子可见于有临界性内脏疾病的病人需在研究中做脑部CT或MRI以发现转移灶的情况。此病人的脑部转移灶可认为是恶化的证据,不管他/她以前有
没有在基准测试中做脑部成像。
如果新病灶很难鉴定,例如太小,但它确实代表了新的疾病,则需要在后面的治疗和随访评估中分类.如果跟最初的扫描数据比较,重复扫描证实是一个明确的新病灶,那么应该判定为恶化。
当FDG-PET评估疗效需额外的研究时,判断恶化将FDG—PET扫描结合互补CT扫描有时候是很有道理的(特别是“新”疾病可能性比较大时)。基于FDG-PET成像来判定为新病灶可根据下面的算法:
a. 基准测试中FDG—PET阴性,随访研究中FDG-PET阳性——因为有新病灶可判定为恶化。
b。 基准测试中没有做FDG—PET,但随访研究中FDG-PET阳性。
若随访研究中FDG—PET阳性的病灶可以被CT证实,可判定为恶化。
若随访研究中FDG—PET阳性的病灶不可以被CT证实,那么需要在随访研究的下一次CT扫描来决定是否是真正的恶化(如此,FDG—PET扫描发现异常的时间就是判定为恶化的时间)
若随访研究中FDG—PET阳性的病灶是CT发现的已经存在的病灶且根据解剖学成像没有恶化,那么就不是恶化。
4.4最佳总疗效的评价
最佳总疗效是指考虑了各种因素后确认的从研究治疗开始到治疗结束的最佳疗效的记录.有时候一种疗效可能直到治疗结束才得以证实,因此实验设计时应该明确:治疗后的评估是否作为决定最佳总疗效的因素。实验设计必须规定被引入的新的治疗在进行治疗之前将怎样对最佳疗效指标起作用.患者的最佳疗效评价将依赖于靶和非靶病灶的发现,也将考虑新的病灶的出现。而且,由于研究本身和实验设计的需要,可能也需要确定的度量值(参照4.6节)。特别是,在非随机实验中,疗效是最重要的终点,PR或CR的确定被认为是“最佳总疗效”。这将在下面进一步描述。
4.4。1. 时间点疗效
假定在每个实验特定时间点,一种效应评价开始。下页的表1提供了在基线水平有可测量病灶的患者每个时间点总疗效计算情况的综述
Table 1. 时间点疗效:目标/非目标病灶的患者
目标病灶 非目标病灶 新病灶 总疗效
CR =完全缓解,PR=部分缓解,SD=稳定病灶,PD=进展,NE=不能评价
当患者只有非测量性病灶时,用表2
Table 2。 时间点效应:只有非目标病灶的患者
4.4。2。消失病灶的评估和非测量性指标
如果在所有某一特定时间点,没有影像资料和其他测量指标,那么该患者在该时间点是
不可评估的。如果在一次评估中只做了一套病灶的测量,那么通常情况下该时间点也被认为是不可测量的,除非有令人信服的证据证明个人消失的病灶不会改变所指定时间点效应。这将最有可能在进展病灶情况下发生。例如,如果一个患者的基线数是50毫米,有三个可测量病灶,随后只有两个病灶可供评估,但病灶达到了80毫米,我们认为病人处于进展状态,而不考虑其是否有一个病灶消失。
4.4。3.最佳总疗效:所有时间点
最佳总疗效由患者已知的所有数据资料来决定。
在最佳疗效中确认完全或部分缓解的具体时间并不需要的情况:在各个阶段中的最佳总疗效定义为所有时间点是最好的疗效(例如,病人第一次评估为稳定病灶,第二次评估为部分缓解,最后评估为进展,则最佳总疗效评价为部分缓解).
当认为稳定病灶是最佳疗效时,它也必须符合从基线记录规定的最低时间.
如果病灶稳定不到规定的最短时间,则不能满足统计处时,其他的最佳时间点反应,病人的最佳疗效取决于随后的评估。例如;病人第一次评估为稳定病灶,第二次为进展,而稳定病灶时间达不到最低要求,则其最佳疗效为进展.同一病人第一次评估稳定病灶后如果不能随访,则被认为不可评估.
在最佳疗效中确认需要完全或部分缓解的具体时间的情况:当满足在随后的时间点(一般4周后)所指明的各个标准要求时,可认为完全或部分缓解。在这种情况下,最佳疗效的解释见表3。
Table 3。
如果在第一时间点为完全缓解,然后在随后的时间点出现疾病,即使疾病相对基准标准出现部分缓解,在这个时间点评估为进展(因为疾病在完全缓解后再发)。
最佳疗效取决于稳定病灶的最低期限是否满足。然而,有时评估为“完全缓解”,在随后的扫描提示小的病灶可能依然存在实际上病人在第一时间点为部分缓解而非完成缓解。这种情况下,原来的“完全缓解\"应该改为“部分缓解”,最佳疗效也应该是部分缓解。
4。4.4。 疗效评估特别说明
当淋巴结病变已被列入目标病灶,以及淋巴结减少到'正常’的大小(<10毫米),它们在扫描记录仍可有一个测量数据。既使淋巴结已正常这些测量结果仍应该记录,为了不夸大效果应该是以淋巴结变化的大小为依据。正如早先说明的一样,这意味着完全缓解的患者可能在病例报告表中(CRF)没有一个完整的“零点\"。在需要确定疗效的实验中,重复的“不可评估”时间点评估可能使最佳疗效的确定复杂化。该实验的分析计划必须说明丢失的数据/评估信息将怎样被用来决定是有效还是进展。例如,在大多数实验中考虑患者不同时间点疗效,将PR-NE—PR作为一个有效的疗效评价是合理的。整体健康状况恶化没有该时间点疾病进展客观证据而需要中断治疗的患者应报告为“症状性恶化”即使中断治疗后,也应积极证实其客观进展.症状性恶化不是客观疗效的描述,只是一个停止治疗的原因。这样的患者的客观疗效情况应由表1、2、3中显示的靶病灶和非靶病灶的评估来决定。限定“早期进展,早期死亡和不可估计”的条件具研究特殊性,应该在实验计划早期明确作出规定(取决于治疗持续时间,治疗周期)在某些情况下,鉴别残留病灶和正常组织可能很困难。当需要依靠这些结果来评价完全缓解时,建议在下完全缓解的结论前先检查残留病灶(通过细针穿刺活检).常规影像学认为异常的残留病灶,FDG—PET诊断为纤维化或疤
痕,其可能通过这种和活检类似的方式来提高评估效应到CR。 在这种情况下用FDG-PET应该在实验设计中提前描述,同时也应该受疾病特异性相关医学文献报道的适应症的支持。然而,必须了解由于FDG—PET和活检分辨能力和敏感性的限制可能导致CR的假阳性。由于进展的模糊发现(例如非常小而不确定的新病灶;已有病灶中的囊性和坏死改变等),治疗可持续到下一个评估日程。如果在下一个评估时间表中,确认为进展,进展的日期应该是比进展被怀疑的更早的日期。
4.5 肿瘤评价的频次
治疗期间肿瘤再评价的次数应依据研究计划及肿瘤的类型和治疗时程而定。但在二期临床试验中,疗效尚为未知数,因此每一个治疗周期约6-8周的随访是合理的.特定情况可调整评价周期的长短。计划应当具体规定哪些器官一开始即需要进行评价(通常是那些有转移倾向的肿瘤)以及多长时间进行重复评估.通常在每次评估时对于所有标的和非标的病变均需要进行评价.在一些情况下非标的器官可减少评估次数。例如,骨扫描仅在需要确认标的病变完全缓解或怀疑有骨转移时才需要重复进行.
治疗结束后,肿瘤是否需要再评估取决于研究目标是否要看缓解率或者肿瘤进展/死亡事件发生。若研究目标是事件发生的期间(如进展期、无病生存期、无进展生存期),那么需要根据研究计划进行例行的再评估。特别是在随机对照试验中,应依据疗程来进行重复评估(如每治疗6-8周或治疗后每3-4个月),且不可因治疗延误、药物假期或任何可打破治疗平衡的事件而延期.特别是在随机对照试验中,应依据疗程来进行重复评估(如每治疗6-8周或治疗后每3-4个月),且不可因治疗延误、药物假期或任何可打破治疗平衡的事件而延期。
4.6. 有效期的界定
4。6.1. 确认办法
在以疗效为主要终值的非随机化实验中,确认为缓减或痊愈需要鉴别疗效不是测量错误所致,另外,还要求能对某些原来就要求确认的试验历史数据进行合理的解释(关于此专题请见Bogaerts等的文章)。然而,在所有其它情况中,比如II期或III期的随机化试验、以稳定或恶化为起始终值的试验中,由于不需给试验结果的解释赋值,故疗效的确认可不必要求.不过取消对疗效确认的要求可能会使预防偏倚的中心思想显得更加重要,尤其在非盲试验中。
例如稳定的测量必须符合稳定的起码评估标准——一旦实验介入时刚好是按照实验程序中规定的最短间隔期(一般不短于6—8周)
4.6.2。 总的疗效期
总的疗效期是指从首次符合痊愈或缓减的评估标准日期(首次记录)到复发或恶化客观上确认的第一天(参照试验中记录的恶化最小测量值)
总的痊愈期是指到从达到痊愈评估标准的日期到客观上确认复发的第一天。
4.6。3. 稳定期
稳定期是指从治疗开始的日期(在随机化试验中就是随机日期)起到符合恶化评估标准的第一天,参照试验中(病灶半径)和的最小值(若最小值就是临界值,参照缓减的计算)
稳定期的临床相关性不同试验和不同疾病中变化很大。在特殊的试验中,部分病人达到的若是稳定期的最小值并且还是一个重要的终值,试验程序应该特别指明2种判定稳定
的测量方法的最小时间间隔。
注:有效期、稳定期及与恶化无关的存活期会受到基准评估后随访频率的影响。指定标准的随访频率超出了本指南的范围。确定随访频率时要考虑许多参数,如疾病类型、分期、治疗周期和标准操作等。但是,如果试验间进行比较时必须考虑到终值测量精度的这些限制.
4。7。 无恶化存活/率
4.7.1。 II期试验
本指南主要把重点放在运用客观的疗效终值到临床II期试验中。在某些情况下,“缓解率\"可能不是评估新药的潜在抗癌活性的最佳方法。比如在界定“无恶化存活\"或“无恶化率”的时间点时,可能要考虑其它的替代方法来提供合适的观察新药生物学活性的指标。但是,在一个非受控试验中有一点是清楚的——这些测量方法必须符合评估标准,因为一个明显有希望的观察指标可能与生物学因素(如病例的选择)有关,同时要与干预的影响无关。这样,使用这些终值的II期筛选试验可以设置理想的随机对照组。也有例外,若存在某些肿瘤的行为模式一致时(通常都很不一致)采用非随机化试验是无可厚非的(见van Glabbeke等的举例[20]).但是,这样的例子中,缺乏疗效时谨慎地声明“无恶化存活”或“恶化无关比率”评价基础是很重要的。
4.7.2。 III期试验
在进展期肿瘤中进行的III期试验越来越多的用来评估感兴趣的最主要结局——无恶化存活或恶化时间。如果程序规定所有的病人都为可测量疾病,那么恶化的评估是相当简
单的.但是,限制进入这部分病人要依评估标准而定:(1)如果研究的疾病有一部分重要的病人需排除,可能导致试验的结果不能普遍通用;(2)甚至延长病例收集的时间.
所以,越来越多的试验允许接纳可测量疾病的病人和只有不可测量疾病的病人。此时,必须谨慎而明确的描述无可测量病灶的病人判定为恶化的依据。另外,这样的情况中,如果记录到的这些有可测量疾病病人的目标病灶最大数目可适当从5个放宽到3个(根据Bogaerts[10]和Moskowitz[11]的数据), 则试验程序必须指明。
另外,如果可能,有效的肿瘤标志来衡量恶化(卵巢癌中已提出)可能有助于更充分的判定恶化。为核实“明确恶化”对影像学研究或原始成像报告集中盲评在重要药物开发或药物批准决定需要根据此实验结果时可能是需要的. 最后,如前面提到的那样,因为恶化的日期易受评定偏倚的影响,各试验组中的调查计时应该相同。Dancey等的文章有专题[21]提供了随机化试验如何评估恶化的详细讨论。
4。8。 缓减和恶化的独立评论
以客观反应(完全缓减和部分缓减)为初始终值的试验,特别是关键药物开发决策所依据的反应指标的数目最小时,推荐将所有声称的反应给独立于此研究之外的专家进行评论。如果是随机化试验的研究,理想的评审者应该不知道治疗的分组情况,最好能同时给出病人资料及放射影像的评论。
对(病情)恶化的独立评论引出了一些更复杂的话题:例如,在使用基于集中评审的恶化时间代替基于调查员的恶化时间的问题上,因为当前者先于后者时会潜在的引入一些有益资料的删改,这样会出现一些统计学问题.Ford等的文章[22]有专题对这些因素和一些其它的从独立评论中得来的经验教训进行了综述。
4。9。最佳疗效结果报告
4。9。1。Ⅱ期临床试验
若以疗效为主要终点,则进入临床试验的所有患者必须有可测量病灶,在进行结果报告时,所有受试患者均须包含在内,即使存在主要治疗协议的偏差或者疗效不可评价.
患者分为以下各组:
1.完全缓解
2.部分缓解
3.疾病稳定
4.疾病进展
5。疗效不可评价:特定原因(例如:因肿瘤而早期死亡;因毒性早期死亡;肿瘤评估资料不能重复或不完全;其他(特定))
正常情况下,Ⅱ期临床试验中,所有符合标准的患者都应包括在有效率分析的人群中(在一些协议中,应当包括所有接受治疗的患者)。一般首选95%双边可信区间以限定有效率的评估.试验结论应基于所有符合标准或所有接受治疗患者的有效率,而不是基于选定可评价的亚组的有效率。
4。9.2。Ⅲ期临床试验
Ⅲ期临床试验中,有效率评价可用来作为抗肿瘤治疗相关活性的评估,常常是一个次要终点。有效率上观察到的差异可能并不能预测所研究人群临床相关治疗的获益。如果客观有效率被选择作为一个Ⅲ期临床试验的主要终点时(仅仅是肿瘤客观有效率与临床相关治疗获益在所研究人群有明确关系的情况下),Ⅱ期临床试验中的标准可同样适用,同时所有入组患者须有至少一个可测量病灶.在许多试验中,以有效率为次要终点,而且不是所有的入组患者都有可测量病灶,这种情况下,总体最佳有效率的报告方式必须在设计协议中提前说明。实际上,有效率可能以一个“意向治疗”分析(所有随机患者均包括在内)来报告,或者仅以具有基线可测量病灶的亚组人群分析来报告。设计协议应明确界定疗效结果如何报告,包括所有计划的亚组.RECIST初始版本使Ⅲ期临床试验的设计者在设计协议时,可能采用一个对RECIST指南的不严格的判读(例如,减少测量病灶的数目)为标准,而这在修订后的指南中将不再可行。指南修订的原则是,明确指南的标准应当适用于所有的临床试验,而这些试验是以解剖学上对肿瘤有效或进展的评估为终点的。
因篇幅问题不能全部显示,请点此查看更多更全内容