Em formação

Como os procariotos podem reparar quebras de fita dupla por recombinação homóloga se eles são haploides?

Como os procariotos podem reparar quebras de fita dupla por recombinação homóloga se eles são haploides?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

O título diz tudo, devo estar ficando louco.


Várias respostas para esta pergunta:

  1. Na maior parte do tempo, o que as bactérias estão fazendo para reparar DSBs é, na verdade, uma junção de extremidade não homóloga, que não requer homologia estrita. Este é o mecanismo mais provável no início do ciclo celular, quando é mais provável que o número de cópias seja ~ 1.

  2. Se as células completaram a replicação do DNA (mais tarde no ciclo celular), existem pelo menos 2 cópias de todos os DNAs presentes na célula. Estes podem ser usados ​​para recombinação homóloga.

  3. O número de cópias do cromossomo bacteriano pode ser superreplicado em algumas situações, de modo que a replicação do DNA não é sincronizada com o ciclo celular e é mais que o normal para uma célula. Nessas situações, o número da cópia pode ser> 2.


Como os procariotos podem reparar quebras de fita dupla por recombinação homóloga se eles são haploides? - Biologia

A edição de genoma direcionada é uma tecnologia em evolução contínua que emprega nucleases programáveis ​​para alterar, inserir ou remover especificamente uma sequência genômica de interesse. Essas ferramentas moleculares avançadas incluem meganucleases, nucleases de dedo de zinco, nucleases efetoras semelhantes a ativadores de transcrição e nucleases projetadas guiadas por RNA (RGENs), que criam quebras de fita dupla em locais alvo específicos no genoma e reparam DNA por recombinação homóloga no presença de DNA doador ou através da o mecanismo de junção de extremidade não homólogo sujeito a erros. Um grupo recentemente descoberto de RGENs conhecido como sistemas de edição de genes CRISPR / Cas9 permitiu a manipulação precisa do genoma, revelando uma associação causal entre o genótipo da doença e o fenótipo, sem a necessidade de reengenharia da enzima específica ao direcionar diferentes sequências. CRISPR / Cas9 foi empregado com sucesso como um ex vivo ferramenta de edição de genes em células-tronco embrionárias e células-tronco derivadas de pacientes para compreender o desenvolvimento e função das células beta pancreáticas. As nucleases guiadas por RNA também abrem caminho para a geração de novos modelos animais para diabetes e permitem testar a eficiência de várias abordagens terapêuticas no diabetes, conforme resumido e exemplificado neste manuscrito.

Dica principal: Nesta revisão, a nuclease CRISPR / Cas9 é implantada na geração de modelos celulares e animais de diabetes, que são adequados para o teste da eficácia do tratamento de novas abordagens de terapia gênica da insulina.

  • Citação: Eksi YE, Sanlioglu AD, Akkaya B, Ozturk BE, Sanlioglu S. Engenharia de genoma e modelagem de doenças através da nucleases programáveis ​​para as promessas de terapia gênica da insulina da tecnologia CRISPR / Cas9. World J Stem Cells 2021 13(6): 485-502
  • URL:https://www.wjgnet.com/1948-0210/full/v13/i6/485.htm
  • DOI:https://dx.doi.org/10.4252/wjsc.v13.i6.485

Estima-se que cerca de 25.000 genes codificadores de proteínas e 25.000 genes não codificadores, totalizando até 50.000 genes, existem em um metro de DNA linear no genoma humano [1]. Nos últimos anos, decodificar a função de genes individuais se tornou o principal objetivo da pesquisa do genoma humano. Foi necessária uma análise genética abrangente para divulgar as correlações entre as variantes genéticas e as doenças humanas. O desenvolvimento de drogas terapêuticas eficazes contra doenças genéticas humanas depende da compreensão da função dos genes. Embora a conexão entre alterações genéticas e doenças humanas seja conhecida há anos, as mutações que causam o surgimento de alguns fenótipos de doenças só podem ser tratadas por modificação genética [2,3]. Devido à complexidade do genoma humano, a modificação da informação genética representou um desafio que requer ferramentas moleculares tecnologicamente avançadas [4,5]. Além disso, a entrega eficiente e segura dessas ferramentas de engenharia de genoma para tecidos-alvo de interesse continua a ser uma preocupação para a aplicação clínica dessas tecnologias [6].

A ideia de modificação do genoma foi introduzida pela primeira vez por Rudin e Haber [7] em 1988, onde eles relataram o reparo eficiente de quebras cromossômicas desencadeadas por enzimas de endonuclease de comutação homotálica em Saccharomyces cerevisiae (S. cerevisiae) por recombinação homóloga (HR). Eles demonstraram que a eficiência do direcionamento de genes é aumentada através da a criação de quebras de DNA de fita dupla (DSBs) em leveduras [7]. Além disso, a importância da HR no reparo de DSBs foi demonstrada pela primeira vez em células de mamíferos pelo grupo de pesquisa de Jasin [8]. Anteriormente, pensava-se que os DSBs cromossômicos letais em células de mamíferos eram reparados por um mecanismo que não requer homologia com o local da quebra. Este foi um contraste bastante com S. cerevisiae onde a principal via de reparo DSB é HR. Para determinar se as células de mamíferos usaram o reparo recombinacional em um nível notável, os locais de clivagem de DNA para a endonuclease I-SceI de corte raro de S. cerevisiae foram integrados no genoma de mamíferos (camundongos). Assim, DSBs específicos podem ser introduzidos no genoma do camundongo nos locais de clivagem da enzima através da um sistema de expressão para o I-SceI. O uso de um DNA homólogo resultou na modificação genética direcionada de células de mamíferos principalmente por HR ou em menor grau através da mecanismo de junção de extremidade não homóloga (NHEJ) sujeito a erros. Esses dois estudos não apenas demonstraram a importância do HR no reparo de DSBs em células de mamíferos, mas também estabeleceram as bases para a modificação do genoma direcionada. No entanto, é realmente um desafio reprogramar as longas regiões de reconhecimento de ligação ao DNA das meganucleases para modificação genômica. Neste ponto, a edição do genoma através da nucleases programáveis ​​constituem uma abordagem alternativa muito eficiente para modificar qualquer região desejada no genoma.

Direcionamento de genes através da HR não é prática em células eucarióticas superiores devido à baixa eficiência, dificultando seu uso rotineiro. Por outro lado, nucleases programáveis ​​que geram DSBs específicos do local aumentaram a eficiência de HR em pelo menos 100 vezes e / ou ativaram o mecanismo NHEJ propenso a erros [9]. Seguindo abordagens de edição de genoma através da nucleases de dedo de zinco (ZFNs) que permaneceram como a opção de modificação primária para os pesquisadores por um tempo, nucleases efetoras semelhantes a ativadores de transcrição (TALENs) foram desenvolvidas como novas ferramentas para edição de genoma, seguido pelo desenvolvimento de uma nova classe de nucleases de edição de genoma denominadas nucleases projetadas guiadas por RNA (RGENs). RGENs que exibiram sua especificidade através da pequenos RNAs de guia trouxeram entusiasmo ao campo por serem mais fáceis de modificar os sistemas de nuclease direcionados. Embora cada nuclease programável tenha suas propriedades exclusivas, todas elas clivam o DNA nuclear em locais-alvo específicos como um mecanismo de ação semelhante, ativando sistemas de reparo de DNA endógeno que levam à modificação do genoma direcionado. Nesta revisão, gostaríamos de primeiro descrever as características gerais das nucleases programáveis, em seguida, focar especificamente em RGENs para modificação do genoma.

No início de 1990, um bioquímico chamado Srinivasan Chandrasegaran da Universidade Johns Hopkins especulou e mostrou que a enzima de restrição Fok1 do tipo IIS tinha dois domínios de proteína separados, ou seja, o domínio de ligação ao DNA e o domínio que exercia a atividade de endonuclease, que podiam ser separados uns dos outros com o auxílio de uma protease, sem perder função [10]. Isso abriu o caminho para a ideia de combinar o local da nuclease Fok1 com domínios de ligação ao DNA de outras proteínas para criar nucleases específicas de sequência, como na geração de ZFNs pela ligação da endonuclease Fok1 às proteínas dedo de zinco [11]. Inspirado no trabalho de Chandra segaran, Bibikova et al[12] na Universidade de Utah teve sucesso em na Vivo edição do genoma pela primeira vez em um organismo vivo, gerando Drosófila mutantes por clivagem direcionada usando ZFNs. Embora os ZFNs usem o domínio de clivagem não específico da endonuclease de restrição tipo II FokI como o domínio de clivagem, a dimerização dos domínios FokI é necessária para a clivagem que necessita de um par de ZFNs direcionados a sítios de DNA não palindrômicos (Figura 1) [13]. Além disso, a evolução direcionada foi usada para produzir uma cepa FokI com atividade de clivagem aprimorada [14]. A especificidade de clivagem de FokI também foi aumentada pela modificação da interface de dimerização usando um projeto baseado em estrutura [15].

ZFNs são muito úteis para manipular os genomas de plantas, animais e humanos. Eles foram usados ​​com sucesso para corrigir alelos causadores de doenças em distúrbios de repetição de tripletos, que estão presentes em mais de uma dúzia de distúrbios neurológicos hereditários, incluindo, mas não se limitando à doença de Huntington, distrofia miotônica e várias ataxias espinocerebelares [16]. A entrega direcionada dos genes terapêuticos a um locus cromossômico pré-selecionado pode ser alcançada usando plasmídeos que codificam ZFNs através da a geração de DSBs em um gene específico em células humanas. Isso evitaria todas as complicações associadas à entrega viral de genes terapêuticos [17]. Além disso, as células-tronco dos pacientes podem ser modificadas usando ZFNs ex vivo após expandi-las em cultura, as células-tronco geneticamente modificadas podem ser colocadas de volta no paciente para gerar células diferenciadas com funções corrigidas [18].

Infelizmente, muitos ZFNs demonstraram possuir efeitos citotóxicos devido a DSBs fora do alvo [19]. A atividade de clivagem fora do alvo de ZFNs é relatada quando os domínios de dedo de zinco não são específicos o suficiente para seu local de destino ou carregam homologia com outros locais indesejados. A geração de quantidades excessivas de DSBs pode sobrecarregar a maquinaria de reparo, levando à integração aleatória do DNA do doador e eventual morte celular. Para diminuir a clivagem fora do alvo de ZFNs de 3 dedos que têm como alvo dois locais adjacentes de 9 pares de bases, o uso de ZFNs com 4, 5 ou 6 dedos de zinco visando locais mais longos e raros é sugerido [20,21]. Curiosamente, a competição entre as vias de reparo de HR e NHEJ representa uma desvantagem para modificações genéticas mediadas por ZFN. A inativação da atividade catalítica de um monômero de ZFN no dímero de ZFN resulta na geração de nickases de dedo de zinco (ZFNickases) que mostraram fornecer um viés para a modificação do gene mediada por HR [22]. As ZFNickases possuem um espectro reduzido de alterações fora do alvo devido à redução nos reparos de NHEJ. Infelizmente, a aplicação de ZFNs para manipular genes endógenos tem sido um trabalho desafiador devido à dificuldade em gerar domínios de dedo de zinco que visam a sequência escolhida com especificidade de sequência suficiente.

A solução para o problema de citotoxicidade de ZFNs veio em 2009 de fatores de transcrição de ocorrência natural de um patógeno de planta bacteriana Gram-negativa Xanthomonas. Dois grupos de pesquisa, um liderado por Bogdanove et al[23] na Iowa State University e outro de Boch e Bonas [24] na Martin Luther University, revelaram os mecanismos de interação entre Xanthomonas- efetores semelhantes a ativadores de transcrição originados (TALEs) e DNA, e isso levou à descoberta de que essas proteínas também poderiam ser usadas para edição de genoma com seu código de ligação de DNA simples e relativa facilidade de engenharia. TALEs são proteínas secretadas por Xanthomonas bactérias por meio do sistema de secreção do tipo III após infecção de plantas. O domínio de ligação ao DNA de um TALE carrega uma sequência repetitiva altamente conservada de 33-34 aminoácidos com 12º e 13º aminoácidos divergentes, referido como o resíduo variável de repetição Di [25]. Esses resíduos são altamente flexíveis e usados ​​no reconhecimento de nucleotídeos específicos. Os TALENs são gerados pela fusão de um domínio de ligação de DNA efetor TAL a um domínio de clivagem de DNA Fok1, que pode ser projetado para clivar sequências específicas de DNA (Figura 1) [26]. Embora ZFNs e TALENs contenham o mesmo domínio de nuclease Fok1 em suas extremidades C-terminais, seus locais de ligação ao DNA são diferentes uns dos outros (Figura 1). Ao contrário das proteínas de dedo de zinco, cada repetição de TALEs reconhece uma única base.

TALENs têm sido usados ​​para modificar eficientemente células-tronco embrionárias humanas (hESC) e clones de células-tronco pluripotentes induzidas (iPSC) e linhas de células eritróides humanas [27,28], para gerar camundongos e ratos knockout [29,30]. TALENs também foram implantados experimentalmente para corrigir os erros genéticos subjacentes às doenças [31]. Os defeitos genéticos que causam doenças como a doença falciforme [28,32], xeroderma pigmentoso e epidermólise bolhosa [33] foram todos passíveis de correção em vitro usando TALENs. Além disso, as células T podem ser geneticamente modificadas por TALENs para se tornarem resistentes a drogas quimioterápicas e exibir atividade antitumoral [34,35].

Infelizmente, a falta de um mecanismo de entrega eficiente, imunogenicidade e ligação não específica de TALEN a locais não intencionais limitou o no local aplicação de TALENs para o tratamento de doenças humanas [31]. Além disso, a geração do segmento de DNA contendo as sequências de repetição TALE é muito difícil e demorada. É tecnicamente muito difícil gerar essas sequências, pois é provável que elas se recombinem umas com as outras nas células. Embora seja bastante notável que os TALENs tenham apresentado toxicidade mínima e atividade fora do alvo em células humanas, o surgimento do sistema CRISPR / Cas9 desviou grande parte da atenção da comunidade para esta nova classe de nucleases.

Os estudos que levaram à descoberta de repetições de DNA agrupadas vieram independentemente de três partes diferentes do mundo. Ishino et al[36] e seus colegas da Universidade de Osaka acidentalmente clonaram parte de uma sequência de repetições palindrômicas curtas regularmente interespaçadas (CRISPR) junto com seu gene de interesse, a conversão de isoenzima do gene da fosfatase alcalina, em 1987, sem conhecer a função das repetições agrupadas interrompidas . Em 1993, Groenen et al[37] descobriram um agrupamento de repetições diretas interrompidas (DRs) enquanto trabalhavam no polimorfismo de DNA no agrupamento DR de Mycobacterium tuberculosis na Holanda. Mais tarde, Mojica et al[38] na Universidade de Alicante, na Espanha, estava estudando as sequências de repetição e sua função relevante na arqueação Haloferax e Haloarcula espécie quando observou a transcrição de repetições interrompidas pela primeira vez em 2000. Em 2001, enquanto trabalhava em possíveis repetições interrompidas adicionais, Mojica e Montoliu [39] sugeriram o uso da sigla CRISPR para evitar o mal-entendido cerceamento das numerosas abreviaturas utilizadas para definir as sequências na literatura relacionada. As evidências que mostraram que alguns espaçadores CRISPR eram derivados de DNA de fago e DNA extracromossômico, como plasmídeos, vieram de três grupos de pesquisa separados em 2005 [40 - 42]. O CRISPR, que foi descoberto nos genomas de organismos procarióticos como bactérias e arquéias, é uma família de sequências de DNA derivadas de segmentos de DNA de certos bacteriófagos que já haviam infectado o procarioto [43]. A proteína 9 associada a CRISPR (Cas9) é uma enzima que manifesta motivos de helicase e nuclease que emprega sequências CRISPR como um guia para identificar e cortar fitas específicas de DNA que são complementares à sequência CRISPR. As sequências CRISPR juntamente com as enzimas Cas9 estabeleceram a base de uma nova tecnologia conhecida como CRISPR / Cas9 que é implantada para modificar genes dentro de organismos [44].

Os sistemas CRISPR / Cas com diferentes propriedades identificadas de muitas bactérias e espécies de archaea podem ser categorizados em diferentes grupos. Os sistemas de Classe 1 usam um complexo de múltiplas proteínas Cas para interromper os ácidos nucleicos alvo, enquanto o sistema de Classe 2 exerce a mesma função através da uma única grande proteína Cas. Dentre estes, o sistema CRISPR / Cas9 tipo II, que pertence ao Streptococcus pyogenes (S. pyogenes) é a tecnologia mais conhecida e mais comumente usada até hoje. Este sistema funciona como um sistema imunológico contra vírus ou ácidos nucléicos estranhos em bactérias [45]. Se a bactéria for infectada com um fago, o DNA do fago que entra na bactéria faz com que os mecanismos de defesa bacteriana sejam ativados. Muitas proteínas Cas são sintetizadas a partir do locus CRISPR bacteriano e pegam um pedaço (protoespaçador) do DNA do fago em um mecanismo desconhecido e o adiciona junto com uma sequência de repetição à região separada por sequências de repetição palindrômica. Posteriormente, ocorre a transcrição do locus CRISPR que contém o RNA pré-CRISPR (crRNA), o crRNA transativador (tracrRNA) e as enzimas Cas9 [46]. O pré-crRNA é processado para formar o crRNA de 20 nucleotídeos que é complementar ao DNA viral. Muitas proteínas Cas estão envolvidas neste processo. crRNA-tracrRNA e a proteína Cas9 ligam-se ao DNA viral formando um complexo. Para se ligar ao DNA viral, as enzimas Cas reconhecem especificamente as sequências do motivo adjacente do protoespaçador (PAM) que devem estar presentes no DNA alvo. Estas sequências conservadas específicas de espécies localizadas perto de protoespaçadores, combinando com as sequências espaçadoras em loci CRISPR, foram descobertas através da análises computacionais. Para o S. pyogenes Enzima Cas9, esta sequência é "NAG" ou "NGG", sendo a última a sequência PAM mais amplamente usada em sistemas de clivagem personalizados.

A enzima Cas9 contém dois domínios de atividade de nuclease. Estes são o domínio HNH (cria uma quebra na cadeia complementar) e o domínio RuvC (cria uma quebra na cadeia não complementar). Na presença da sequência PAM, o complexo crRNA-tracrRNA-Cas9 se liga ao DNA viral e cria quebras de fita dupla, evitando assim a infecção viral [47].

Após esta descoberta, crRNA e tracrRNAs foram combinados sem causar uma diminuição na atividade Cas9, assim o RNA guia híbrido quimérico (sgRNA) foi formado, também reconhecido pelo Prêmio Nobel de Química em 2020 como um achado muito significativo [48]. A edição do genoma em culturas de células humanas usando CRISPR / Cas9 foi relatada pela primeira vez simultaneamente por Hsu et al[49], Cong et al[50] e Mali et al[51]. Posteriormente, vários plasmídeos de expressão CRISPR / Cas9 e sgRNA foram relatados. Neste novo sistema, o gene alvo desejado poderia ser modificado com o vetor de expressão Cas9 projetando um oligonucleotídeo específico para o alvo de 20 nucleotídeos de comprimento e transferindo-o para o plasmídeo de expressão de sgRNA.

Os potenciais efeitos fora do alvo das enzimas Cas, embora a especificidade das quais esteja sob controle estrito da sequência guia de 20 nt e da região PAM adjacente à sequência alvo a ser clivada, são de grande preocupação, especialmente para aplicações terapêuticas. Estratégias para superar esta desvantagem incluem alteração da sequência de sgRNA, por exemplo através da truncamento da sequência 3 ', reduzindo a quantidade de DNA transfectado ou modificações na enzima Cas9. Nesse contexto, foi introduzida uma mutação no 10º aminoácido da enzima Cas9, convertendo o ácido aspártico em alanina (D10A). Esta mutação causou a perda da atividade da nuclease RuvC da enzima Cas9 e permitiu a criação do mutante de nickase Cas9 (Cas9_D10A) (Figura 2) [52].A atividade da niquase introduz apenas quebras de DNA de fita simples, que são reparadas por um mecanismo de reparo de "excisão de base" que não induz mutações na sequência de DNA. Além disso, dois gRNAs diferentes são necessários para criar quebras de DNA de fita dupla com a nickase Cas9 [53]. Uma vez que é muito improvável que duas sequências diferentes de 20 nucleotídeos existam da mesma maneira no genoma, isso torna as modificações de DNA mediadas por Cas9_D10A mais seguras [51].

Após a proteína Cas9 nickase, a proteína 'Cas9 defeituosa ou morta' (dCas9) foi gerada por mutações de silenciamento em ambos os domínios HNH e RuvC da enzima (D10A e H840A, respectivamente), com a atividade de endonuclease inativada, retendo assim apenas o DNA específico -função de segmentação quando guiada pelo sgRNA [52]. A proteína dCas9 é fundida com muitas proteínas diferentes e usada para vários fins, como controle de transcrição, bem como modificações de DNA (Figura 2). A fusão do domínio da nuclease Fok1 com a proteína dCas9 reduziu os efeitos fora do alvo. Os pesquisadores fundiram dCas9 com uma série de repetições em tandem (como VP48, VP64, VP160) do domínio de transativação da proteína viral Herpes simplex 16 (VP16), juntamente com sgRNAs projetados para direcionar a parte superior do local de início da transcrição, ativando assim transcrição no gene alvo (Figura 2) [54,55]. Da mesma forma, a fusão de uma proteína inibidora da transcrição bloqueia o gene alvo. O mais bem definido e frequentemente usado desses repressores é o domínio de caixa associado a Krüppel, um domínio modificador da cromatina repressivo, fornecendo um knockdown de 90% -99% do gene alvo através da propagação de heterocromatina com efeitos fora do alvo mínimos [56,57] . Além disso, a fusão do dCas9 com domínios enzimáticos epigenéticos (como p300, SID4x, PRDM9, DOT1L, Tet1) permite alterações epigenéticas específicas, enquanto a edição de base em sequências de DNA específicas pode ser iniciada através da fusão de dCas9 com enzimas de edição de base (Figura 2) [56 - 59]. Outra tecnologia CRISPR / Cas9 chamada CRISPR-genome organization oferece uma plataforma 3D programável para estudar a relação entre a estrutura nuclear e a regulação e função do gene (Figura 2) [60].

De todas as nucleases programáveis ​​disponíveis com propriedades exclusivas usadas para vários fins, hoje o sistema CRISPR / Cas9 é considerado a melhor escolha para edição de genoma como um sistema fácil de aplicar, econômico e versátil. Além disso, edições eficazes de genes em zigotos tripronucleares humanos usando o sistema CRISPR / Cas9 foram descritas pela primeira vez pelos cientistas chineses Liang et al[61] em 2015. Uma clivagem bem-sucedida da beta-hemoglobina mutante em 28 de 54 embriões foi alcançada usando o sistema CRISPR / Cas9.

Em 2015, outro tipo de nuclease, Cas12a (anteriormente conhecido como Cpf1), foi descoberto a partir da bactéria Francisella Novicida[62]. Várias diferenças importantes de Cas9 foram observadas em Cas12a, como exigir apenas um crRNA para o direcionamento bem-sucedido, depender de um PAM rico em T e causar um corte escalonado no DNA de fita dupla. Esses recursos tornaram o Cas12a ideal para edição de genoma multiplexado. Além disso, Cas12a cliva DNA 18-23 pares de bases a jusante do local PAM sem interromper a sequência de reconhecimento após o reparo.

Em 2016, uma nova endonuclease de RNA guiada por RNA, a nuclease Cas13a, foi caracterizada a partir da bactéria Leptotrichia shahii[63]. Cas13a é direcionado por seu crRNA a um alvo de ssRNA e, em seguida, cliva outras moléculas de ssRNA de forma não discriminatória. Este padrão de clivagem de Cas13a denominado clivagem colateral foi explorado para o desenvolvimento de várias tecnologias de diagnóstico [64-66].

No entanto, o sistema CRISPR / Cas9, que funciona como um sistema de defesa bacteriano na natureza, foi implantado em muitas áreas da biotecnologia como um dos métodos de modificação genética mais atualizados hoje [67].

Os mecanismos da função das células beta em condições de saúde e doença podem ser dissecados experimentalmente usando a tecnologia CRISPR / Cas9 através da manipulação do genoma em células beta pancreáticas [68,69]. Além disso, a geração de novos modelos animais geneticamente modificados para o teste da função das células beta agora é viável usando a tecnologia CRISPR / Cas9. A perda de células das ilhotas pancreáticas é uma das causas subjacentes essenciais do diabetes [70]. Como solução para esse problema, três estratégias diferentes têm sido empregadas para a recuperação das células beta pancreáticas ao longo dos anos. Essas três abordagens são a estimulação da proliferação de células beta existentes, a reprogramação de vários tipos de células em células beta e a indução da diferenciação de células beta de PSCs. A proliferação de células das ilhotas pancreáticas também pode ser induzida na Vivo usando abordagens de terapia genética conforme mostrado anteriormente [71 - 73]. Neste contexto de utilização de células-tronco pluripotentes, células beta pancreáticas produtoras de insulina (IPCs) diferenciadas de ESCs, que foram isoladas pela primeira vez de embriões humanos em 1989 e iPSCs, que foram obtidas pela primeira vez por reprogramação de células diferenciadas, criaram excitação como novas fontes potenciais de células beta [74 - 76]. Preocupações éticas, bem como a necessidade de supressão imunológica, surgiram em estudos / abordagens de tratamento potencial relacionadas a ESCs, estudos conduzidos neste campo com foco principalmente em abordagens mediadas por iPSC. Além de eliminar questões éticas, essa abordagem também facilita a modelagem de doenças, o desenvolvimento de medicamentos e a compreensão da patogênese do diabetes, abrindo caminho para o desenvolvimento de estratégias de tratamento de nova geração. Nucleases programáveis ​​(ZFNs, TALENs, CRISPR / Cas9) nos ajudaram a entender o desenvolvimento, regeneração, produção de insulina e padrões de secreção de células beta pancreáticas em todos os aspectos.

O sistema CRISPR / Cas9 revelou diferenças específicas da espécie na função do gene. Por exemplo, McGrath et al[77] demonstraram que a falta de Neurogenin3 (NEUROG3), um fator de transcrição hélice-alça-hélice básico essencial para a formação do pâncreas endócrino em camundongos, não interferiu no crescimento do pâncreas endócrino humano. Linhas de hESC carregando mutações nocaute de NEUROG3 formaram com eficiência a endoderme e os progenitores pancreáticos, mas não as células endócrinas em vitro. Além disso, um knockdown de 75% -90% da expressão de NEUROG3 através da A abordagem de RNA em gancho curto mediada por lentivírus apenas reduziu, mas não impediu o desenvolvimento das células endócrinas pancreáticas, sugerindo que embora o NEUROG3 seja fundamental para o desenvolvimento do pâncreas endócrino humano, muito poucas quantidades são suficientes para a formação das células endócrinas pancreáticas.

STAT3 foi mostrado para mediar a ativação de Neurog3 em células acinares, reprogramando-as em células beta em modelos de camundongos diabéticos [78]. Além disso, mutações ativadoras da linha germinativa em STAT3 foram recentemente relatadas como uma causa de diabetes mellitus neonatal associada à autoimunidade de células beta [79]. A investigação da mutação ativadora, STAT3 K392R, no desenvolvimento pancreático usando iPSCs derivadas de um paciente com diabetes neonatal e hipoplasia pancreática sugeriu que a mutação STAT3 K392R causou diferenciação endócrina prematura através da indução direta da expressão de NEUROG3. Felizmente, o fenótipo da doença foi completamente revertido usando a tecnologia CRISPR / Cas9 para corrigir a mutação STAT3.

Uma plataforma de edição de genoma eficiente em PSCs humanos (hPSCs) (iCRISPR) foi recentemente estabelecida através do uso de TALENs e do sistema CRISPR / Cas [80]. Esta abordagem combinou a força da edição do genoma e da biologia das células-tronco para manipular metodicamente o controle transcricional do desenvolvimento pancreático e os defeitos de desenvolvimento relacionados ao diabetes mellitus neonatal permanente [81]. Neste estudo, Zhu et al[82] silenciou oito dos fatores de transcrição (PDX1, RFX6, PTF1A, GLIS3, MNX1, NGN3, HES1 e ARX) eficazes no desenvolvimento de células beta em hESCs usando CRISPR / Cas9 e TALENs. Além de definir as etapas de desenvolvimento específicas afetadas por essas mutações, esta abordagem revelou novos insights sobre os mecanismos da doença, a respeito do papel do RFX6 no controle do número de progenitores pancreáticos, um pré-requisito para PDX1 no desenvolvimento endócrino pancreático e um papel potencialmente diferente de NGN3 em humanos e camundongos. A implantação de nucleases programáveis ​​permitiu a identificação de fatores de transcrição que regulam o desenvolvimento pancreático, promovendo terapias de substituição de células beta baseadas em hPSC para o tratamento de diabetes. Embora modelos animais experimentais sejam necessários para a reprodução de doenças humanas, diferenças genéticas e metabólicas entre as espécies podem, às vezes, causar falha em imitar adequadamente a doença humana, impedindo o desenvolvimento de um tratamento eficaz.

O sistema CRISPR / Cas9 também contribuiu significativamente para a avaliação dos resultados obtidos a partir de estudos de associação do genoma (GWAS). Embora um grande número de genes associados ao diabetes tipo 2 (T2D) tenham sido identificados contendo polimorfismos de nucleotídeo único, inserções, deleções e variações no número de cópias em estudos de GWAS, fazendo a conexão entre a fisiopatologia da doença e qualquer possível uso da informação na descoberta de medicamentos é um desafio [83 - 86]. Utilizando CRISPR / Cas9, Zeng et al[87] silenciou três genes (CDKAL1, KCN111, KCNQ1) em células responsivas à glicose derivadas de hESC, que foram identificadas por estudos de GWAS como genes de suscetibilidade para T2D, e observaram que, embora o silenciamento desses genes não afetou a geração de insulina + células, nenhuma alteração foi detectada no potencial de diferenciação das células beta. No entanto, as células insulina + beta foram hipersensíveis à glucolipotoxicidade na ausência da expressão do gene CDKAL1. Esses estudos preliminares mostraram que as propriedades funcionais dos loci gênicos identificados por GWAS com possíveis papéis na patogênese de doenças podem ser melhor avaliadas utilizando a tecnologia CRISPR / Cas9.

Como as ilhotas humanas isoladas são materiais raros e valiosos para a pesquisa do diabetes, os hPSCs representam uma boa alternativa aos doadores de células das ilhotas pancreáticas. As iPSCs podem ser estabelecidas a partir de células somáticas adultas através da reprogramação direta e diferenciada em células produtoras de insulina semelhantes às células beta [88]. Embora a maturação completa dessas células em IPCs que secretam insulina em resposta a mudanças na concentração de glicose no sangue não possa ser alcançada facilmente, esta abordagem pode ser usada para modelar defeitos de desenvolvimento de doenças genéticas como diabetes [68]. A edição do genoma mediada pela tecnologia CRISPR / Cas9 oferece grandes oportunidades para examinar os efeitos de genótipos específicos e desenvolver modelos de doenças com alterações genéticas que causam síndromes diabéticas e provavelmente aumentam rapidamente as possibilidades de estudar a fisiologia das células beta [89].

O diabetes tipo 1 (T1D) resulta da destruição das células beta do pâncreas pelo sistema autoimune devido ao comprometimento de múltiplos mecanismos de tolerância imunológica [90]. O T1D em humanos está fortemente associado a uma variante alélica do não receptor da proteína tirosina fosfatase tipo 22 (PTPN22), PTPN22 R620W, cuja existência aumenta o risco de diabetes em duas a quatro vezes [91]. Uma vez que o camundongo NOD é um modelo T1D espontâneo que compartilha muitas vias genéticas relacionadas ao diabetes com humanos, esperava-se que a introdução da mutação ortóloga PTPN R619W no genoma NOD aumentasse o desenvolvimento espontâneo de T1D. Microinjeção de CRISPR / Cas9 e um modelo de reparo direcionado por homologia em zigotos de célula única NOD resultou em camundongos com mutação PTPN R619W exibindo aumento de autoanticorpos de insulina e início mais precoce e maior penetrância de T1D [92].

O receptor de leptina (Lepr) funciona como um receptor para o hormônio específico das células de gordura leptina (ob), que regula a homeostase energética, o equilíbrio entre a ingestão de alimentos e o gasto energético [93]. O camundongo com defeito de Lepr (db / db) é atualmente o modelo de camundongo mais amplamente usado de T2D, exibindo obesidade severa, hiperfagia, polidipsia e poliúria [94]. O equivalente rato do camundongo db / db é o rato Zucker (fa / fa), que tem uma mutação autossômica espontânea no gene Lepr e exibe um fenótipo comparável de hiperfagia levando à intolerância à glicose, resistência à insulina e obesidade mórbida [95] . Curiosamente, o rato Zucker não apresenta hiperglicemia. Para resolver isso, os ratos knockout Lepr foram gerados usando o sistema CRISPR / Cas9 [96]. Estes ratos knockout Lepr CRISPR / Cas9 exibiram todos os fenótipos relacionados ao diabetes, expandindo modelos animais para pesquisas biomédicas e farmacológicas sobre obesidade e T2D. Além disso, alguns problemas observados em camundongos db / db deficientes em receptores de leptina e modelos animais de ratos Zucker relativos à hiperglicemia persistente e aparecimento tardio de intolerância à glicose foram superados usando ratos knockout para Lepr gerados por CRISPR / Cas9.

Embora modelos de roedores sejam úteis para estudar diabetes, o uso de modelos animais metabolicamente mais próximos aos humanos é uma maneira mais eficaz de entender o desenvolvimento e a patogênese de doenças humanas usando o sistema CRISPR / Cas9. Apesar da pesquisa sobre diabetes poder se beneficiar do uso de porcos como modelo, devido ao compartilhamento de fisiologia e vias metabólicas semelhantes aos humanos, a escassez de modelos suínos exibindo sintomas de diabetes representa uma clara desvantagem. Para este propósito, Cho et al[97] modificou pela primeira vez o gene da insulina em células somáticas usando o sistema CRISPR / Cas9. Então, a transferência nuclear de células somáticas carregando o gene da insulina modificado resultou na geração de embriões de porco com fenótipo de nocaute para insulina (INS). Leitões knockout para INS manifestaram hiperglicemia e glicosúria, demonstrando a eficácia da geração de novos modelos de suínos mediada por CRISPR / Cas9, que podem ser mais adequados para o desenvolvimento de drogas e estudos de transplante de ilhotas em comparação com roedores.

Além disso, o sistema CRISPR / Cas9 pode ser uma forma eficaz de desenvolver modelos de doença de diabetes monogênica, como Diabetes de Início da Maturidade dos Jovens (MODY), referindo-se a qualquer uma das várias formas hereditárias de diabetes mellitus causadas por mutações que interrompem a produção de insulina [98] . Apesar de MODY ser uma doença autossômica dominante, que requer apenas um gene anormal para manifestar os sintomas da doença, a gravidade da doença é regulada pela presença de um segundo alelo. Enquanto MODY 2 e MODY 3 são as formas mais comuns, mutações no gene da insulina causam MODY10, que é frequentemente confundido com T2D devido às semelhanças nos sintomas clínicos [99]. Embora o curso da doença seja leve, as pessoas com esse distúrbio genético requerem o uso de insulina nos anos seguintes. Essas doenças de gene único, que não podem ser tratadas com os métodos de tratamento atuais, podem ser tratadas de forma eficaz com terapia gênica. Aqui, a terapia genética de insulina mediada por lentivírus pode ser uma solução permanente para o tratamento com MODY10, conforme mostrado anteriormente para T1D [72,100].

Embora uma certa redução na massa de células beta pancreáticas seja alcançada em modelos animais diabéticos experimentais induzidos por estreptozotocina (STZ), as células beta que permanecem vivas e capazes de sintetizar e secretar insulina podem interferir nos testes de estratégias de terapia genética de insulina. Para testar totalmente a eficácia dos vetores de terapia gênica da insulina, são necessárias células beta pancreáticas que não sintetizam insulina. Uma vez que essas células não estão disponíveis comercialmente, o sistema CRISPR / Cas9 fornece um método adequado para gerar células beta pancreáticas sem síntese de insulina. O gene da insulina pode ser silenciado no nível do DNA com a ajuda do CRISPR / Cas9 usando RNAs guia específicos direcionados ao gene da insulina. Uma vez que essas células terão todas as características das células beta, exceto para a síntese de insulina, será um modelo adequado para ambos ex vivo e na Vivo teste da eficácia dos vetores de transferência de genes da insulina. Para criar este modelo, as células beta pancreáticas são transfectadas com um plasmídeo de silenciamento que codifica a proteína CRISPR Cas9, RNA guia específico e um plasmídeo HR contendo as regiões homólogas ao gene da insulina (Figura 3). Nesta estratégia, o plasmídeo silenciador cria uma quebra de fita dupla no gene da insulina, enquanto o plasmídeo HR entrega um gene de resistência a antibióticos para purificar seletivamente transformantes bem-sucedidos e um gene codificador de proteína fluorescente (por exemplo. RFP) para confirmar a recombinação bem-sucedida na região onde ocorre o DSB. Assim, uma linha de células beta pancreáticas é gerada com expressão de proteína fluorescente estável, que pode ser examinada visualmente sob um microscópio fluorescente após a transfecção. Essas células podem ser purificadas por citometria de fluxo devido à expressão de proteína fluorescente estável que contêm, ou por seleção de antibióticos com o gene de resistência a antibióticos transferido (Figura 3). Em seguida, as células são clonadas usando o método de diluição limitada. Finalmente, o estado de secreção de insulina de colônias de células únicas pode ser confirmado por ELISA de insulina, por western blot ou métodos de imunocitoquímica. Após a confirmação, o gene da insulina pode ser entregue no local por vetores de terapia gênica para determinar se a secreção de insulina é restaurada após a transdução de células beta pancreáticas knockout para INS. Em seguida, as células beta nocaute INS geradas pela tecnologia CRISPR / Cas9 com ou sem entrega do gene da insulina podem ser transplantadas sob a cápsula renal de animais diabéticos induzidos por STZ (Figura 4). Ao fazer isso, uma linha de células beta pancreáticas deficientes na síntese do gene da insulina pode ser gerada e pode ser usada para na Vivo teste da eficácia dos vetores de terapia gênica da insulina.

Em resumo, o sistema CRISPR / Cas9 é uma tecnologia única que fornece uma plataforma muito poderosa e versátil para edição de genoma, com facilidade de design e implementação, alta eficiência e baixo custo [67]. Descrito como um divisor de águas em engenharia genética, um dos principais objetivos do uso da tecnologia CRISPR / Cas9 é desenvolver modelos adequados para testes de drogas e compreender os mecanismos moleculares e fisiológicos subjacentes ao desenvolvimento de doenças humanas [18]. Entre as doenças para as quais foram gerados modelos de doença mediada por CRISPR / Cas9 baseados em células estão a fibrose cística, a síndrome de Barth, β-talassemia, distrofia muscular de Duchenne e hemofilia A [101 - 106]. Modelos de camundongos para tirosinemia e câncer de pulmão e modelos de ratos e primatas para distrofia muscular também foram criados com sucesso com a tecnologia CRISPR / Cas9, com muitos mais que estão sendo trabalhados e desenvolvidos [107 - 110]. Como uma abordagem adicional, conforme descrito nesta publicação, um novo na Vivo modelo de doença de diabetes pode ser desenvolvido por transferência alogênica de uma linha de células beta pancreáticas nocaute INS que é criada pela tecnologia CRISPR / Cas9 sob a cápsula renal de animais diabéticos induzidos por STZ. Para determinar a eficácia terapêutica da terapia gênica da insulina, o mesmo procedimento precisa ser repetido com células beta pancreáticas deficientes em insulina somente após a entrega do gene da insulina. Com os avanços atuais na poderosa tecnologia CRISPR / Cas9, há uma chance melhor de superar o desafio de gerar e implementar os modelos de doença mais precisos, específicos e preditivos para fornecer uma melhor compreensão e tratamento das doenças humanas.

Fonte do manuscrito: manuscrito convidado

Associação do autor correspondente em sociedades profissionais: Sociedade Americana de Terapia Genética e Celular e Sociedade Europeia de Terapia Genética e Celular

Tipo de especialidade: medicina, pesquisa e experimental

País / território de origem: Turquia

Classificação de qualidade científica do relatório de revisão por pares

P-Revisor: Duan W, Kurniawan A S-Editor: Liu M L-Editor: A P-Editor: Xing YX


Resumo

O campo da biologia sintética está evoluindo em um ritmo acelerado. Ele está avançando além das alterações de um único gene em um único hospedeiro para o design lógico de circuitos complexos e o desenvolvimento de genomas sintéticos integrados. Avanços recentes no aprendizado profundo, que é cada vez mais usado em de novo montagem de componentes de DNA com efeitos previsíveis, também estão ajudando a disciplina. Apesar dos avanços na computação, o campo ainda depende da disponibilidade de partes de DNA pré-caracterizadas, sejam naturais ou sintéticas, para regular a expressão gênica em bactérias e produzir compostos valiosos. Nesta revisão, discutimos as diferentes metodologias de biologia sintética bacteriana empregadas na criação de regiões regulatórias 5 '- promotores, regiões não traduzidas e extremidade 5' de sequências codificantes. Resumimos as metodologias e discutimos sua importância para cada um dos componentes funcionais do DNA e destacamos os principais avanços feitos na engenharia bacteriana, concentrando-nos em suas falhas e pontos fortes. Terminamos a revisão descrevendo os problemas que a disciplina pode enfrentar no futuro próximo.


Patentes mais recentes da REGENERON PHARMACEUTICALS, INC.:

Este pedido é uma continuação do pedido de patente U.S. Ser. No. 16 / 575.506, depositado em 19 de setembro de 2019, que é uma continuação do pedido de patente U.S. Série No. 15 / 783.525, depositado em 13 de outubro de 2017, agora abandonado, que é uma continuação do pedido de patente US No. 14 / 919.300, depositado em 21 de outubro de 2015, agora Patente US No. 9.816.110, que reivindica o benefício de prioridade do Pedido Provisório U.S. No. 62 / 067.774 depositado em 23 de outubro de 2014, todo o conteúdo do qual é incorporado neste documento por referência.

INCORPORAÇÃO POR REFERÊNCIA DA LISTAGEM DE SEQUÊNCIAS

A Listagem de Sequências em um arquivo de texto ASCII, denominado 32353_T0045US01_SequenceListing.txt de 28 KB, criado em 20 de outubro de 2015 e submetido ao Escritório de Patentes e Marcas dos Estados Unidos via EFS-Web, é aqui incorporado por referência.

FUNDO Campo de invenção

A invenção fornece integração e / ou expressão estável de proteínas recombinantes em células eucarióticas. Em particular, a invenção inclui métodos e composições para expressão melhorada de proteínas em células eucarióticas, particularmente hamster chinês (Cricetulus griseus) linhas celulares, empregando sequências de nucleotídeos que aumentam a expressão. A invenção inclui polinucleotídeos e células modificadas que facilitam a troca de cassete mediada por recombinação (RMCE). Os métodos da invenção integram ácidos nucleicos exógenos em loci cromossômicos específicos no genoma celular de hamster chinês a fim de facilitar a expressão aumentada e estável de proteínas recombinantes pelas células modificadas.

Descrição da Arte Relacionada

Os sistemas de expressão celular visam fornecer uma fonte confiável e eficiente para a fabricação de uma determinada proteína, seja para pesquisa ou uso terapêutico. A expressão de proteínas recombinantes em células de mamíferos é um método preferido para a fabricação de proteínas terapêuticas devido, por exemplo, à capacidade dos sistemas de expressão de mamíferos para modificar apropriadamente pós-tradução proteínas recombinantes.

Vários sistemas celulares estão disponíveis para a expressão de proteínas, cada um contendo várias combinações de cis- e, em alguns casos, elementos trans-reguladores para atingir altos níveis de proteína recombinante com curtos tempos de incubação. Apesar da disponibilidade de vários sistemas, o desafio da transferência eficiente de genes e da estabilidade do gene integrado para a expressão de uma proteína recombinante ainda existe. Múltiplos fatores genéticos locais irão determinar não apenas quando o gene alvo de interesse deve ser expresso, mas se a célula pode conduzir funcionalmente a transcrição do gene em direção a uma saída produtiva, ou se a expressão será mesmo mantida a longo prazo. Sites de integração cromossômica, por exemplo Sítios de integração de células de ovário de hamster chinês (CHO) e regiões de controle de locus dentro ou adjacentes a genes específicos foram caracterizados na técnica (WO2012 / 138887A1 U, Q. et al., 2002 Sangue. 100: 3077-3086). Como tal, as regiões regulatórias direcionadas são tipicamente identificadas em uma região que codifica para proteínas endógenas. No entanto, para a expressão de longo prazo de um transgene alvo, uma consideração chave é a interrupção mínima dos genes celulares para evitar mudanças no fenótipo da linha celular.

A engenharia de linhas celulares estáveis ​​para acomodar genes adicionais para expressão, tais como cadeias de anticorpos adicionais como em anticorpos multiespecíficos, é particularmente desafiador. Podem ocorrer grandes variações nos níveis de expressão de genes integrados. A integração de genes adicionais pode levar a uma maior variação na expressão e instabilidade devido ao ambiente genético local (ou seja, efeitos de posição). Consequentemente, existe uma necessidade na técnica de sistemas de expressão em mamíferos melhorados.

SUMÁRIO BREVE

Em um aspecto, a invenção fornece uma célula que compreende uma sequência de ácido nucleico exógena integrada em um local específico dentro de um locus, em que o locus compreende uma sequência de nucleotídeos que é pelo menos 90% idêntica à SEQ ID NO: 1 ou SEQ ID NO: 4 . Em algumas modalidades, o locus compreende uma sequência de nucleotídeos que é pelo menos 90% idêntica à SEQ ID NO: 1. Em algumas modalidades, o locus compreende uma sequência de nucleotídeos que é pelo menos 90% idêntica à SEQ ID NO: 4.

Em outro aspecto, a invenção fornece um polinucleotídeo compreendendo uma primeira sequência de ácido nucleico integrada em um local específico dentro de uma segunda sequência de ácido nucleico (por exemplo, um locus da invenção). Em uma modalidade, a segunda sequência de ácido nucleico compreende a sequência de nucleotídeos de SEQ ID NO: 1. Em outra modalidade, a segunda sequência de ácido nucleico compreende a sequência de nucleotídeos de SEQ ID NO: 4.

Em uma modalidade, a segunda sequência de ácido nucleico é uma sequência de aumento de expressão selecionada a partir de uma sequência de nucleotídeos com pelo menos 90% de identidade de ácido nucleico com SEQ ID NO: 1, ou um fragmento de aumento de expressão desta. Em uma modalidade, a segunda sequência de ácido nucleico é uma sequência de aumento de expressão selecionada a partir de uma sequência de nucleotídeos com pelo menos 90% de identidade de ácido nucleico com a SEQ ID NO: 4, ou um fragmento de aumento de expressão desta. Em outra modalidade, a sequência de aumento de expressão é capaz de aumentar a expressão de uma proteína codificada por uma sequência de ácido nucleico exógena. Em outra modalidade, a sequência de aumento de expressão é capaz de aumentar a expressão de uma proteína codificada por uma sequência de ácido nucleico exógena pelo menos cerca de 1,5 vezes a pelo menos cerca de 3 vezes o aumento na expressão em comparação com a expressão tipicamente observada por integração aleatória em um genoma.

Em outra modalidade, a sequência de ácido nucleico exógena é integrada em um local específico em qualquer posição dentro da SEQ ID NO: 1 ou SEQ ID NO: 4.

Em algumas modalidades, o sítio específico em uma posição dentro da SEQ ID NO: 1 ou adjacente a uma posição dentro da SEQ ID NO: 1 é selecionado a partir do grupo que consiste em nucleotídeos que abrangem as posições numeradas 10-4.000 100-3.900 200-3.800 300-3.700 400-3.600 500-3.500 600-3.400 700-3.300 800-3.200 900-3.100 1.000-3.000 1.100-2.900 1.200-2.800 1.300-2.700 1.200-2.600 1.300-2.500 1.400-2.400 1.500-2.300 1.600-2.200 1.700-2100 1.800- 2050 1850-2050, 1.900-2040 1950-2.025, 1990-2021, 2002-2021 e 2.010-2.015 da SEQ ID NO: 1. Em certas modalidades, o sítio específico em uma posição dentro da SEQ ID NO: 1 ou adjacente a uma posição dentro da SEQ ID NO: 1 é selecionado a partir do grupo que consiste em nucleotídeos que abrangem as posições numeradas 1990-1991, 1991-1992, 1992-1993, 1993-1994, 1995-1996, 1996-1997, 1997-1998, 1999-2000, 2001-2002, 2002-2003, 2003-2004, 2004-2005, 2005-2006, 2006-2007, 2007-2008, 2008- 2009, 2009-2010, 2010-2011, 2011-2012, 2012-2013, 2013-2014, 2014-2015, 2015-2016, 2016-2017, 2017-2018, 2018-2019, 2019-2020 e 2020-2021 da SEQ ID NO: 1.

Em outra modalidade, o local específico em uma posição dentro da SEQ ID NO: 1 ou adjacente a uma posição dentro da SEQ ID NO: é selecionado a partir do grupo que consiste em nucleotídeos que abrangem as posições numeradas 10-500 500-1.000 500-2,100 1.000-1.500 1.000 -2.100 1.500-2.000 1.500-2.500 2.000-2.500 2.500-3.000 2.500-3.500 3.000-3.500 3.000-4.000 e 3.500-4.000 de SEQ ID NO: 1. Em certas modalidades, a sequência de ácido nucleico exógena é integrada em, dentro ou perto de qualquer um ou mais dos locais específicos descritos acima.

Em outra modalidade, a sequência de ácido nucleico exógena compreende um local de reconhecimento posicionado dentro de uma sequência de aumento de expressão como descrito acima, desde que a sequência de aumento de expressão compreenda uma sequência que é pelo menos cerca de 90% idêntica, pelo menos cerca de 91% idêntica, pelo menos cerca de 92% idêntico, pelo menos cerca de 93% idêntico, pelo menos cerca de 94% idêntico, pelo menos cerca de 95% idêntico, pelo menos cerca de 96% idêntico, pelo menos cerca de 97% idêntico, pelo menos cerca de 98% idêntico, ou pelo menos cerca de 99% idêntica à sequência de intensificação de expressão de SEQ ID NO: 1 ou SEQ ID NO: 4, um fragmento de intensificação de expressão desta.

Em uma modalidade, a sequência de ácido nucleico exógena compreende um local de reconhecimento de recombinase. Em algumas modalidades, a sequência de ácido nucleico exógena compreende ainda pelo menos um local de reconhecimento de recombinase compreendendo uma sequência independentemente selecionada a partir de um local LoxP, um local Lox511, um local Lox2272, Lox2372, Lox5171, Loxm2, Lox71, Lox66, LoxFas e um local frt . Em uma modalidade, o local de reconhecimento da recombinase está integrado na sequência de intensificação da expressão. Em outra modalidade, o local de reconhecimento de recombinase é imediatamente adjacente na direção 5 'ao nucleotídeo terminal da extremidade 5' de um cassete de gene, ou imediatamente adjacente na direção 3 'ao nucleotídeo terminal da extremidade 3' de um gene cassete. Em algumas modalidades, o pelo menos um local de reconhecimento de recombinase e cassete de gene são integrados na sequência de aumento de expressão.

Em uma modalidade, pelo menos dois locais de reconhecimento de recombinase estão presentes na sequência de intensificação da expressão. Em outra modalidade, dois locais de reconhecimento de recombinase de orientação oposta são integrados na sequência de intensificação da expressão. Em outra modalidade, três locais de reconhecimento de recombinase são integrados na sequência de intensificação da expressão.

Em um aspecto, é fornecida uma célula isolada de ovário de hamster chinês (CHO) que compreende uma sequência de aumento de expressão projetada de SEQ ID NO: 1 ou um fragmento de aumento de expressão desta. Em uma modalidade, a sequência de aumento de expressão que compreende a sequência de nucleotídeos de SEQ ID NO: 1 ou SEQ ID NO: 4, ou uma variante estável da mesma, é projetada para integrar uma sequência de ácido nucleico exógena como descrito acima. Em outras modalidades, a invenção fornece uma célula CHO isolada compreendendo uma sequência de ácido nucleico exógena inserida em um locus compreendendo uma sequência de aumento de expressão de SEQ ID NO: 1, ou SEQ ID NO: 4, ou uma variante estável desta.

Em uma modalidade, a célula CHO compreende ainda pelo menos uma sequência de reconhecimento de recombinase dentro da sequência de aumento de expressão. Em outra modalidade, a pelo menos uma sequência de reconhecimento de recombinase é independentemente selecionada a partir de um local LoxP, um local Lox511, um local Lox2272, Lox2372, Lox5171, Loxm2, Lox71, Lox66 LoxFas e um local frt. Em outra modalidade, o local de reconhecimento de recombinase é imediatamente adjacente na direção 5 'ao nucleotídeo terminal da extremidade 5' de um cassete de gene, ou imediatamente adjacente na direção 3 'ao nucleotídeo terminal da extremidade 3' de um gene cassete. Em algumas modalidades, o pelo menos um local de reconhecimento de recombinase e cassete de gene são integrados na sequência de aumento de expressão do genoma de células CHO aqui descrito.

Em outra modalidade, o pelo menos um local de reconhecimento de recombinação é posicionado como descrito acima, com a ressalva de que o cassete de gene compreende uma sequência de intensificação de expressão compreendendo pelo menos 90% de identidade, pelo menos cerca de 91% de identidade, pelo menos cerca de 92% de identidade , pelo menos cerca de 93% de identidade, pelo menos cerca de 94% de identidade, pelo menos cerca de 95% de identidade, pelo menos cerca de 96% de identidade, pelo menos cerca de 97% de identidade, pelo menos cerca de 98% de identidade, ou pelo menos cerca de 99% de identidade aos nucleotídeos 1001 a 2001 da SEQ ID NO: 1 (SEQ ID NO: 2) ou um fragmento de intensificação da expressão do mesmo. Em outra modalidade, o pelo menos um local de reconhecimento de recombinação é posicionado como descrito acima, com a ressalva de que o cassete de gene compreende uma sequência de intensificação de expressão que compreende pelo menos 90% de identidade, pelo menos cerca de 91% de identidade, pelo menos cerca de 92% de identidade , pelo menos cerca de 93% de identidade, pelo menos cerca de 94% de identidade, pelo menos cerca de 95% de identidade, pelo menos cerca de 96% de identidade, pelo menos cerca de 97% de identidade, pelo menos cerca de 98% de identidade, ou pelo menos cerca de 99% de identidade aos nucleotídeos 2022 a 3022 da SEQ ID NO: 1 (SEQ ID NO: 3) ou um fragmento de intensificação da expressão dos mesmos.

Em ainda outra modalidade, o pelo menos um local de reconhecimento de recombinase é inserido no genoma da célula CHO em ou dentro dos nucleotídeos 1990-1991, 1991-1992, 1992-1993, 1993-1994, 1995-1996, 1996-1997, 1997-1998 , 1999-2000, 2001-2002, 2002-2003, 2003-2004, 2004-2005, 2005-2006, 2006-2007, 2007-2008, 2008-2009, 2009-2010, 2010-2011, 2011-2012, 2012 -2013, 2013-2014, 2014-2015, 2015-2016, 2016-2017, 2017-2018, 2018-2019, 2019-2020, 2020-2021 ou 2021-2022 de SEQ ID NO: 1.

Em outra modalidade, o ácido nucleico exógeno é inserido no genoma CHO em ou dentro dos nucleotídeos 1990-1991, 1991-1992, 1992-1993, 1993-1994, 1995-1996, 1996-1997, 1997-1998, 1999-2000, 2001-2002, 2002-2003, 2003-2004, 2004-2005, 2005-2006, 2006-2007, 2007-2008, 2008-2009, 2009-2010, 2010-2011, 2011-2012, 2012-2013, 2013- 2014, 2014-2015, 2015-2016, 2016-2017, 2017-2018, 2018-2019, 2019-2020, 2020-2021 ou 2021-2022 da SEQ ID NO: 1.

Em outra modalidade, o ácido nucleico exógeno é inserido no genoma CHO nos ou dentro dos nucleotídeos 2001-2022 da SEQ ID NO: 1. Em algumas modalidades, o ácido nucleico exógeno é inserido nos ou dentro dos nucleotídeos 2001-2002 ou nucleotídeos 2021-2022 da SEQ ID NO: 1 e nucleotídeos 2002-2021 da SEQ ID NO: 1 são deletados, como resultado da inserção. Da mesma forma, o ácido nucleico exógeno é inserido no genoma CHO nos ou dentro dos nucleotídeos 9302-9321 de SEQ ID NO: 4. Em algumas modalidades, o ácido nucleico exógeno é inserido nos ou dentro dos nucleotídeos 9301-9302 ou nucleotídeos 9321-9322 da SEQ ID NO: 4 e os nucleotídeos 9302-9321 da SEQ ID NO: 4 são deletados, como resultado da inserção.

Em algumas modalidades, a sequência de ácido nucleico exógena integrada em um local específico dentro de um locus, como a sequência de nucleotídeos da SEQ ID NO: 1 ou SEQ ID NO: 4, compreende um gene de interesse (GOI) (por exemplo, uma sequência de nucleotídeos que codifica uma proteína de interesse ou "P"). Em certas modalidades, a sequência de ácido nucleico exógena compreende um ou mais genes de interesse. Em algumas modalidades, um ou mais genes de interesse são selecionados do grupo que consiste em um primeiro GOI, um segundo GOI e um terceiro GOI.

Em algumas modalidades, a sequência de ácido nucleico exógena integrada em um local específico dentro de um locus, como a sequência de nucleotídeos de SEQ ID NO: 1 ou SEQ ID NO: 4, compreende um GOI e pelo menos um local de reconhecimento de recombinase. Em uma modalidade, um primeiro GOI é inserido na sequência de intensificação de expressão de SEQ ID NO: 1 ou SEQ ID NO: 4, ou a sequência de intensificação de expressão tendo pelo menos 90% de identidade de nucleotídeo com SEQ ID NO: 1 ou SEQ ID NO: 4, ou o fragmento de aumento de expressão do mesmo, como descrito acima, e o primeiro GOI está opcionalmente operacionalmente ligado a um promotor, em que o GOI ligado ao promotor (ou o GOI) é flanqueado 5 'por um primeiro local de reconhecimento de recombinase e 3 'por um segundo local de reconhecimento de recombinase. Em outra modalidade, um segundo GOI é inserido 3 'do segundo local de reconhecimento de recombinase e o segundo GOI é flanqueado 3' por um terceiro local de reconhecimento de recombinase.

Em ainda outra modalidade, o GOI está operacionalmente ligado a um promotor capaz de dirigir a expressão do GOI, em que o promotor compreende um promotor eucariótico que pode ser regulado por um ativador ou inibidor. Em outras modalidades, o promotor eucariótico está operacionalmente ligado a um operador procariótico e a célula eucariótica opcionalmente compreende ainda uma proteína repressora procariótica.

Em outra modalidade, um ou mais marcadores selecionáveis ​​são incluídos entre o primeiro e o segundo e / ou o segundo e o terceiro locais de reconhecimento de recombinase. Em algumas modalidades, o primeiro e / ou o segundo genes de interesse e / ou um ou mais marcadores selecionáveis ​​estão operacionalmente ligados a um promotor, em que o promotor pode ser o mesmo ou diferente. Em outra modalidade, o promotor compreende um promotor eucariótico (tal como, por exemplo, um promotor CMV ou um promotor tardio SV40), opcionalmente controlado por um operador procariótico (tal como, por exemplo, um operador tet). Em outras modalidades, a célula compreende ainda um gene que codifica um repressor procariótico (como, por exemplo, um repressor tet).

Em outra modalidade, a célula compreende ainda um gene capaz de expressar uma recombinase. Em algumas modalidades, a recombinase é uma Cre recombinase.

Em um aspecto, uma célula hospedeira CHO é fornecida, compreendendo uma sequência de intensificação de expressão selecionada de SEQ ID NO: 1 ou SEQ ID NO: 4, ou uma sequência de intensificação de expressão com pelo menos 90% de identidade de nucleotídeo com SEQ ID NO: 1 ou SEQ ID NO: 4, ou um fragmento de aumento de expressão do mesmo, compreendendo um primeiro local de reconhecimento de recombinase seguido por um primeiro promotor eucariótico, um primeiro gene marcador selecionável, um segundo promotor eucariótico, um segundo gene marcador selecionável e um segundo reconhecimento de recombinase local. Em mais modalidades, a célula hospedeira CHO fornece ainda um terceiro promotor eucariótico, um terceiro gene marcador e um terceiro sítio de reconhecimento de recombinase. Em uma modalidade, a sequência de intensificação da expressão está dentro da SEQ ID NO: 1 ou SEQ ID NO: 4, conforme descrito acima.

Em uma modalidade, o primeiro, o segundo e o terceiro locais de reconhecimento da recombinase são diferentes um do outro. Em algumas modalidades, os locais de reconhecimento de recombinase são selecionados a partir de um local LoxP, um local Lox511, um local Lox2272, Lox2372, Lox5171, Loxm2, Lox71, Lox66, LoxFas e um local frt.

Em uma modalidade, o primeiro gene marcador selecionável é um gene de resistência a drogas. Em outra modalidade, o gene de resistência a drogas é um gene de resistência à neomicina ou um gene de resistência à higromicina. Em outra modalidade, o segundo e o terceiro genes marcadores selecionáveis ​​codificam duas proteínas fluorescentes diferentes.Em uma modalidade, as duas proteínas fluorescentes diferentes são selecionadas do grupo que consiste em coral Discosoma (DsRed), proteína fluorescente verde (GFP), proteína fluorescente verde aprimorada (eGFP), proteína fluorescente ciano (CFP), proteína fluorescente ciano aprimorada (eCFP ), proteína fluorescente amarela (YFP), proteína fluorescente amarela aprimorada (eYFP) e proteína fluorescente vermelha distante (por exemplo, mKate, mKate2, mPlum, mRaspberry ou E2-crimson).

Em uma modalidade, o primeiro, o segundo e o terceiro promotores são iguais. Em outra modalidade, o primeiro, o segundo e o terceiro promotores são diferentes um do outro. Em outra modalidade, o primeiro promotor é diferente do segundo e do terceiro promotores, e o segundo e o terceiro promotores são iguais. Em mais modalidades, o primeiro promotor é um promotor tardio de SV40 e o segundo e o terceiro promotores são, cada um, um promotor de CMV humano. Em outras modalidades, o primeiro e o segundo promotores estão operacionalmente ligados a um operador procariótico.

Em uma modalidade, a linha de células hospedeiras tem um gene adicionado exogenamente que codifica uma recombinase integrada em seu genoma, operacionalmente ligado a um promotor. Em outra modalidade, a recombinase é Cre recombinase. Em outra modalidade, a célula hospedeira tem um gene que codifica uma proteína reguladora integrada em seu genoma, operacionalmente ligado a um promotor. Em mais modalidades, a proteína reguladora é uma proteína repressora tet.

Em uma modalidade, o primeiro GOI e o segundo GOI codificam uma cadeia leve, ou fragmento do mesmo, de um anticorpo ou uma cadeia pesada, ou fragmento do mesmo, de um anticorpo. Em outra modalidade, o primeiro GOI codifica uma cadeia leve de um anticorpo e o segundo GOI codifica uma cadeia pesada de um anticorpo.

Em certas modalidades, o primeiro, o segundo e o terceiro GOI codificam um polipeptídeo selecionado do grupo que consiste em uma primeira cadeia leve, ou fragmento da mesma, uma segunda cadeia leve ou fragmento da mesma e uma cadeia pesada ou fragmento da mesma. Em ainda outra modalidade, o primeiro, o segundo e o terceiro GOI codificam um polipeptídeo selecionado do grupo que consiste em uma cadeia leve ou fragmento desta, uma primeira cadeia pesada ou fragmento desta e uma segunda cadeia pesada ou fragmento desta.

Em um aspecto, um método é fornecido para fazer uma proteína de interesse, compreendendo (a) introduzir em uma célula hospedeira CHO um gene de interesse (GOI), em que o GOI se integra em um locus específico compreendendo uma sequência de nucleotídeos que é de pelo menos 90 % idêntica à SEQ ID NO: 1 ou SEQ ID NO: 4 (b) cultura da célula de (a) sob condições que permitem a expressão do GOI e (c) recuperação da proteína de interesse. Em uma modalidade, a proteína de interesse é selecionada a partir do grupo que consiste em uma subunidade de uma imunoglobulina, ou fragmento da mesma, e um receptor, ou fragmento de ligação ao ligante do mesmo. Em certas modalidades, a proteína de interesse é selecionada a partir do grupo que consiste em uma cadeia leve de anticorpo, ou fragmento de ligação ao antígeno do mesmo, e uma cadeia pesada do anticorpo, ou fragmento de ligação ao antígeno do mesmo.

Em algumas modalidades, o GOI é introduzido na célula empregando um vetor de direcionamento para troca de cassete mediada por recombinase (RMCE) e o genoma da célula hospedeira CHO compreende pelo menos uma sequência de reconhecimento exógena dentro do locus específico. Em outras modalidades, o genoma da célula hospedeira CHO compreende pelo menos uma sequência de reconhecimento exógena e um marcador selecionável, opcionalmente ligado a um promotor, sequência IRES e / ou poliadenilação (poliA), dentro do locus específico.

Em certas modalidades, o genoma da célula hospedeira CHO compreende um ou mais locais de reconhecimento de recombinase, conforme descrito acima, e o GOI é introduzido no locus específico por meio da ação de uma recombinase que reconhece o local de reconhecimento de recombinase.

Em outra modalidade, o GOI é introduzido na célula empregando um vetor de direcionamento para recombinação homóloga, e em que o vetor de direcionamento compreende um braço de homologia 5 'homólogo a uma sequência presente no locus específico, um GOI e um braço de homologia 3' homólogo a uma sequência presente no locus específico. Em outra modalidade, o vetor de direcionamento compreende ainda dois, três, quatro ou cinco ou mais genes de interesse. Em outra modalidade, um ou mais dos genes de interesse estão operacionalmente ligados a um promotor.

Em outro aspecto, um vetor de direcionamento é fornecido em que o vetor de direcionamento compreende um braço de homologia 5 'homólogo a uma sequência presente em um locus compreendendo uma sequência de nucleotídeos que é pelo menos 90% idêntica à SEQ ID NO: 1 ou SEQ ID NO: 4 , um GOI e um braço de homologia 3 'homólogo a uma sequência presente em um locus compreendendo uma sequência de nucleotídeos que é pelo menos 90% idêntica à SEQ ID NO: 1 ou SEQ ID NO: 4. Em outra modalidade, o vetor de direcionamento compreende ainda dois, três, quatro ou cinco ou mais genes de interesse.

Em outro aspecto, um método é fornecido para modificar o genoma de uma célula CHO para integrar uma sequência de ácido nucleico exógena, compreendendo a etapa de introdução na célula de um veículo que inclui um vetor, em que o vetor compreende uma sequência de ácido nucleico exógena em que o ácido se integra dentro de um locus do genoma compreendendo uma sequência de nucleotídeos pelo menos 90% idêntica à SEQ ID NO: 1 ou SEQ ID NO: 4.

Em algumas modalidades, o vetor compreende um braço de homologia 5 'homólogo a uma sequência presente em um locus do genoma compreendendo uma sequência de nucleotídeos pelo menos 90% idêntica à SEQ ID NO: 1 ou SEQ ID NO: 4, uma sequência de ácido nucleico exógena , e um braço de homologia 3 'homólogo a uma sequência presente em um locus do genoma compreendendo uma sequência de nucleotídeos pelo menos 90% idêntica à SEQ ID NO: 1 ou SEQ ID NO: 4.

Em algumas modalidades, a sequência de ácido nucleico exógena no vetor compreende uma ou mais sequências de reconhecimento. Em outras modalidades, o ácido nucleico exógeno compreende um ou mais GOIs, como um marcador selecionável ou um ácido nucleico que codifica um POI. Em ainda outras modalidades, o ácido nucleico exógeno compreende um ou mais GOIs e uma ou mais sequências de reconhecimento.

Em uma modalidade, o veículo compreende pelo menos um vetor ou mRNA adicional. Em outra modalidade, o vetor adicional é escolhido do grupo que consiste em um adenovírus, um lentivírus, um retrovírus, um vírus adeno-associado, um vetor de fago de integração, um vetor não viral, um transposon e / ou transposase, um substrato de integrase e um plasmídeo. Em algumas modalidades, o vetor adicional compreende uma sequência de nucleotídeos que codifica uma nuclease específica de sítio para integrar a sequência de ácido nucleico exógena.

Em certas modalidades, a nuclease específica de local compreende uma nuclease de dedo de zinco (ZFN), um dímero de ZFN, uma nuclease efetora semelhante a ativador de transcrição (TALEN), uma proteína de fusão de domínio efetor TAL ou uma endonuclease de DNA guiada por RNA.

Em outro aspecto, um veículo é fornecido para modificar um genoma de células CHO para integrar uma sequência de ácido nucleico exógena, em que o veículo inclui um vetor, em que o vetor compreende um braço de homologia 5 'homólogo a uma sequência presente em um locus do genoma que compreende uma sequência de nucleotídeos pelo menos 90% idêntica à SEQ ID NO: 1 ou SEQ ID NO: 4, uma sequência de ácido nucleico exógena e um braço de homologia 3 'homólogo a uma sequência presente em um locus do genoma compreendendo uma sequência de nucleotídeos pelo menos 90% idêntica à SEQ ID NO: 1 ou SEQ ID NO: 4.

Em algumas modalidades, a sequência de ácido nucleico exógena compreende uma ou mais sequências de reconhecimento. Em outras modalidades, o ácido nucleico exógeno compreende um ou mais GOIs, como um marcador selecionável ou um ácido nucleico que codifica um POI. Em ainda outras modalidades, o ácido nucleico exógeno compreende um ou mais GOIs e uma ou mais sequências de reconhecimento.

Em ainda outro aspecto, é fornecido um método para modificar o genoma de uma célula CHO para expressar um agente terapêutico compreendendo um veículo para a introdução, no genoma, de um ácido nucleico exógeno compreendendo uma sequência para expressão do agente terapêutico, em que o veículo compreende um 5 ′ Braço de homologia homólogo a uma sequência presente na sequência de nucleotídeos de SEQ ID NO: 1, um ácido nucleico que codifica o agente terapêutico e um braço de homologia 3 ′ homólogo a uma sequência presente na sequência de nucleotídeos de SEQ ID NO: 1 ou SEQ ID NO: 4.

Em mais um aspecto, a invenção fornece uma célula hospedeira CHO modificada compreendendo um genoma CHO modificado em que o genoma CHO é modificado pela inserção de uma sequência de reconhecimento exógena dentro de um locus do genoma tendo uma sequência de nucleotídeos pelo menos 90% idêntica à SEQ ID NO : 1.

Em outro aspecto, a invenção fornece uma célula hospedeira eucariótica modificada compreendendo um genoma eucariótico modificado em que o genoma eucariótico é modificado em um local de integração alvo em uma região não codificadora do genoma para inserir um ácido nucleico exógeno. Em algumas modalidades, o ácido nucleico exógeno é uma sequência de reconhecimento. Em outras modalidades, a célula hospedeira é uma célula hospedeira de mamífero, como uma célula CHO. Em outras modalidades, o local de integração alvo compreende uma sequência de intensificação de expressão, como SEQ ID NO: 1, desde que a sequência não codifique quaisquer proteínas endógenas. A invenção também fornece métodos de produção de tal célula hospedeira eucariótica modificada.

Em qualquer um dos aspectos e modalidades descritos acima, a sequência de intensificação da expressão pode ser colocada na orientação indicada como na SEQ ID NO: 1 ou no reverso da orientação da SEQ ID NO: 1.

Qualquer um dos aspectos e modalidades da invenção pode ser usado em conjunto com qualquer outro aspecto ou modalidade da invenção, a menos que especificado de outra forma ou aparente a partir do contexto.

Outros objetivos e vantagens tornar-se-ão evidentes a partir de uma revisão da descrição detalhada que se segue.

BREVE DESCRIÇÃO DAS FIGURAS

FIGS. 1A e 1B. FIGO. 1A: Diagrama esquemático de um construto operável utilizando a introdução aleatória de uma molécula de ácido nucleico que expressa um GOI (por exemplo, um anticorpo de cadeias múltiplas) e várias cópias de um marcador de seleção em um genoma celular, por exemplo, um genoma CHO para identificar um alvo locus. A construção exemplificada inclui: Cadeia pesada (HC) Marcador de seleção de primeira cópia, como: gene de resistência à higromicina (Hyg) Cadeia leve de primeira cópia (LC) Marcador de seleção de segunda cópia (por exemplo, Hyg), Cadeia leve de segunda cópia (LC) Seleção de terceira cópia marcador (por exemplo, Hyg). FIGO. 1B: Exemplo de vetor doador para integração via recombinação homóloga no locus nativo identificado como SEQ ID NO: 1. Os braços de homologia 5 'e 3' são derivados da SEQ ID NO: 1.

FIGS. 2A a 2C ilustram que o locus da SEQ ID NO: (LOCUS 1), operacionalmente ligado a um gene de interesse (GOI), exibe expressão de mRNA aprimorada do GOI em comparação com o mesmo GOI que não está operacionalmente ligado ao LOCUS 1, em vez disso vinculado a um Locus de controle. FIGO. 2A: Número equivalente de cópias de genes exibidos para células que codificam um gene de anticorpo de interesse, isto é, uma cadeia pesada (HC) e duas cadeias leves (LC) operativamente ligadas ao Locus de Controle vs. LOCUS 1. FIG. 2B: os níveis de mRNA são mais elevados para GOI expresso no LOCUS 1 em comparação com o mRNA do Locus de controle. FIGO. 2C: O título da proteína é 3 vezes maior para células que expressam o GOI no LOCUS 1 em comparação com o título da proteína produzida a partir das células que expressam o mesmo GOI no Locus de controle.

FIGS. 3A e 3B ilustram um exemplo de cassete compreendendo um marcador fluorescente e um GOI integrado no LOCUS 1 (por exemplo, mKate flanqueado por locais lox para ser trocado com eYFP e um GOI) em comparação com o mesmo cassete integrado em um Locus de controle (trocado por um local fluorescente diferente marcador, por exemplo, dsRed2, flanqueado por locais lox), em que tal integração emprega Cre recombinase e troca de cassete mediada por recombinase (RMCE). Esses cassetes foram usados ​​em experimentos para medir a eficiência de recombinação e transcrição do GOI.

FIGO. 4 mostra um nível mais alto de mRNA de um gene de interesse (GOI), conforme medido em um pool de células CHO expressando o GOI em LOCUS 1 (SEQ ID NO: 1) em comparação com o mRNA de um pool de células CHO expressando o mesmo GOI, sob o mesmo condições regulatórias, mas integrado dentro do locus de controle, ou seja, EESYR.

DESCRIÇÃO DETALHADA

Antes dos presentes métodos serem descritos, deve ser entendido que esta invenção não está limitada a métodos particulares e condições experimentais descritas, uma vez que tais métodos e condições podem variar. Também deve ser entendido que a terminologia usada neste documento tem o propósito de descrever modalidades particulares apenas, e não se destina a ser limitante, uma vez que o escopo da presente invenção será limitado apenas pelas reivindicações anexas.

Conforme usado neste relatório descritivo e nas reivindicações anexas, as formas singulares "um", "uma" e "o" incluem referências no plural, a menos que o contexto indique claramente o contrário. Assim, por exemplo, uma referência a "um método" inclui um ou mais métodos e / ou etapas do tipo aqui descrito e / ou que se tornará aparente para aqueles versados ​​na técnica após a leitura desta divulgação.

A menos que definido de outra forma, ou especificado de outra forma, todos os termos técnicos e científicos usados ​​neste documento têm o mesmo significado como comumente entendido por alguém versado na técnica à qual esta invenção pertence.

Embora quaisquer métodos e materiais semelhantes ou equivalentes aos descritos neste documento possam ser usados ​​na prática ou teste da presente invenção, métodos e materiais particulares são agora descritos. Todas as publicações mencionadas neste documento são incorporadas neste documento por referência em sua totalidade.

Definições

As regiões de DNA estão operacionalmente ligadas quando estão funcionalmente relacionadas umas às outras. Por exemplo, um promotor está operacionalmente ligado a uma sequência de codificação se o promotor for capaz de participar na transcrição da sequência, um local de ligação ao ribossoma está operacionalmente ligado a uma sequência de codificação se estiver posicionado de forma a permitir a tradução. Geralmente, operacionalmente ligado pode incluir, mas não requer contiguidade. No caso de sequências como líderes secretores, a contiguidade e o posicionamento adequado em um quadro de leitura são características típicas. Uma sequência de aumento de expressão do locus de interesse está operacionalmente ligada a um gene de interesse (GOI) onde está funcionalmente relacionado ao GOI, por exemplo, onde sua presença resulta em expressão aumentada e / ou integração estável do GOI.

O termo "intensificado", quando usado para descrever a expressão intensificada, inclui um aprimoramento de pelo menos cerca de 1,5 a pelo menos cerca de 3 vezes na expressão sobre o que é tipicamente observado por integração aleatória de uma sequência exógena em um genoma ou por integração em um locus diferente, por exemplo, em comparação com um conjunto de integrantes aleatórios de uma única cópia da mesma construção de expressão. O aumento da expressão de dobra observado empregando as sequências da invenção é em comparação com um nível de expressão do mesmo gene, medido substancialmente nas mesmas condições, na ausência de uma sequência da invenção, por exemplo, em comparação com a integração em outro locus em o mesmo genoma da espécie. A eficiência de recombinação aumentada inclui um aumento da capacidade de um locus para recombinar (por exemplo, empregando locais de reconhecimento de recombinase). O aprimoramento refere-se a uma eficiência de recombinação em relação à recombinação aleatória, por exemplo, sem empregar locais de reconhecimento de recombinase ou semelhantes, que é tipicamente 0,1%. Uma eficiência de recombinação melhorada preferida é cerca de 10 vezes maior que a aleatória, ou cerca de 1%. A menos que especificado, a invenção reivindicada não está limitada a uma eficiência de recombinação específica.

Quando a frase "gene adicionado exogenamente" ou "ácido nucleico adicionado exogenamente" é empregada com referência a um locus de interesse, a frase se refere a qualquer sequência de DNA ou gene não presente dentro do locus de interesse como o locus é encontrado na natureza. Por exemplo, um "gene adicionado exogenamente" dentro de um locus CHO (por exemplo, um locus compreendendo uma sequência de SEQ ID NO: 1), pode ser um gene de hamster não encontrado dentro do locus CHO particular na natureza (ou seja, um gene de hamster de outro locus no genoma do hamster), um gene de qualquer outra espécie (por exemplo, um gene humano), um gene quimérico (por exemplo, humano / camundongo) ou qualquer outro gene não encontrado na natureza dentro do locus CHO de interesse.

A identidade percentual, ao descrever um locus de interesse, tal como SEQ ID NO: 1 ou SEQ ID NO: 4, ou um fragmento das mesmas, pretende incluir sequências homólogas que exibem a identidade recitada ao longo de regiões de homologia contígua, mas a presença de lacunas, deleções ou inserções que não têm homólogo na sequência comparada não são levadas em consideração no cálculo da identidade percentual.

Tal como aqui utilizado, uma determinação de "porcentagem de identidade" entre, por exemplo, SEQ ID NO: 1, ou fragmento da mesma, com um homólogo de espécie não incluiria uma comparação de sequências em que o homólogo de espécie não tem sequência homóloga para comparar em um alinhamento (ou seja, , SEQ ID NO: 1 ou o fragmento da mesma tem uma inserção naquele ponto, ou o homólogo da espécie tem uma lacuna ou deleção, conforme o caso). Portanto, “porcentagem de identidade” não inclui penalidades para lacunas, exclusões e inserções.

Uma "sequência homóloga" no contexto de sequências de ácido nucleico refere-se a uma sequência que é substancialmente homóloga a uma sequência de ácido nucleico de referência. Em algumas modalidades, duas sequências são consideradas substancialmente homólogas se pelo menos 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93% , 94%, 95%, 96%, 97%, 98%, 99% ou mais de seus nucleotídeos correspondentes são idênticos em um trecho relevante de resíduos. Em algumas modalidades, o trecho relevante é uma sequência completa (ou seja, completa).

"Inserção direcionada" refere-se a métodos de direcionamento de gene empregados para direcionar a inserção ou integração do gene ou sequência de ácido nucleico em um local específico no genoma, ou seja, para direcionar o DNA para um local específico entre dois nucleotídeos em uma cadeia polinucleotídica contígua. A inserção direcionada também pode ser feita para uma cassete de gene particular, que inclui vários genes, elementos reguladores e / ou sequências de ácido nucleico. “Inserção” e “integração” são usados ​​alternadamente. Entende-se que a inserção de um gene ou sequência de ácido nucleico (por exemplo, uma sequência de ácido nucleico compreendendo um cassete de expressão) pode resultar em (ou pode ser projetada para) a substituição ou exclusão de um ou mais ácidos nucleicos, dependendo da técnica de edição de gene sendo utilizado.

“Local de reconhecimento” ou “sequência de reconhecimento” é uma sequência de DNA específica reconhecida por uma nuclease ou outra enzima para se ligar e direcionar a clivagem específica do local da estrutura do DNA. As endonucleases clivam o DNA dentro de uma molécula de DNA. Os sites de reconhecimento também são referidos na arte como sites de destino de reconhecimento.

“Local de reconhecimento de recombinase” é a sequência de DNA específica reconhecida por uma recombinase, como Cre recombinase (Cre) ou flippase (flp). As recombinases específicas do local podem realizar rearranjos de DNA, incluindo deleções, inversões e translocações quando uma ou mais de suas sequências de reconhecimento de alvo são colocadas estrategicamente no genoma de um organismo.Em um exemplo, Cre medeia especificamente eventos de recombinação em seu local de reconhecimento de DNA alvo loxP, que é composto por duas repetições invertidas de 13 pb separadas por um espaçador de 8 pb. Mais de um local de reconhecimento de recombinase pode ser empregado, por exemplo, para facilitar uma troca de DNA mediada por recombinação. Variantes ou mutantes de locais de reconhecimento de recombinase, por exemplo, locais lox, também podem ser empregados (Araki, N. et al, 2002, Pesquisa de Ácidos Nucleicos, 30:19, e103).

"Troca de cassete mediada por recombinação" refere-se a um processo para substituir precisamente um cassete alvo genômico por um cassete doador. As composições moleculares tipicamente fornecidas a fim de realizar este processo incluem 1) um cassete alvo genômico flanqueado tanto 5 'quanto 3' por locais alvo de reconhecimento específicos para uma determinada recombinase, 2) um cassete doador flanqueado por locais alvo de reconhecimento correspondentes, e 3) a recombinase específica do local. As proteínas recombinantes são bem conhecidas na técnica (Turan, S. e Bode J., 2011. FASEB J., 25, pp. 4088-4107) e permitem a clivagem precisa do DNA dentro de um local alvo de reconhecimento específico (sequência de DNA) sem ganho ou perda de nucleotídeos. Combinações comuns de recombinase / local incluem, mas não estão limitadas a Cre / ox e Flp / frt.

Um "veículo" é uma composição que consiste em qualquer polinucleotídeo ou conjunto de polinucleotídeos carregando um ácido nucleico exógeno para introdução em uma célula. Um veículo inclui vetores, plasmídeos e moléculas de mRNA que são entregues à célula por métodos de transfecção bem conhecidos. Em um exemplo, um mRNA introduzido nas células pode ser transitório e não se integra ao genoma, no entanto, o mRNA pode transportar ácido nucleico exógeno necessário para que o processo de integração ocorra.

DESCRIÇÃO GERAL

A invenção é baseada, pelo menos em parte, na descoberta de sequências únicas, isto é, loci, em um genoma que exibe recombinação mais eficiente, estabilidade de inserção e nível de expressão mais alto do que outras regiões ou sequências no genoma. A invenção também é baseada, pelo menos em parte, na descoberta de que quando tais sequências de aumento de expressão são identificadas, um gene ou construto adequado pode ser adicionado exogenamente nas ou próximo às sequências e que o gene adicionado exogenamente pode ser vantajosamente expresso ou utilizado para mais modificações genômicas. Essas sequências, denominadas sequências de intensificação da expressão, são consideradas estáveis ​​e não estão localizadas dentro de uma região de codificação do genoma. Essas regiões de aumento de expressão e estabilidade podem ser projetadas para futuros eventos de clonagem ou edição de genoma. Assim, um sistema de expressão confiável é construído na estrutura genômica da célula.

A invenção também se baseia no direcionamento específico de um gene exógeno para o local de integração. Os métodos da invenção permitem a "conversão" eficiente do genoma celular em um cassete de clonagem útil, por exemplo, empregando troca de cassete mediada por recombinase (RMCE). Para este fim, os métodos da invenção empregam locais de reconhecimento de recombinase do genoma celular para a colocação de genes de interesse para criar linhas de células altamente produtivas para a produção de proteína recombinante.

As composições da invenção também podem ser incluídas em construções de expressão, por exemplo, em vetores de expressão para clonagem e engenharia de novas linhas celulares. Os vetores de expressão que compreendem os polinucleotídeos da invenção podem ser usados ​​para expressar proteínas transitoriamente ou podem ser integrados em um genoma por recombinação aleatória ou direcionada, como, por exemplo, recombinação homóloga ou recombinação mediada por recombinases que reconhecem locais de recombinação específicos (por exemplo, Crebinação recombinação mediada por -lox). Os vetores de expressão compreendendo os polinucleotídeos da invenção também podem ser usados ​​para avaliar a eficácia de outras sequências de DNA, por exemplo, sequências regulatórias de ação cis.

Os locais de integração são normalmente identificados por integração aleatória ou análise de eventos de integração retroviral. O local de integração CHO descrito em detalhes neste documento foi identificado por integração aleatória de DNA que codifica um anticorpo de cadeias múltiplas e a proteína expressa foi encontrada para exibir expressão aumentada.

O exemplo de anticorpo de cadeia múltipla compreendendo uma cadeia pesada (HC) e duas cópias de uma cadeia leve (LC) foram integrados aleatoriamente no genoma em uma cassete de expressão contendo genes alternados de resistência à higromicina (ver, por exemplo, três genes Hyg idênticos conforme representado na FIG . 1A). Um clone estável e de alta expressão resultou da integração do cassete de expressão dentro dos loci identificados como SEQ ID NO: 1.

Em comparação com a integração em outra região do genoma CHO (local de integração de controle), o anticorpo de cadeia múltipla de exemplo exibe níveis de expressão mais elevados quando integrado no locus de SEQ ID NO: 1. Curiosamente, o número de cópias do gene é comparável para os polinucleotídeos que expressam anticorpos integrados na SEQ ID NO: versus o local de integração de controle, no entanto, os títulos de proteína são 3 vezes maiores para os polinucleotídeos que expressam anticorpos integrados na SEQ ID NO: 1.

Métodos de recombinação direcionados foram usados ​​para converter o genoma da célula CHO em um construto de clonagem contendo locais de reconhecimento de recombinase (ver, por exemplo, FIGS. 3A-B).

Essencialmente, após a identificação do local de integração da SEQ ID NO: 1, locais de reconhecimento de recombinase (por exemplo, locais lox) foram empregados no locus para a introdução de cassetes de expressão que compreendem um GOI expressável, tal como um marcador selecionável (ver, por exemplo, FIGS. 3A-B), juntamente com quaisquer outros elementos desejáveis, como, por exemplo, promotores, intensificadores, marcadores, operadores, locais de ligação ao ribossomo (por exemplo, locais de entrada do ribossomo interno), etc.

Uma ilustração de um exemplo de construto doador usado para integração direcionada de locais lox dentro da SEQ ID NO: 1 é mostrada na FIG. 1B. A construção do doador compreende um cassete de expressão conduzido por um gene de resistência à neomicina (neo) e um sítio de entrada de ribossomo interno (IRES), em que o cassete compreende um marcador fluorescente (mKate) e é flanqueado nas extremidades 5 'e 3' com reconhecimento de recombinase locais e braços de homologia 5 'e 3' (homólogo a SEQ ID NO: 1). A inserção dentro do locus da SEQ ID NO: é mostrada, em que a inserção resulta no construto doador neo / mKate substituindo o cassete de expressão que compreende o marcador de resistência à higromicina, em que o cassete de expressão dentro do locus SEQ ID NO: 1 é flanqueado em seu 5 Termina ′ e 3 ′ por locais de reconhecimento de recombinase conectados aos braços de homologia 5 'e 3' (homólogo a SEQ ID NO: 1) (ver FIG. 1B).

Composições e métodos são fornecidos para integrar de forma estável uma sequência de ácido nucleico em uma célula eucariótica, em que a sequência de ácido nucleico é capaz de expressão aumentada em virtude de ser integrada na SEQ ID NO: 1 ou um fragmento de aumento de expressão da mesma. São fornecidas células que contêm uma sequência de reconhecimento de recombinase dentro da SEQ ID NO: 1 conveniente para inserir um GOI, a fim de alcançar a expressão de uma proteína de interesse do GOI. Composições e métodos também são fornecidos para direcionar os locais de integração em conexão com construtos de expressão, por exemplo, vetores de expressão, e para adicionar um (s) ácido (s) nucleico (s) exógeno (s) em uma célula CHO de interesse.

Caracterização física e funcional de um local de integração CHO

A sequência de ácido nucleico da SEQ ID NO: 1 (e a sequência de ácido nucleico mais ampla da SEQ ID NO: 4) foi empiricamente identificada por sequências a montante e a jusante do sítio de integração de um construto de ácido nucleico (compreendendo um cassete de expressão) de uma linha celular expressando uma proteína em um nível elevado. As sequências de ácido nucleico da invenção fornecem sequências com uma nova funcionalidade associada à expressão e estabilidade aprimoradas de um ácido nucleico (por exemplo, um ácido nucleico exógeno compreendendo um GOI) e sem estar vinculado a qualquer teoria, pode funcionar da mesma forma ou de forma diferente daquele previamente descrito para elementos de ação cis, tais como promotores, intensificadores, regiões de controle de locus, regiões de fixação de andaime ou regiões de fixação de matriz. SEQ ID NO: 1 não parece ter nenhuma estrutura de leitura aberta (ORFs), tornando improvável que o locus codifique novas proteínas transativadoras. Uma proteína dedo de zinco putativa foi identificada no locus genômico 3 '(a jusante) de SEQ ID NO: 4.

A atividade de aumento de expressão foi identificada em relação à integração de um cassete de expressão compreendendo um primeiro gene de higromicina (Hyg), um primeiro GOI, um segundo gene Hyg, um segundo GOI, um terceiro gene Hyg e uma terceira sequência codificadora de GOI dentro de um único local de uma região não codificadora do DNA genômico de CHO. Os vetores de expressão compreendendo, por exemplo, uma região de 1 kb isolada 5 'e uma região de 1 kb isolada 3' identificada a partir da região não codificadora do DNA genômico de CHO em relação a um cassete de expressão que expressa um GOI foram capazes de conferir às células CHO transfectadas com eles altos níveis de expressão de proteínas recombinantes.

A invenção abrange vetores de expressão compreendendo fragmentos SEQ ID NO: 1 orientados reversamente ou fragmentos SEQ ID NO: 4. Outras combinações dos fragmentos aqui descritos também podem ser desenvolvidas. Exemplos de outras combinações dos fragmentos descritos neste documento que também podem ser desenvolvidos incluem sequências que incluem múltiplas cópias das sequências de aumento de expressão divulgadas neste documento, ou sequências derivadas pela combinação dos fragmentos SEQ ID NO: 1 divulgados ou fragmentos SEQ ID NO: 4 com outras sequências de nucleotídeos para alcançar combinações ótimas de elementos reguladores. Tais combinações podem ser ligadas de forma contígua ou arranjadas para fornecer espaçamento ideal dos fragmentos SEQ ID NO: 1 ou SEQ ID NO: 4 (por exemplo, pela introdução de nucleotídeos espaçadores entre os fragmentos). Elementos reguladores também podem ser dispostos para fornecer espaçamento ideal de um fragmento SEQ ID NO: 1 em relação aos elementos reguladores.

SEQ ID NO: 1 e SEQ ID NO: 4 aqui divulgadas foram isoladas de células CHO. Outras espécies de mamíferos (como, por exemplo, humanos ou camundongos), mostraram ter homologia limitada à região de aumento de expressão identificada, no entanto, sequências homólogas podem ser encontradas em linhas celulares derivadas de outros tipos de tecido de Cricetulus griseus, ou outras espécies homólogas, e podem ser isolados por técnicas que são bem conhecidas na técnica. Por exemplo, pode-se identificar outras sequências homólogas por hibridização de espécies cruzadas ou técnicas baseadas em PCR. Além disso, podem ser feitas alterações na sequência de nucleotídeos apresentada em SEQ ID NO: 1, SEQ ID NO: 4, ou seus fragmentos, por técnicas de mutagênese direcionada ao local ou aleatória que são bem conhecidas na técnica. As variantes de sequência resultantes podem então ser testadas quanto à atividade de intensificação da expressão, conforme descrito neste documento. Os DNAs que são pelo menos cerca de 90% idênticos em identidade de ácido nucleico a SEQ ID NO: 1, SEQ ID NO: 4 ou fragmentos dos mesmos, com atividade de aumento de expressão, são isoláveis ​​por experimentação de rotina e espera-se que exibam atividade de aumento de expressão . Para fragmentos de SEQ ID NO: 1 ou SEQ ID NO: 4, a identidade percentual refere-se à porção da sequência nativa de referência que se encontra no fragmento SEQ ID NO: 1 ou fragmento SEQ ID NO: 4. Consequentemente, homólogos de SEQ ID NO: 1, SEQ ID NO: 4, ou fragmentos dos mesmos, e variantes dos mesmos, também estão incluídos nas modalidades da invenção.

Em certas modalidades, o fragmento da SEQ ID NO: 1 é selecionado do grupo que consiste em nucleotídeos que abrangem as posições numeradas 10-4.000 100-3.900 200-3.800 300-3.700 400-3.600 500-3.500 600-3.400 700-3.300 800-3.200 900-3.100 1.000-3.000 1.100-2.900 1.200-2.800 1.300-2.700 1.200-2.600 1.300-2.500 1.400-2.400 1.500-2.300 1.600-2.200 1.700-2100 1.800-2050 1850-2050, 1.900-2040 1950-2.025, 1990-2021 , 2002-2021 e 2.010-2.015 da SEQ ID NO: 1. Em outra modalidade, o fragmento da SEQ ID NO: 1 é selecionado do grupo que consiste em nucleotídeos que abrangem as posições numeradas 10-500 500-1.000 500-2,100 1.000-1.500 1.000-2.100 1.500-2.000 1.500-2.500 2.000-2.500 2.500-3.000 2.500-3.500 3.000-3.500 3.000-4.000 e 3.500-4.000 da SEQ ID NO: 1. Em certas modalidades, a sequência de ácido nucleico exógena se integra em ou próximo a locais específicos dentro do fragmento descrito acima.

Em outra modalidade, a sequência de ácido nucleico exógena é posicionada dentro da SEQ ID NO: 1 ou fragmentos da mesma como descrito acima, ou dentro de uma sequência que é pelo menos cerca de 90% idêntica, pelo menos cerca de 91% idêntica, pelo menos cerca de 92% idêntica , pelo menos cerca de 93% idêntico, pelo menos cerca de 94% idêntico, pelo menos cerca de 95% idêntico, pelo menos cerca de 96% idêntico, pelo menos cerca de 97% idêntico, pelo menos cerca de 98% idêntico ou pelo menos cerca de 99% idêntico à sequência de intensificação de expressão de SEQ ID NO: 1 ou um fragmento de intensificação de expressão desta.

Populações de células que expressam níveis aumentados de uma proteína de interesse podem ser desenvolvidas usando os métodos aqui fornecidos. O nível absoluto de expressão irá variar com a proteína específica, dependendo de quão eficientemente a proteína é processada pela célula. Conjuntos de células desenvolvidos com sequência (s) exógena (s) integrada (s) nas sequências de aumento de expressão da invenção são estáveis ​​ao longo do tempo e podem ser tratados como linhas de células estáveis ​​para a maioria dos propósitos. As etapas de recombinação também podem ser atrasadas até mais tarde no processo de desenvolvimento das linhas celulares da invenção.

Locus de Melhoria de Expressão CHO e seus fragmentos

A invenção abrange um fragmento de intensificação da expressão de uma sequência de nucleotídeos que é pelo menos cerca de 90% idêntica, pelo menos cerca de 91% idêntica, pelo menos cerca de 92% idêntica, pelo menos cerca de 93% idêntica, pelo menos cerca de 94% idêntica, em pelo menos cerca de 95% idêntica, pelo menos cerca de 96% idêntica, pelo menos cerca de 97% idêntica, pelo menos cerca de 98% idêntica, ou pelo menos cerca de 99% idêntica à sequência de nucleotídeos de SEQ ID NO: 1 ou SEQ ID NO: 4 . A invenção inclui vetores que compreendem um fragmento, incluindo para transfecção transitória ou estável, abrangendo posições numeradas 10-4.000 100-3.900 200-3.800 300-3.700 400-3.600 500-3.500 600-3.400 700-3.300 800-3.200 900-3.100 1.000 -3.000 1.100-2.900 1.200-2.800 1.300-2.700 1.200-2.600 1.300-2.500 1.400-2.400 1.500-2.300 1.600-2.200 1.700-2100 1.800-2050 1850-2050, 1.900-2040 1950-2.025, 1990-2021, 2002-2021 e 2.010-2.015 de SEQ ID NO: 1. A invenção também inclui uma célula eucariótica compreendendo um tal fragmento em que o fragmento é exógeno à célula e está integrado no genoma celular, e células compreendendo tal fragmento tendo pelo menos um local de reconhecimento de recombinase que está dentro, imediatamente 5 ', ou imediatamente 3 ′ para o fragmento.

Em uma modalidade, o fragmento de aumento de expressão da SEQ ID NO: 1 está localizado em uma posição dentro da SEQ ID NO: 1 abrangendo as posições numeradas 10-500 500-1.000 500-2.100 1.000-1.500 1.000-2.100 1.500-2.000 1.500-2.500 2.000-2.500 2.500-3.000 2.500-3.500 3.000-3.500 3.000-4.000 ou 3.500-4.000 de SEQ ID NO: 1.

Onde a integração estável e / ou a transcrição melhorada de um polinucleotídeo integrado é suportada, a localização exata do local de inserção do locus (isto é, integração) em relação aos locais exemplificados não é essencial. Em vez disso, o local de integração pode estar em qualquer posição que está dentro ou adjacente à SEQ ID NO: 1 ou um fragmento da SEQ ID NO: 1, ou SEQ ID NO: 4 ou um fragmento da SEQ ID NO: 4, conforme descrito neste documento . Se uma localização cromossômica específica dentro ou adjacente ao locus de interesse suporta integração estável e transcrição eficiente de um gene exógeno integrado pode ser determinada de acordo com procedimentos padrão bem conhecidos na técnica ou métodos exemplificados neste documento.

Os locais de integração considerados neste documento estão localizados dentro de um locus que compreende a sequência de nucleotídeos de SEQ ID NO: 1 ou SEQ ID NO: 4, ou em estreita proximidade com o locus de interesse, por exemplo, menos de cerca de 1 kb, 500 pares de bases (bp ), 250 pb, 100 pb, 50 pb, 25 pb, 10 pb, ou menos do que cerca de 5 pb a montante (5 ′) ou a jusante (3 ′) em relação à localização de SEQ ID NO: 1 no DNA cromossômico. Em ainda algumas outras modalidades, o local de integração empregado está localizado em cerca de 1000, 2500, 5000 ou mais pares de bases a montante (5 ′) ou a jusante (3 ′) em relação à localização de SEQ ID NO: 1 ou SEQ ID NO: 4 no DNA cromossômico.

É entendido na técnica que grandes regiões genômicas, tais como regiões de fixação de andaime / matriz, são empregadas para replicação e transcrição eficientes de DNA cromossômico. Uma região de fixação de andaime / matriz (S / MAR), também conhecida como região de fixação de andaime (SAR), ou associada à matriz ou região de fixação de matriz (MAR), é uma região de DNA genômica eucariótica onde a matriz nuclear se liga. Sem estar vinculado a qualquer teoria, S / MARs normalmente mapeiam para regiões não codificantes, separam uma determinada região transcricional (por exemplo, domínio de cromatina) de seus vizinhos e também fornecem plataformas para a maquinaria e / ou ligação de fatores que permitem a transcrição, tais como locais de reconhecimento para DNAses ou polimerases. Alguns S / MARs foram caracterizados em cerca de 14-20 kb de comprimento (Klar, et al. 2005, Gene 364: 79-89). Como tal, espera-se que a integração de genes em LOCUS 1 (dentro ou perto de SEQ ID NO: 1 ou SEQ ID NO: 4) confira expressão aumentada.

Aqueles na técnica reconhecerão que vários elementos podem ser otimizados para alta atividade transcricional no locus sujeito, resultando em alta expressão de um gene inserido que codifica uma proteína de interesse. Os elementos a serem considerados incluem um promotor forte para conduzir a transcrição, maquinaria transcricional adequada e DNA tendo uma configuração aberta e acessível. A inserção no locus do sujeito pode ser otimizada dentro da habilidade do especialista na técnica, visando um local de integração selecionado dentro da SEQ ID NO: 1 ou SEQ ID NO: 4.

Em uma modalidade, a sequência de aumento de expressão de SEQ ID NO: 1 é empregada para aumentar a expressão de um GOI. FIGO. 2A mostra os resultados de um GOI operacionalmente ligado à SEQ ID NO: 1 (LOCUS 1) em comparação com o mesmo GOI integrado em um locus diferente no genoma da célula CHO (Locus de controle). O número de cópias do gene medido para cada linha celular é equivalente, no entanto, as experiências mostram que o nível de mRNA e o título de proteína das células que expressam o GOI são 3 vezes maiores para o GOI operacionalmente ligado ao LOCUS 1.

Em várias modalidades, a expressão de um GOI pode ser aumentada colocando o GOI dentro da SEQ ID NO: 1 ou SEQ ID NO: 4. Em várias modalidades, o aumento na expressão é de pelo menos cerca de 1,5 vezes a cerca de 3 vezes ou mais.

Modificando Geneticamente o Locus Alvo

Os métodos para a engenharia genética de um genoma celular em um local específico (isto é, locus alvo) podem ser alcançados de várias maneiras. Técnicas de edição genética foram usadas para integrar de forma estável uma sequência de ácido nucleico em uma célula eucariótica, em que a sequência de ácido nucleico é uma sequência exógena normalmente não encontrada em tais células. A expansão clonal é necessária para garantir que a progênie celular irá compartilhar as características genotípicas e fenotípicas idênticas da linha celular modificada.Em alguns exemplos, as células nativas são modificadas por uma técnica de recombinação homóloga para integrar uma sequência de ácido nucleico exógena dentro de SEQ ID NO: 1 ou SEQ ID NO: 4. Em outros exemplos, são fornecidas células que contêm pelo menos uma sequência de reconhecimento de recombinase dentro de SEQ ID NO: 1 ou SEQ ID NO: 4 conveniente para integrar uma sequência de ácido nucleico exógena ou um gene de interesse.

Em alguns exemplos, são fornecidas células que contêm uma primeira sequência de reconhecimento de recombinase e uma segunda sequência de reconhecimento de recombinase em que cada uma das primeira e segunda sequências de reconhecimento de recombinase é selecionada a partir do grupo que compreende LoxP, Lox511, Lox5171, Lox2272, Lox2372, Loxm2, Lox -FAS, Lox71, Lox66 e seus mutantes. Neste caso, onde a troca de cassete mediada por recombinase (RMCE) é desejada, a recombinase específica do local é Cre recombinase ou seu derivado. Em outros exemplos, cada uma das primeira e segunda sequências de reconhecimento de recombinase é selecionada a partir do grupo que compreende FRT, F3, F5, FRT mutante-10, FRT mutante + 10 e seus mutantes e, neste cenário, onde RCME é desejado, a recombinase específica do local é Flp recombinase ou seu derivado. Em ainda outro exemplo, cada uma das referidas primeira e segunda sequências de reconhecimento de recombinase é selecionada a partir do grupo que compreende attB, attP e seus mutantes, e neste caso onde RMCE é desejado, a recombinase específica do local é phiC31 integrase ou seu derivado .

Em um aspecto, métodos e composições para integrar de forma estável uma sequência de ácido nucleico dentro da SEQ ID NO: 1 ou SEQ ID NO: 4, ou um fragmento de intensificação da expressão dos mesmos, são via recombinação homóloga. Uma molécula de ácido nucleico, .i.e. gene ou polinucleotídeo de interesse, pode ser inserido no locus direcionado (ou seja, SEQ ID NO: 1) por recombinação homóloga ou usando métodos de nuclease específicos de sítio que visam especificamente sequências nos sítios de integração. Para recombinação homóloga, moléculas polinucleotídicas homólogas (isto é, braços homólogos) se alinham e trocam um trecho de suas sequências. Um transgene pode ser introduzido durante esta troca se o transgene for flanqueado por sequências genômicas homólogas. Em um exemplo, um local de reconhecimento de recombinase pode ser introduzido no genoma da célula hospedeira nos locais de integração.

A recombinação homóloga em células eucarióticas pode ser facilitada pela introdução de uma quebra no DNA cromossômico no local de integração. Os sistemas modelo demonstraram que a frequência da recombinação homóloga durante o direcionamento do gene aumenta se uma quebra de fita dupla for introduzida na sequência alvo cromossômica. Isso pode ser conseguido direcionando certas nucleases para o local específico de integração. As proteínas de ligação a DNA que reconhecem sequências de DNA no locus alvo são conhecidas na técnica. Os vetores de direcionamento de genes também são empregados para facilitar a recombinação homóloga. Na ausência de um vetor de direcionamento de gene para reparo direcionado por homologia, as células frequentemente fecham a quebra de fita dupla por união de extremidade não homóloga (NHEJ), o que pode levar à deleção ou inserção de múltiplos nucleotídeos no local de clivagem. Caso as inserções ou exclusões (InDels) ocorram, como tal, um pequeno número de nucleotídeos são inseridos ou excluídos aleatoriamente no local da quebra e esses InDels podem mudar ou interromper qualquer quadro de leitura aberto (ORF) de um gene dentro do alvo locus. Entende-se que o locus identificado como SEQ ID NO: 1 (ou SEQ ID NO: 4) não é uma região de codificação de gene. Portanto, nenhuma interrupção da transcrição do gene endógeno é prevista pela inserção e / ou deleção neste locus.

A reparação dirigida por homologia (ou recombinação dirigida por homologia) (HDR) é particularmente útil para inserir ou integrar genes no locus sujeito. Um construto doador compreende braços homólogos derivados de SEQ ID NO: 1 ou SEQ ID NO: 4 conforme descrito neste documento.

A construção do vetor de direcionamento do gene e a seleção de nuclease estão dentro da habilidade do especialista a quem esta invenção pertence.

Em alguns exemplos, as nucleases de dedo de zinco (ZFNs), que têm uma estrutura modular e contêm domínios de dedo de zinco individuais, reconhecem uma sequência particular de 3 nucleotídeos na sequência alvo (por exemplo, local de integração direcionada). Algumas modalidades podem utilizar ZFNs com uma combinação de domínios de dedo de zinco individuais visando múltiplas sequências alvo.

As nucleases efetoras do tipo ativador de transcrição (TAL) (TALENs) também podem ser empregadas para a edição do genoma específico do local. O domínio de ligação ao DNA da proteína efetora TAL é tipicamente utilizado em combinação com um domínio de clivagem não específico de uma nuclease de restrição, tal como FokI. Em algumas modalidades, uma proteína de fusão compreendendo um domínio de ligação ao DNA da proteína efetora TAL e um domínio de clivagem de nuclease de restrição é empregada para reconhecer e clivar o DNA em uma sequência alvo dentro do locus da invenção (Boch J et al., 2009 Ciência 326:1509-1512).

Endonucleases guiadas por RNA (RGENs) são ferramentas programáveis ​​de engenharia do genoma que foram desenvolvidas a partir da maquinaria imunológica adaptativa bacteriana. Neste sistema - as repetições palindrômicas curtas regularmente interespaçadas (CRISPR) / resposta imune associada a CRISPR (Cas) - a proteína Cas9 forma uma endonuclease específica de sequência quando complexada com dois RNAs, um dos quais guia a seleção do alvo. RGENs consistem em componentes (Cas9 e tracrRNA) e um RNA CRISPR específico do alvo (crRNA). Tanto a eficiência da clivagem do DNA alvo quanto a localização dos locais de clivagem variam com base na posição de um motivo adjacente do protoespaçador (PAM), um requisito adicional para o reconhecimento do alvo (Chen, H. et al, J. Biol. Chem. publicado online em 14 de março de 2014, como Manuscrito M113.539726).

Estratégias para identificar sequências únicas para o locus de direcionamento específico de SEQ ID NO: 1 são conhecidas na técnica, no entanto, o alinhamento de muitas dessas sequências com o genoma CHO revela potenciais locais fora do alvo com correspondência de 16-17 pares de bases. Um exemplo de RNA Guia de 20 pb codificado pela sequência apresentada em SEQ ID NO: 5 (correspondendo aos nucleotídeos 1990-2001 de SEQ ID NO: 1) é útil para edição de gene CRISPR / Cas guiada por RNA de SEQ ID NO: 1 ou SEQ ID NO: 4. Um plasmídeo compreendendo um promotor que conduz a expressão do pequeno RNA guiado e um tracrRNA (por ex. SEQ ID NO: 6), bem como transportando uma enzima Cas9 adequada sob o controle de um promotor pode ser cotransfectado com um vetor doador ( carregando o gene de interesse flanqueado por braços de homologia 5 'e 3') para empregar integração direcionada por este método. Várias modificações e variantes das moléculas de RNA, além daquelas descritas acima, são evidentes para os versados ​​na técnica e destinam-se a cair dentro do escopo da invenção.

Em algumas modalidades, o veículo para a introdução, no genoma, de um ácido nucleico exógeno compreendendo uma sequência que codifica para o gene de interesse ou sequência de reconhecimento ou cassete de gene, conforme o caso, compreende um vetor que transporta o ácido nucleico exógeno e um ou mais vetores adicionais ou mRNA. Em uma modalidade, um ou mais vetores ou mRNA adicionais compreendem uma sequência de nucleotídeos que codifica uma nuclease específica de local, incluindo, mas não se limitando a uma nuclease de dedo de zinco (ZFN), um dímero de ZFN, uma nuclease efetora semelhante a ativador de transcrição (TALEN) , uma proteína de fusão de domínio efetor TAL e uma endonuclease de DNA guiada por RNA. Em certas modalidades, um ou mais vetores ou mRNA compreendem um primeiro vetor compreendendo um RNA guia, um tracrRNA e uma sequência de nucleotídeos que codifica uma enzima Cas e um segundo vetor compreendendo uma sequência de nucleotídeos doadora (exógena). Essa sequência doadora compreende uma sequência de nucleotídeos que codifica para o gene de interesse, ou a sequência de reconhecimento, ou o cassete de gene que compreende qualquer um desses elementos exógenos destinados à inserção direcionada. Quando o mRNA é usado, o mRNA pode ser transfectado na célula por meio de métodos de transfecção comuns conhecidos pelo especialista e pode codificar uma enzima, por exemplo, uma transposase ou endonuclease. Embora um mRNA introduzido nas células possa ser transitório e não se integre ao genoma, o mRNA pode transportar um ácido nucleico exógeno necessário ou benéfico para que a integração ocorra. Em alguns casos, o mRNA é escolhido a fim de eliminar qualquer risco de efeitos colaterais de longa duração de um polinucleotídeo acessório, onde apenas a expressão de curto prazo é necessária para atingir a integração desejada de um GOI.

Ainda outros métodos de recombinação homóloga estão disponíveis para os versados ​​na técnica, tais como nucleases derivadas de BuD (BuDNs) com especificidades de ligação de DNA precisas (Stella, S. et al. Acta Cryst. 2014, D70, 2042-2052). Métodos precisos de modificação do genoma são escolhidos com base nas ferramentas disponíveis compatíveis com sequências alvo únicas dentro da SEQ ID NO: 1 de modo que a interrupção do fenótipo celular seja evitada.

Construtos de direcionamento de genes

A sequência polinucleotídica a ser integrada no genoma do hospedeiro pode ser qualquer sequência de DNA útil industrialmente, tal como uma sequência de reconhecimento, para a geração de sistemas de expressão celular. A sequência polinucleotídica a ser integrada no genoma do hospedeiro pode codificar qualquer proteína ou proteínas terapeuticamente ou industrialmente úteis como aqui descrito. A identificação da sequência alvo dentro do locus alvo para integrar a sequência de ácido nucleico exógena depende de uma série de fatores. Dependendo do método de recombinação homóloga utilizado, está bem dentro da habilidade do especialista selecionar sequências homólogas à SEQ ID NO: 1 ou SEQ ID NO: 4. Os vetores de nuclease específicos do local, quando empregados, requerem componentes adicionais (composições de sequência ) que reconhecem o local específico destinado à clivagem de DNA.

Como tal, uma construção de direcionamento de gene tipicamente incorpora tais sequências de nucleotídeos que facilitam a integração direcionada de uma sequência de ácido nucleico exógena no locus de interesse. Em algumas modalidades, o construto compreende um primeiro braço homólogo e um segundo braço homólogo. Em outras modalidades, o construto (por exemplo, um cassete de gene) compreende braços homólogos derivados de SEQ ID NO: 1 ou SEQ ID NO: 4. Em algumas modalidades, os braços de homologia compreendem uma sequência de nucleotídeos homóloga a uma sequência de nucleotídeos presente na SEQ ID NO: 1 ou SEQ ID NO: 4. Em modalidades específicas, o construto compreende um braço de homologia 5 'tendo a sequência de nucleotídeos da SEQ ID NO: 2 (correspondendo aos nucleotídeos 1001-2001 da SEQ ID NO: 1) e um braço de homologia 3' tendo a sequência de nucleotídeos da SEQ ID NO: 3 (correspondendo aos nucleotídeos 2022-2001 de SEQ ID NO: 1). Braços homólogos, por exemplo, um primeiro braço homólogo (também chamado de braço de homologia 5 ') e um segundo braço homólogo (também chamado de braço de homologia 3') são homólogos a uma sequência alvo dentro do locus. Os braços homólogos de 5 ′ a 3 ′ podem expandir uma região ou sequência direcionada dentro do locus que compreende pelo menos 1 kb, ou pelo menos cerca de 2 kb, ou pelo menos cerca de 3 kb, ou pelo menos cerca de 4 kb, ou pelo menos 5 kb, ou pelo menos cerca de 10 kb. Em outras modalidades, o número total de nucleotídeos de uma sequência direcionada selecionada para um primeiro e segundo braço homólogo compreende pelo menos 1 kb, ou pelo menos cerca de 2 kb, ou pelo menos cerca de 3 kb, ou pelo menos cerca de 4 kb, ou pelo menos pelo menos 5 kb, ou pelo menos cerca de 10 kb. Em alguns casos, a distância entre o braço de homologia 5 'e o braço de homologia 3' (homólogo à sequência alvo) compreende pelo menos 5 bp, 10 bp, 20 bp, 30 bp, 40 bp, 50 bp, 60 bp, 70 bp, 80 bp, 90 bp, 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, ou pelo menos 1 kb, ou pelo menos cerca de 2 kb, ou pelo menos cerca de 3 kb, ou pelo menos cerca de 4 kb, ou pelo menos 5 kb, ou pelo menos cerca de 10 kb. Nos casos em que a SEQ ID NO: 2 e a SEQ ID NO: 3 são escolhidas como braços de homologia 5 'e 3', a distância entre os dois braços de homologia pode ser de 20 nucleotídeos (correspondendo aos nucleotídeos 2002-2021 de SEQ ID NO: 1) e tais braços de homologia podem mediar a integração de uma sequência de ácido nucleico exógena dentro de um locus compreendendo SEQ ID NO: 1, por exemplo, dentro dos nucleotídeos 1990-2021 ou 2002-2021 de SEQ ID NO: 1, e uma deleção simultânea de nucleotídeos 2002-2021 da SEQ ID NO: 1.

Em outras modalidades, o construto compreende um primeiro braço homólogo e um segundo braço homólogo, em que o primeiro e o segundo braços homólogos combinados compreendem uma sequência direcionada que substitui uma sequência endógena dentro do locus. Em ainda outras modalidades, o primeiro e o segundo braços homólogos compreendem uma sequência direcionada que se integra ou se insere em uma sequência endógena dentro do locus.

As linhas celulares modificadas foram criadas integrando um ou mais locais de reconhecimento de recombinase em um local dentro da SEQ ID NO: 1. Estas linhas de células modificadas também podem incluir genes exógenos adicionais para seleção negativa ou positiva do gene de interesse expresso.

A invenção fornece métodos para modificar o genoma de uma célula CHO compreendendo a introdução de um ou mais veículos na célula, em que um ou mais veículos compreendem um ácido nucleico exógeno compreendendo uma sequência para integração, um braço de homologia 5 'homólogo a uma sequência presente no nucleotídeo sequência da SEQ ID NO: 1, e um braço de homologia 3 'homólogo a uma sequência presente na sequência de nucleotídeos da SEQ ID NO: 1. Em algumas modalidades, os métodos fornecem ainda um ou mais veículos compreendendo uma nuclease e composições para clivagem de DNA específica de sítio no sítio de integração.

As linhas celulares modificadas podem ser utilizadas como sistemas de expressão convenientes e estáveis ​​para troca de cassete mediada por recombinase (RMCE). Uma sequência de ácido nucleico que codifica uma proteína de interesse pode ser convenientemente integrada na célula modificada compreendendo SEQ ID NO: 1 ou um fragmento de aumento de expressão desta, tendo pelo menos um local de reconhecimento de recombinase, por exemplo, através de um processo de RMCE.

Os vetores de expressão recombinantes podem compreender fragmentos de DNA sintéticos ou derivados de cDNA que codificam uma proteína, operacionalmente ligados a um elemento regulador de transcrição e / ou tradução adequado derivado de genes de mamíferos, virais ou de insetos. Tais elementos reguladores incluem promotores transcricionais, intensificadores, sequências que codificam locais de ligação ribossômica de mRNA adequados e sequências que controlam a terminação da transcrição e tradução, conforme descrito em detalhes abaixo. Os vetores de expressão de mamíferos também podem compreender elementos não transcritos, como uma origem de replicação, outras sequências não transcritas flanqueadoras 5 'ou 3' e sequências não traduzidas 5 'ou 3', como locais doadores de splice e aceitadores. Um gene marcador selecionável para facilitar o reconhecimento de transfectantes também pode ser incorporado.

Os marcadores fluorescentes são genes marcadores selecionáveis ​​adequados para o reconhecimento de cassetes de genes que foram ou não inseridos e / ou substituídos com sucesso, conforme o caso. Exemplos de marcadores fluorescentes são bem conhecidos na técnica, incluindo, mas não se limitando a Discosoma coral (DsRed), proteína fluorescente verde (GFP), proteína fluorescente verde aprimorada (eGFP), proteína fluorescente ciano (CFP), proteína fluorescente ciano aprimorada (eCFP), proteína fluorescente amarela (YFP), proteína fluorescente amarela aprimorada (eYFP) e proteína fluorescente vermelha distante (por exemplo, mKate, mKate2, mPlum, mRaspberry ou E2-crimson. Ver também, por exemplo, Nagai, T., et al . 2002 Nature Biotechnology 20: 87-90 Heim, R. et al. 23 de fevereiro de 1995 Natureza 373: 663-664 e Strack, R. L. et al. 2009 Bioquímica 48:8279-81.

As sequências de controle da transcrição e tradução em vetores de expressão úteis para a transfecção de células de vertebrados podem ser fornecidas por fontes virais. Por exemplo, os promotores e intensificadores comumente usados ​​são derivados de vírus como polioma, adenovírus 2, vírus símio 40 (SV40) e citomegalovírus humano (CMV). Promotores genômicos virais, sequências de controle e / ou sinal podem ser utilizados para conduzir a expressão, desde que tais sequências de controle sejam compatíveis com a célula hospedeira escolhida. Os promotores celulares não virais também podem ser usados ​​(por exemplo, os promotores β-globina e EF-1α), dependendo do tipo de célula em que a proteína recombinante deve ser expressa.

Sequências de DNA derivadas do genoma viral de SV40, por exemplo, a origem de SV40, promotor inicial e tardio, intensificador, splice e locais de poliadenilação podem ser usados ​​para fornecer outros elementos genéticos úteis para a expressão de uma sequência de DNA heteróloga. Os promotores iniciais e tardios são particularmente úteis porque ambos são obtidos facilmente a partir do vírus SV40 como um fragmento que também compreende a origem de replicação viral do SV40 (Fiers et al., Nature 273: 113, 1978). Fragmentos de SV40 menores ou maiores também podem ser usados. Normalmente, a sequência de aproximadamente 250 pb que se estende do local Hind III em direção ao local BglI localizado na origem de replicação do SV40 está incluída.

Os vetores de expressão bicistrônicos usados ​​para a expressão de transcritos múltiplos foram descritos anteriormente (Kim S. K. e Wold B. J., Cell 42: 129, 1985) e podem ser usados ​​em combinação com uma sequência de intensificação da expressão da invenção, por exemplo, SEQ ID NO: 1, ou um fragmento da mesma. Outros tipos de vetores de expressão também serão úteis, por exemplo, aqueles descritos na Pat. No. 4.634.665 (Axel et al.) E Pat. No. 4.656.134 (Ringold et al.).

Proteínas de Interesse

Qualquer proteína de interesse adequada para expressão em células eucarióticas pode ser usada. Por exemplo, a proteína de interesse inclui, mas não está limitada a, um anticorpo ou fragmento de ligação ao antígeno do mesmo, um anticorpo quimérico ou fragmento de ligação ao antígeno do mesmo, um ScFv ou fragmento do mesmo, uma proteína de fusão Fc ou fragmento do mesmo, um fator de crescimento ou um fragmento deste, uma citocina ou um fragmento desta, ou um domínio extracelular de um receptor de superfície celular ou um fragmento deste. As proteínas de interesse podem ser polipeptídeos simples que consistem em uma única subunidade, ou proteínas multissubunidades complexas compreendendo duas ou mais subunidades.

Células hospedeiras e transfecção

As células hospedeiras usadas nos métodos da invenção são células hospedeiras de mamíferos incluindo, por exemplo, células de ovário de hamster chinês (CHO) e células de camundongo. Em uma modalidade preferida, a invenção fornece um fragmento de sequência de ácido nucleico de SEQ ID NO: 1 que codifica uma sequência de intensificação de expressão em uma célula CHO. Um local de integração pode ser encontrado na SEQ ID NO: 1 ou em qualquer fragmento da SEQ ID NO: 1. Um local de integração, por exemplo, pode ser um local de reconhecimento de recombinase colocado em SEQ ID NO: 1 ou qualquer fragmento de SEQ ID NO: 1. Um exemplo de um site de integração adequado é um site LoxP. Outro exemplo de um local de integração adequado são dois locais de reconhecimento de recombinase, por exemplo, selecionados do grupo que consiste em um local LoxP, um local Lox511, um local Lox2272, um local Lox2372, um local Loxm2, um local Lox71, um local Lox66 e um site Lox5171. Em outras modalidades, o sítio de integração está localizado em uma posição dentro de uma sequência ou adjacente a uma posição dentro de uma sequência selecionada do grupo que consiste em nucleotídeos que abrangem as posições numeradas 10-4.000 100-3.900 200-3.800 300-3.700 400-3.600 500- 3.500 600-3.400 700-3.300 800-3.200 900-3.100 1.000-3.000 1.100-2.900 1.200-2.800 1.300-2.700 1.200-2.600 1.300-2.500 1.400-2.400 1.500-2.300 1.600-2.200 1.700-2100 1.800-2050 1850-2050, 1.900-2040 1950-2.025, 1990-2021, 2002-2021 e 2.010-2.015 da SEQ ID NO: 1.Em certas modalidades, o sítio de integração em uma posição dentro da SEQ ID NO: 1 ou adjacente a uma posição dentro da SEQ ID NO: 1 é selecionado a partir do grupo que consiste em nucleotídeos que abrangem as posições numeradas 1990-1991, 1991-1992, 1992-1993, 1993-1994, 1995-1996, 1996-1997, 1997-1998, 1999-2000, 2001-2002, 2002-2003, 2003-2004, 2004-2005, 2005-2006, 2006-2007, 2007-2008, 2008- 2009, 2009-2010, 2010-2011, 2011-2012, 2012-2013, 2013-2014, 2014-2015, 2015-2016, 2016-2017, 2017-2018, 2018-2019, 2019-2020 e 2020-2021 da SEQ ID NO: 1.

A invenção inclui uma célula hospedeira de mamífero transfectada com um vetor de expressão ou um mRNA da invenção. Embora qualquer célula de mamífero possa ser usada, em uma modalidade particular, a célula hospedeira é uma célula CHO.

As células hospedeiras transfectadas incluem células que foram transfectadas com vectores de expressão ou moléculas de ARNm que compreendem uma sequência que codifica uma proteína ou polipéptido. As proteínas expressas podem ser secretadas no meio de cultura, dependendo da sequência de ácido nucleico selecionada, mas podem ser retidas na célula ou depositadas na membrana celular. Vários sistemas de cultura de células de mamíferos podem ser empregados para expressar proteínas recombinantes. Outras linhas celulares desenvolvidas para seleção específica ou esquemas de amplificação também serão úteis com os métodos e composições aqui fornecidos, desde que um locus alvo tendo pelo menos 80% de homologia com a SEQ ID NO: 1 tenha sido identificado. Uma linha celular incorporada é a linha celular CHO designada K1. Para atingir a produção de alto volume de proteínas recombinantes, a linha de células hospedeiras pode ser pré-adaptada ao meio de biorreator no caso apropriado.

Vários protocolos de transfecção são conhecidos na técnica e são revistos em Kaufman (1988) Meth. Enzymology 185: 537. O protocolo de transfecção escolhido dependerá do tipo de célula hospedeira e da natureza do GOI, e pode ser escolhido com base na experimentação de rotina. Os requisitos básicos de qualquer um desses protocolos são primeiro introduzir DNA que codifica a proteína de interesse em uma célula hospedeira adequada e, em seguida, identificar e isolar células hospedeiras que incorporaram o DNA heterólogo de uma maneira expressável relativamente estável. As moléculas de mRNA que codificam proteínas úteis para integração no genoma da célula hospedeira ou outra função podem ser transitórias e, portanto, limitadas no tempo.

Os protocolos de transfecção, bem como os protocolos para a introdução de polipeptídeos ou sequências polinucleotídicas nas células, podem variar. Métodos de transfecção não limitativos incluem métodos de transfecção de base química incluem o uso de nanopartículas de fosfato de cálcio de lipossomas (Graham et al. (1973). Virologia 52 (2): 456-67, Bacchetti et al. (1977) Proc Natl Acad Sci USA 74 (4): 1590-4 e, Kriegler, M (1991). Transfer and Expression: A Laboratory Manual. Nova York: W. H. Freeman and Company. pp. 96-97) dendrímeros ou polímeros catiônicos, tais como DEAE-dextrano ou polietilenimina. Métodos não químicos incluem eletroporação, Sono-poração e transfecção óptica. A transfecção à base de partículas inclui o uso de uma arma de gene, transfecção assistida por ímã (Bertram, J. (2006) Biotecnologia Farmacêutica Atual 7, 277-28). Métodos virais também podem ser usados ​​para transfecção. A entrega de mRNA inclui métodos usando TransMessenger ™ e TransIT® (Bire et al. BMC Biotechnology 2013, 13:75).

Um método comumente usado para introduzir DNA heterólogo em uma célula é a precipitação com fosfato de cálcio, por exemplo, conforme descrito por Wigler et al. (Proc. Natl. Acad. Sei. USA 77: 3567, 1980). O DNA introduzido em uma célula hospedeira por este método freqüentemente sofre rearranjo, tornando este procedimento útil para a cotransfecção de genes independentes.

A fusão induzida por polietileno de protoplastos bacterianos com células de mamíferos (Schaffner et al., (1980) Proc. Natl. Acad. Sei. USA 77: 2163) é outro método útil de introdução de DNA heterólogo. Os protocolos de fusão de protoplastos freqüentemente rendem múltiplas cópias do DNA de plasmídeo integrado no genoma da célula hospedeira de mamífero, e esta técnica requer que o marcador de seleção e amplificação esteja no mesmo plasmídeo que o GOI.

A eletroporação também pode ser usada para introduzir DNA diretamente no citoplasma de uma célula hospedeira, por exemplo, conforme descrito por Potter et al. (Proc. Natl. Acad. Sci. USA 81: 7161, 1988) ou Shigekawa et al. (BioTechniques 6: 742, 1988). Ao contrário da fusão de protoplastos, a eletroporação não requer que o marcador de seleção e o GOI estejam no mesmo plasmídeo.

Outros reagentes úteis para a introdução de DNA heterólogo em uma célula de mamífero foram descritos, tais como Lipofectin ™ Reagent e Lipofectamine ™ Reagent (Gibco BRL, Gaithersburg, Md.). Ambos os reagentes comercialmente disponíveis são usados ​​para formar complexos de lípido-ácido nucleico (ou lipossomas) que, quando aplicados a células em cultura, facilitam a absorção do ácido nucleico nas células.

Em uma modalidade, a introdução de um ou mais dos polinucleotídeos em uma célula é mediada por eletroporação, por injeção intracitoplasmática, por uma infecção viral, por um adenovírus, por lentivírus, por retrovírus, por transfecção, por transfecção mediada por lipídios ou é mediada via Nucleofection ™.

Um método para amplificar o GOI também é desejável para a expressão da proteína recombinante e tipicamente envolve o uso de um marcador de seleção (revisado em Kaufman supra). A resistência a drogas citotóxicas é a característica mais frequentemente usada como um marcador de seleção e pode ser o resultado de uma característica dominante (por exemplo, pode ser usada independentemente do tipo de célula hospedeira) ou uma característica recessiva (por exemplo, útil em determinados tipos de células hospedeiras que são deficientes em qualquer atividade para a qual está sendo selecionada). Vários marcadores amplificáveis ​​são adequados para uso nos vetores de expressão da invenção (por exemplo, como descrito em Sambrook, Molecular Biology: A Laboratory Manual, Cold Spring Harbor Laboratory, NY, 1989 pgs 16.9-16.14).

Marcadores selecionáveis ​​úteis para amplificação de genes em células de mamíferos resistentes a drogas são mostrados na Tabela 1 de Kaufman, RJ, supra, e incluem resistência a DHFR-MTX, glicoproteína P e resistência a múltiplas drogas (MDR) - vários agentes citotóxicos lipofílicos (por exemplo, adriamicina , colchicina, vincristina) e adenosina desaminase (ADA) -Xil-A ou adenosina e 2'-desoxicoformicina.

Outros marcadores selecionáveis ​​dominantes incluem genes de resistência a antibióticos derivados de micróbios, por exemplo, resistência à neomicina, canamicina ou higromicina. No entanto, estes marcadores de seleção não mostraram ser amplificáveis ​​(Kaufman, R. J., supra,). Existem vários sistemas de seleção adequados para hospedeiros mamíferos (Sambrook supra, pgs 16.9-16.15). Protocolos de co-transfecção empregando dois marcadores selecionáveis ​​dominantes também foram descritos (Okayama e Berg, Mol. Cell Biol 5: 1136,1985).

Elementos reguladores úteis, descritos anteriormente ou conhecidos na técnica, também podem ser incluídos nas construções de ácido nucleico usadas para transfectar células de mamíferos. O protocolo de transfecção escolhido e os elementos selecionados para uso no mesmo dependerão do tipo de célula hospedeira usada. Os versados ​​na técnica estão cientes de vários protocolos e células hospedeiras diferentes e podem selecionar um sistema apropriado para a expressão de uma proteína desejada, com base nos requisitos do sistema de cultura de células utilizado.

Outras características da invenção se tornarão aparentes no decurso das seguintes descrições de modalidades exemplares que são fornecidas para ilustração da invenção e não se destinam a ser limitantes.

Os exemplos a seguir são apresentados de modo a fornecer aos versados ​​na técnica como fazer e usar os métodos e composições aqui descritos e não se destinam a limitar o escopo da invenção. Esforços foram feitos para garantir a precisão com relação aos números usados ​​(por exemplo, quantidade, temperatura, etc.), mas alguns erros experimentais e desvios devem ser levados em consideração. A menos que indicado de outra forma, as partes são partes em peso, o peso molecular é o peso molecular médio, a temperatura está em graus centígrados e a pressão é atmosférica ou próxima da atmosférica.

Exemplo 1. Identificação do local de interesse e caracterização dos locais de integração

As células CHO K1 foram transfectadas com dois plasmídeos contendo sequências de anticorpos e genes de resistência a antibióticos selecionáveis ​​como marcadores selecionáveis. A seleção de transfectantes estáveis ​​foi realizada expandindo as células na presença de antibióticos. Os clones de células individuais que expressam níveis elevados de anticorpos foram isolados com tecnologia de classificação FASTR® (ver Patente US Nº 8.673.589B2). Vários clones exibindo os níveis de expressão de anticorpos mais elevados foram identificados.

O DNA genômico desses clones foi fragmentado com a tecnologia Covaris Adaptive Focused Acoustics (AFA) ™ (Fisher, S. et al. 2011, Biologia do Genoma 12: R1). Bibliotecas de DNA foram geradas (Agilent SureSelectXT # G9612A) e incubadas com iscas de RNA biotiniladas personalizadas (Agilent SureSelectXT # 5190-4811) projetadas contra todas as sequências de plasmídeo que foram introduzidas nas células CHO. Fragmentos de DNA genômico que contêm sequências de plasmídeo foram enriquecidos com esferas magnéticas de estreptavidina e submetidos ao sequenciamento Illumina MiSeq para identificar os locais de integração do plasmídeo. As sequências de fusão que contêm a sequência do plasmídeo e a sequência do genoma CHO foram analisadas e alinhadas com o genoma CHO. Um único local de integração foi confirmado por análise de Southern blot e PCR seguido de sequenciamento. O sítio de integração com a sequência de nucleotídeos da SEQ ID NO: 1 foi identificado como um ponto de acesso de expressão (ver também GenBank Locus ID No. AFTD01150902.1, nt35529: 39558). Os locais de integração foram analisados ​​para determinar sua adequação para geração posterior de linhas de células. Era desejável que os locais de integração estivessem localizados em uma região não codificadora que não perturbasse a maquinaria genômica normal da célula, e. tradução de proteínas, ou alterar o fenótipo da célula.

Da pesquisa Blat (Kent W J., BLAT - a ferramenta de alinhamento semelhante ao BLAST. Genome Res. 2002 12 de abril (4): 656-64) alinhamento, SEQ ID NO: 1 compartilha homologia muito baixa com as sequências do genoma de camundongo e humano. A explosão da sequência de SEQ ID NO: 1 contra CHO-1 [ATCC] _refseq_transcript revelou que a sequência do locus identificada não contém quaisquer regiões codificantes para quaisquer genes conhecidos. A sequência mais ampla de SED ID NO: 4, que abrange a SEQ ID NO: 1, também foi identificada como um locus adequado para integração direcionada.

As sequências de sítio de integração foram determinadas como localizadas em regiões não codificantes dos genomas CHO e de camundongo, e posteriormente utilizadas nas experiências descritas abaixo.

Exemplo 2. DNA exógeno eficientemente incorporado em locais de integração de células hospedeiras

A inserção direcionada de genes exógenos no locus específico do genoma CHO identificado como SEQ ID NO: 1 foi feita empregando uma nuclease TALE (TALEN). O construto contendo sequências de cadeia pesada e leve de anticorpo integradas aleatoriamente no genoma da célula, como no Exemplo 1, foi direcionado por TALEN. TALEN foi direcionado para localizações dentro dos três genes Hyg idênticos da construção de expressão de anticorpo (ver FIG. 1A). O local de clivagem alvo TALEN para a sequência Hyg foi baseado em ZiFit.partners.org (ZiFit Targeter Versão 4.2). Os TALENs foram projetados com base em métodos conhecidos (Boch J et al., 2009 Science 326: 1509-1512).

Um vetor mKate doador (ver FIG. 1B) e um vetor que codifica TALEN foram transfectados nas células hospedeiras CHO usando o protocolo padrão de Lipofectina (LIPOFECTAMINE, Life Technologies, Gaithersburg, Md.). As células foram cultivadas e clones estáveis ​​com características desejáveis ​​foram isolados e classificados por FACS. A integração única no locus desejado foi confirmada por Southern blot e PCR.

Exemplo 3. Recombinação direcionada das células modificadas no local de interesse por RMCE

Uma linha de células CHO que expressa níveis elevados de um gene fluorescente, e. mKate, em que o gene é flanqueado por locais lox dentro do locus de interesse, foi selecionado para isolamento. Uma segunda linha de células CHO que expressa um segundo gene fluorescente, dsRed, em que o gene é flanqueado por locais lox está localizado dentro de um locus de controle, isto é, EESYR (Patente U.S. No. 8.389.239B2, emitida em 5 de março de 2013).

As células CHO transfectadas foram adaptadas para crescer em suspensão num meio de produção sem soro. As células foram então transfectadas em uma placa de dez centímetros com um vetor de expressão doador e um plasmídeo que codifica a recombinase Cre. O vetor de expressão do doador contém um gene de interesse que codifica uma proteína de fusão Fc flanqueada por locais Lox (ver FIG. 3A ou 3B). As células foram cultivadas em meio de cultura com 400 μg / ml de higromicina por duas semanas após a transfecção, e as células que expressam eYFP, mas não mKate (ou dsRed no caso de integração do locus EESYR) foram isoladas usando citometria de fluxo. As células que expressam eYFP foram expandidas em culturas de suspensão em meio de produção sem soro e os níveis de mRNA foram determinados por qRT-PCR usando procedimentos padrão para cada pool de células que codifica a proteína de fusão Fc (ver FIG. 4).

A eficiência de troca de recombinação (porcentagem da população de células sobreviventes expressando a partir do marcador de cassete do doador, ou seja, eYFP, conforme trocado com o marcador vermelho, ou seja, mKate ou dsRed) foi comparada entre os pools de células (Tabela 1). Alta eficiência de troca de recombinação foi observada em cada locus.

A transcrição foi observada a uma taxa mais elevada (1,5 vezes maior) no pool de células com um LOCUS1 projetado em comparação com o Locus de controle (FIG. 4).

A presente invenção não deve ser limitada em escopo pelas modalidades específicas aqui descritas. Na verdade, várias modificações da invenção, além daquelas aqui descritas, tornar-se-ão evidentes para os versados ​​na técnica a partir da descrição anterior e das figuras que a acompanham. Tais modificações destinam-se a cair dentro do escopo das reivindicações anexas.


Assista o vídeo: BUDOWA ŁODYGI PIERWOTNA I WTÓRNA (Dezembro 2022).