Analysis and Functional Annotation of an Expressed Sequence Tag Collection for Tropical Crop Sugarcane

  1. André L. Vettore1,24,
  2. Felipe R. da Silva1,25,
  3. Edson L. Kemper1,26,
  4. Glaucia M. Souza3,
  5. Aline M. da Silva3,
  6. Maria Inês T. Ferro6,
  7. Flavio Henrique-Silva8,
  8. Éder A. Giglioti9,
  9. Manoel V.F. Lemos7,
  10. Luiz L. Coutinho10,
  11. Marina P. Nobrega11,
  12. Helaine Carrer10,
  13. Suzelei C. França12,
  14. Maurício Bacci, Jr.13,
  15. Maria Helena S. Goldman14,
  16. Suely L. Gomes3,
  17. Luiz R. Nunes15,
  18. Luis E.A. Camargo10,
  19. Walter J. Siqueira16,
  20. Marie-Anne Van Sluys4,
  21. Otavio H. Thiemann17,
  22. Eiko E. Kuramae18,
  23. Roberto V. Santelli3,
  24. Celso L. Marino19,
  25. Maria L.P.N. Targon20,
  26. Jesus A. Ferro6,27,
  27. Henrique C.S. Silveira8,
  28. Danyelle C. Marini9,
  29. Eliana G.M. Lemos6,
  30. Claudia B. Monteiro-Vitorello10,
  31. José H.M. Tambor11,
  32. Dirce M. Carraro10,24,
  33. Patrícia G. Roberto12,
  34. Vanderlei G. Martins21,
  35. Gustavo H. Goldman22,
  36. Regina C. de Oliveira15,
  37. Daniela Truffi10,
  38. Carlos A. Colombo16,
  39. Magdalena Rossi4,
  40. Paula G. de Araujo4,
  41. Susana A. Sculaccio17,
  42. Aline Angella18,
  43. Marleide M.A. Lima18,
  44. Vicente E. de Rosa, Jr18,
  45. Fábio Siviero3,
  46. Virginia E. Coscrato19,
  47. Marcos A. Machado20,
  48. Laurent Grivet23,
  49. Sonia M.Z. Di Mauro6,
  50. Francisco G. Nobrega11,
  51. Carlos F.M. Menck5,
  52. Marilia D.V. Braga2,28,
  53. Guilherme P. Telles2,
  54. Frank A.A. Cara2,
  55. Guilherme Pedrosa2,
  56. João Meidanis2, and
  57. Paulo Arruda1,27,29
  1. 1 Centro de Biologia Molecular e Engenharia Genética, Instituto da Computação, Universidade Estadual de Campinas, 13083-970, Campinas–SP, Brazil
  2. 2 Laboratório de Bioinformática, Instituto da Computação, Universidade Estadual de Campinas, 13083-970, Campinas–SP, Brazil
  3. 3 Departamento de Bioquímica, Instituto de Química, Instituto de Ciências Biomédicas, Universidade de São Paulo, 05508-900, São Paulo–SP, Brazil
  4. 4 Departamento de Botânica, Instituto de Biociências, Instituto de Ciências Biomédicas, Universidade de São Paulo, 05508-900, São Paulo–SP, Brazil
  5. 5 Departamento de Microbiologia, Instituto de Ciências Biomédicas, Universidade de São Paulo, 05508-900, São Paulo–SP, Brazil
  6. 6 Departamento de Tecnologia, Faculdade de Ciências Agrárias e Veterinárias de Jaboticabal, Universidade Estadual Paulista, 14884-900, Jaboticabal–SP, Brazil
  7. 7 Departamento de Biologia Aplicada à Agropecuária, Faculdade de Ciências Agrárias e Veterinárias de Jaboticabal, Universidade Estadual Paulista, 14884-900, Jaboticabal–SP, Brazil
  8. 8 Departamento de Genética e Evolução, Universidade Federal de São Carlos, 13565–905 São Carlos–SP, Brazil
  9. 9 Departamento de Biotecnologia Vegetal, Centro de Ciências Agrárias, Universidade Federal de São Carlos, 13600-970, Araras–SP, Brazil
  10. 10 Escola Superior de Agricultura Luiz de Queiroz, Universidade de São Paulo, 13418-900, Piracicaba–SP, Brazil
  11. 11 Laboratório de Genética Molecular e Genomas, Instituto de Pesquisa e Desenvolvimento, Universidade do Vale do Paraíba, 12244-000, São José dos Campos–SP, Brazil
  12. 12 Departamento de Biotecnologia de Plantas Medicinais, Universidade de Ribeirão Preto, 14096-380, Ribeirão Preto–SP, Brazil
  13. 13 Centro de Estudos de Insetos Sociais, Instituto de Biociências, Universidade Estadual Paulista, 13506-900, Rio Claro–SP, Brazil
  14. 14 Departamento de Biologia, Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto, Universidade de São Paulo, 14040-901, Ribeirão Preto–SP, Brazil
  15. 15 Núcleo Integrado de Biotecnologia, Universidade de Mogi das Cruzes, 08780-911, Mogi das Cruzes–SP, Brazil
  16. 16 Centro de Genética, Biologia Molecular e Fitoquímica, Instituto Agronômico de Campinas, Caixa Postal 28, 13001-970, Campinas–SP, Brazil
  17. 17 Instituto de Física de São Carlos, Universidade de São Paulo, 13560-970, São Carlos–SP, Brazil
  18. 18 Departamento de Defesa Fitossanitária, Faculdade de Ciências Agronômicas, Universidade Estadual Paulista, 18603-970, Botucatu–SP, Brazil
  19. 19 Departamento de Genética, Instituto de Biociências, Universidade Estadual Paulista, 18618-000, Botucatu–SP, Brazil
  20. 20 Centro APTA de Citros Sylvio Moreira, Instituto Agronômico de Campinas, 13490-970, Cordeiropolis–SP, Brazil
  21. 21 Departamento de Fonoaudiologia, Universidade Estadual Paulista, 17525-900, Marília–SP, Brazil
  22. 22 Departamento de Ciências Farmacêuticas, Faculdade de Ciências Farmacêuticas de Ribeirão Preto, Universidade de São Paulo, 14040-903, Ribeirão Preto–SP, Brazil
  23. 23 CIRAD, TA 40/03, UMR 1096, 34398 Montpellier cedex 5, France

Abstract

To contribute to our understanding of the genome complexity of sugarcane, we undertook a large-scale expressed sequence tag (EST) program. More than 260,000 cDNA clones were partially sequenced from 26 standard cDNA libraries generated from different sugarcane tissues. After the processing of the sequences, 237,954 high-quality ESTs were identified. These ESTs were assembled into 43,141 putative transcripts. Of the assembled sequences, 35.6% presented no matches with existing sequences in public databases. A global analysis of the whole SUCEST data set indicated that 14,409 assembled sequences (33% of the total) contained at least one cDNA clone with a full-length insert. Annotation of the 43,141 assembled sequences associated almost 50% of the putative identified sugarcane genes with protein metabolism, cellular communication/signal transduction, bioenergetics, and stress responses. Inspection of the translated assembled sequences for conserved protein domains revealed 40,821 amino acid sequences with 1415 Pfam domains. Reassembling the consensus sequences of the 43,141 transcripts revealed a 22% redundancy in the first assembling. This indicated that possibly 33,620 unique genes had been identified and indicated that >90% of the sugarcane expressed genes were tagged.

Footnotes

  • [Supplemental material is available online at http://sucest.lad.ic.unicamp.br/public. The sugarcane EST sequence data described in this paper have been submitted to GenBank under accession nos. CA064599–CA301538.]

  • Article and publication are at http://www.genome.org/cgi/doi/10.1101/gr.1532103. Article published online before print in November 2003.

  • 24 Present address: Instituto Ludwig de Pesquisa sobre o Câncer, 01509-010, São Paulo–SP, Brazil.

  • 25 Present address: Embrapa Recursos Genéticos e Biotecnologia–CENARGEN, Caixa Postal 02372, 70770-900, Brasilia–DF, Brazil.

  • 26 Present address: Monsanto Company, Mailzone Q4B, St. Louis, MO 63167, USA.

  • 27 Present address: Alellyx Applied Genomics, Rodovia Anhanguera, Km 104 (Techno Park), Rua James Clerk Maxwell, 320, 13067-850, Campinas–SP, Brazil.

  • 28 Present address: Scylla Bioinformatics, 13083-970, Campinas–SP, Brazil.

  • 29 Corresponding author. E-MAIL parruda{at}unicamp.br; FAX (55-19) 3788 1089.

    • Accepted September 8, 2003.
    • Received May 12, 2003.
| Table of Contents

Preprint Server