Hi @Tessa_M ,
I think you are looking for two changes to the original example R script:
- You want to select 12S sequences, whereas the original script obtained COI
- You want to restrict to a geographic range, whereas the original script did no such filtering
Assuming that is the case, I think you would modify a single line to the R script, such that:
- We modify the marker gene of interest from the original COI to the desired 12S
- We add in a filter for a region of interest.
## filter bold data function:
gatherBOLDdat_function <- function(theboldlist){
do.call(rbind.data.frame, theboldlist) %>%
filter(markercode == "12S", country="Australia") %>%
select(sequenceID, processid, bin_uri, genbank_accession, nucleotides, country, institution_storing,
phylum_name, class_name, order_name, family_name, genus_name, species_name)
}
I tested on the BOLD website whether the Australia [geo]
parameter would yield information, and it certainly does (over 400k records across all markers), however I came up empty in my initial querying for a 12S record via the website. Not sure what I was missing when trying to apply the [marker]
parameter using the BOLD website search field... nevertheless, following their API command, I was able to download all the sequences directly using this command in my web browser:
http://v4.boldsystems.org/index.php/API_Public/sequence?geo=Australia&marker=12s
... and it returned just 84 sequences
? Not sure if that's what you expected.
And actually, it's worse than you think! There are actually only eighteen sequences properly labeled with a 12S marker in the header of the resulting fasta file. As the BOLD API documentation indicates, your search results may need further refinement:
All markers for a specimen matching the search string will be returned.
ie. A record with COI-5P and ITS will return sequence data for both markers even if only COI-5P was specified.
Putting on a geographic condition comes with the risk of hoping that the person has applied such a label. At least from my cursory investigation in BOLD, the geographic-specificity requirement for Australia will generate loads of COI sequences for Australia, but only a paltry few for 12S.
Given there are so few of these sequences, I'm going to paste them below, but you should be able to reproduce this just by using pasting the http://v4.bolds...
link I posted above, then examining the resulting full set of 84 sequences, and figuring out which sequences you want to retain after the fact.
Hope that gets you started - good luck!
>CONO1221-12|Hastulopsis amoena|12S|JQ808580
ACACGTTTCAGAGCCTAATTCAAATATTTATATATTCTAATTTACTTCCAAGTCCTCCTTATAACTTAACATACATCCATTATTTATCCGTCATTATAAATTATATAATTGTAACCCATCCTCCCCCCTTTATTAGCTGCACCTTGATTTGACATACTAAATTATCAATATTTTAATTGCTAACTTCTAGTTTCTAAAAAGTTCCCTGACGACAACGGTATACAAACTGAAAACAAAAAGAGGTCAGGTGCAACGTGGATTATCGATTATGAGACAGGTTCCCCTGGGTGGTCTAAAACACCGCCAAGTTCTTTGAGTTTTAAATTTTTAAACATTCAT
>CONO2426-19|Hastula brazieri|12S|MK586899
ACACGTTTCAGAGCCTTATTCAAATTATTTATATAACCTAATTTACTTTTAAGTCCGCCTTATAACTAATATACATTTCATATATTTATCCGTCATTATAACTTACATAATTGTAACCCATCCTCCCCCTTTCATTAGCTGCACCTTGATTTGACGTATTAAATCATTTCTATTTCCTATTGCTAACTCCTATTTTCTAAAAAGTTACCTGACGACAACGGTATACAAACTGAAAACAAGAAAAGGTCAGGTATAACGTGGATTATCGATTATGAGACAGGTTCCCCTAAGTGGTCTAAAACACCGCCAAGTCCTTTGAGTTTTAAATTTTTAGTATTCATAGTACTCNGGTAA
>CONO2427-19|Hastula brazieri|12S|MK586709
ACACGTTTCAGAGCCTTATTCAAATTATTTATATAACCTAATTTACTTTTAAGTCCGCCTTATAACTAATATACATTTCATATATTTATCCGTCATTATAACTTACATAATTGTAACCCATCCTCCCCCTTTCATTAGCTGCACCTTGATTTGACGTATTAAATCATTTCTATTTCCTATTGCTAACTCCTATTTTCTAAAAAGTTACCTGACGACAACGGTATACAAACTGAAAACAAGAAAAGGTCAGGTATAACGTGGATTATCGATTATGAGACAGGTTCCCCTAAGTGGTCTAAAACACCGCCAAGTCCTTTGAGTTTTAAATTTTTAGTATTCATAGTACTCNGGTAA
>CONO2428-19|Hastula brazieri|12S|MK586937
ACACGTTTCAGAGCCTTATTCAAATTATTTATATAACCTAATTTACTTTTAAGTCCGCCTTATAACTAATATACATTTCATATATTTATCCGTCATTATAACTTACATAATTGTAACCCATCCTCCCCCTTTCATTAGCTGCACCTTGATTTGACGTATTAAATCATTTCTATTTCCTATTGCTAACTCCTATTTTCTAAAAAGTTACCTGACGACAACGGTATACAAACTGAAAACAAGAAAAGGTCAGGTATAGCGTGGATTATCGATTATGAGACAGGTTCCCCTAAGTGGTCTAAAACACCGCCAAGTCCTTTGAGTTTTAAATTTTTAGTATTCATAGTACTCNGGTAA
>CONO2429-19|Hastula brazieri|12S|MK586930
ACACGTTTCAGAGCCTTATTCAAATTATTTATATAACCTAATTTACTTTTAAGTCCGCCTTATAACTAATATACATTTCATATATTTATCCGTCATTATAACTTACATAATTGTAACCCATCCTCCCCCTTTCATTAGCTGCACCTTGATTTGACGTATTAAATCATTTCTATTTCCTATTGCTAACTCCTATTTTCTAAAAAGTTACCTGACGACAACGGTATACAAACTGAAAACAAGAAAAGGTCAGGTATAACGTGGATTATCGATTATGAGACAGGTTCCCCTAAGTGGTCTAAAACACCGCCAAGTCCTTTGAGTTTTAAATTTTTAGTATTCATAGTACTCNGGTAA
>CONO2430-19|Hastula brazieri|12S|MK586848
ACACGTTTCAGAGCCTTATTCAAATTATTTATATAACCTAATTTACTTTTAAGTCCGCCTTATAACTAATATACATTTCATATATTTATCCGTCATTATAACTTATATAATTGTAACCCATCCTCCCCCTTTCATTAGCTGCACCTTGATTTGACGTATTAAATCATTTCTATTTCCTATTGCTAACTCCTATTTTCTAAAAAGTTACCTGACGACAACGGTATACAAACTGAAAACAAGAAAAGGTCAGGTATAACGTGGATTATCGATTATGAGACAGGTTCCCCTAAGTGGTCTAAAACACCGCCAAGTCCTTTGAGTTTTAAATTTTTAGTATTCATAGTACTCTGGTAA
>CONO2431-19|Hastula brazieri|12S|MK586861
ACACGTTTCAGAGCCTTATTCAAATTATTTATATAACCTAATTTACTTTTAAGTCCGCCTTATAACTAATATACATTTCATATATTTATCCGTCATTATAACTTATATAATTGTAACCCATCCTCCCCCTTTCATTAGCTGCACCTTGATTTGACGTATTAAATCATTTCTATTTCCTATTGCTAACTCCTATTTTCTAAAAAGTTACCTGACGACAACGGTATACAAACTGAAAACAAGAAAAGGTCAGGTATAACGTGGATTATCGATTATGAGACAGGTTCCCCTAAGTGGTCTAAAACACCGCCAAGTCCTTTGAGTTTTAAATTTTTAGTATTCATAGTACTCTGGTAA
>DIQT046-08|Telostylinus lineolatus|12S
ACATATTTTAGAGCTAAAATCAAAATATTTATCTTTATATTTTTACTATCAAATCCACTTTCAATAAATTTTTCATATTTATATTCATATAAATAATTTTATTGTAACCCATTTTTACTTAAACATAAACTACACCTTGATCTGATATAAAATTAAATATAAATTAACGAAAATTATTATTCTTATAAAATATTCTTATAACGACGGTATATAAATTGAAATACAAATTTAAGTAAGGTCCATCGTGGATTATCGATTAAAAAACAGGTTCCTCTGAATAGACTAAAATACCGCCAAATTTTTTAAGTTTCAAGAACATAACTAATACTACTTATATGTTTAAAAATACATTTTTAATAATAGGGTATCTAATCCTAGTTTTAAATAAAAATTTTTTAACTTCAATTAATAATATAAAAAATTATATTTAATTAAAATTTCACCTAATAATTAAACTTTAATTTTTATAAAAATAAATTTAATTAACATAAAAAAATTTTATTTGTGTTATTCGTATAACCGCG------------------
>DIQT089-08|Telostylinus lineolatus|12S
ACATATTTTAGAGCTAAAATCAAAATATTTATCTTTATATTTTTACTATCAAATCCACTTTCAATAAATTTTTCATATTTATATTCATATAAATAATTTTATTGTAACCCATTTTTACTTAAACATAAACTACACCTTGATCTGATATAAAATTAAATATAAATTAACGAAAATTATTATTCTTATAAAATATTCTTATAACGACGGTATATAAATTGAAATACAAATTTAAGTAAGGTCCATCGTGGATTATCGATTAAAAAACAGGTTCCTCTGAATAGACTAAAATACCGCCAAATTTTTTAAGTTTCAAGAACATAACTAATACTACTTATATGTTTAAAAATACATTTTTAATAATAGGGTATCTAATCCTAGTTTTAAATAAAAATTTTTTAACTTCAATTAATAATATAAAAAATTATATTTAATTAAAATTTCACCTAATAATTAAACTTTAATTTTTATAAAAATAAATTTAATTAACATAAAAAAATTTTATTTGTGTTATTCGTATAACCGCG------------------
>GMSPB615-18|Metopochetus impar|12S
ACATATTTTAGAGCTATAGTCAAATCATTAATCTATATAATTTTACTACCAAATCCATTTTCAATAAATTTTGCATATTTAAATCCACATAAATAATTTTATTGTAACCCATTTACACTTAAACATAAGCTACACCTTGATCTGATATACATTTTAATAAAAATATTAGAAAATTATTATTCTGATAAAATATTCTGATAACGACGGTATATAAACTGAAAACATATTTAAGAAAGGTCCATCGTGGATTATCGATTAAGAAACAGGTTCCTCTGAATAGACTAAAATACCGCCAAATTTTTTAAGTTTCAAGAACATAACTAATACTACCTTAGTAAATTAATACATTTTAAATAATAGGGTATCTAATCCTAGTTTATAATTAAAATTTCCAAGCTTCAATAAATTTAATTAATAAATTAAATAAATTTAAAATTTCACCTAATAAATTTATACTATATTTAAATTTCAATCATTTAACTCTTACCAATAAAATTTATTCGTATTATTCGTCTAACCGCG--------------------
>NEOGA1340-19|Cystiscus sp.|12S|MN322357
TACCAGAGGGTCAAATTATAGATTATAGGTAAGTGAAGTTATTAAGATGATTATTGGGACTTTTTAAGAAAAGGTGAAATTTAATTAAAGGATTASTTCTTAAGGATAASATATATGAATTCACGAAATCTATTGGAAAAACTGGGATTAGATACCCCATTATAGTAGACGTAAATATATTACTAGAGTACTACGAATAGAATTTAAAACTCAAAGAACTTGGCGGTGTCTTAGACTACCTAGGGGAACCTGTTTTGTAAGCGATAATCCACGTTGGATCTTACCTTCCCTGGTAATCAGTATGTATACCGTTGTCGTCAGGCAACTCTTGAGGATTGAAAAGTTGGCGACTTAAAAGTTAACTTATAATGTCAAATCAAGGTGCAGCTTATGGGGGGGTAGAAATGGGTTACATTAATAATATTATAGTGGAATTAGCTCTGAAATAGGCTATAGGAAATAGGACTTGGAAGTAAAGAGGGATATGTGAATGGTTTGAATATAGCTCTGGGACGTGT
>NEOGA1370-19|Hydroginella sp.|12S|MN322393
AAAACTATTTGATCAAGATATATTTGAGGGCAGTTTGTAGAAAAATATAAATAAAAATGTATATATGAATTTAATATATGTAAGTAAAATTGTATATATTAGGGAATTAAATAAAATACATGCTATTAAATCTACGAAAAATAAGGTAGAAACTAGGATTAGATACCCTGTTATTCTTATTCATAAAACTTCATATGCTGGGAGACTACGAGTGTTTAACTTAAAATCTAAAAGACTTGGCGGTATTTAAAACTTCTTAGGGGAGCTTGTTTCGTAATCGATAATCCACGTACTACCTGACTTATTTTATTAGCTTGTATATCGTCATCTTTAGTTAACTTCWWAGAAAAATAAAGTTAACGGAATAATTTACTTAAATTAATATGTTAGATCAAGATGCAGTTTATAAATAAGGGAAAATGAGCTACAATTATTATATTTATATTTCTAATAAATAAATTAAAATTTTTTTGAGGGAGGACTTAACAGTAAAATATTATATAAGAAATATCTTGAATATCTATTTTAAATATGC
>NEOGA1532-20|Dolicholatirus sp.|12S|MW057455
GTTAAACCAAGGGATTAAATTATATAAATACATGGCCTAAAAGACAGTTAGGTTTGTTTTTGATTTCGTGTTCATTCGTAAAAAGGTAAAATTTGAATACGAATTGTAAAATCGAGTGTAGTCAATTTACTGAAGCTGTGACAATCTAGAGGGAAACTGGGATTAGAGACCCCATTATTCTTGATTTTAAAGTTGATATAATGTATGCCAGAGCACTACGAACAAAATAGTTTAAAACTCAAAGGGCTTGGCGGTGTCTTAGACCTTTTAGGGGAACCTGTTTCATAATCGATAATCCACGTTAAACCTGACCTCCTTTTGCACTCAGTCTGTATACCGTCGTCGCCAGGTAACTTTCAAAAAACTAGAAGTTAGCTAGAAAATTATATAGATTAGAACGTCAGATTAAGGTGTAGCTAACAAGGAGGAGAAAATGGGTTACAATTATATATTTATAATTACAGACTATTATTTGAAACAATAAATATGAAGGAGGACTTAAAAGTAAAGCATAAATTATATAAGTAGCCTGAATAAGGCTCTGAGACGTGC
>NEOGA1556-20|Tasmeuthria clarkei|12S|MW057469
GTTAGACCAAGAGATTAAGTTATATTCCTAGGTAAAAAGACAGTTAGGTTTAAAATAATTTAGTTTATTGATCATTTATATAAAAGTAAAATTTATATATAAATAGTTAATTTAATCGTAGCTTTTTACTGAGGCTGTGACAGTCCTGAGGGAAACTGGGATTAGATACCCCATTATTCTTGACTGTAAATCTAATTAAATTTACCAGAGTACTATGAATCTAAATAAAAATTTAAAACTCAAAGAGCTTGGCGGTGTTTTAGACCTATTAGGGGAACCTGTCTCATAATCGACAATCCGCGCTAGACCTAACCCTGTTTTGTAACCAGTTTGTATACCGTCGTCGTCAGGTAACTTTTAAAAATTAAGAAGTTAGCAACAATAATTTTTAAATTTAAACGTCAGATCAAGGTGCAGCTAATAAAAGGGAGAAGATGGGTTACAATTATTTCACTTATAGCTACGAAAAATTTTATGAAAATATAATTAGAAGGAGGACTTGAAAGTAAAATATAATATATAAGCAATTTGAATATGGCTCTGAAACGTGC
>NSWHP4284-19|Pseudopomyzidae|12S
ACATATTTTAGAGCTAAAGTCAAACTATTAATCTTTATAGTTTTACTACCAAATCCACTTTCAGTACATTTTTCATAATTACATCCATTTAAATAATTTTATTGTAATCCATTTCTACTTAAACATAAACTACACCTTGATCTGATATATAATTTAATAAAATTTTTTGAAAATTATTTTTCTTATAAAATATTCTAATAACGACGGTATATAAATTGAAAAACAAATTTAAGTAAGGTCCAACGTGGATTATCGATTACAGAACAGATTCCTCTGAATAGACTAAAATACCGCCAAATTTTTTAAGTTTCAAGAACATATCTATTACTACCTAAGTAACTTGTATTTACATTTTTAATAATAGGGTATCTAATCCTAGTTTTTTATAAAAATTTTTAAGCTTCAATAAATTTAACTATAAAAATTATATAATTTTAAAATTTCACCTAATAAAATTAATTTAATTTTAAAATATACAATTTAACTTTTACTAAAAAAATTTATTTGCATTATTCGTATAACCGCG----------------
>TONO230-18|Akibumia orientalis|12S|MH571233
AGAGATCAAGTTATATTTGTTAAGGTAAAAAGGTAGTTAGATACAAGTGTTTATTAGTTTACTAATTTTTTATATAAAAGTAAAATTTGTATATAAATAAATAACTTAGGGTAAACTAATTATATTGATGCTGCGATAGCTTTAAGGGAAACTGGGATTAGATACCCCATTATTTTTAGTTGTAAATAAATAAGAATTTACCGGAGTACTATGAATTTTTTAAAAATTTAAAACTCAAAGGACTTGGCGGTGTTTTAGACCTCTCAGGGGAACCTGTCTCGTAATCGACAATCCGCGTTAAACCTAACCTTTTTTTGCATCTCAGTTTGTATACCGTCGTCGTCAGGTAACTTTTTAAAAATTAGAAGTTGGCAATAAAATTAATATTAATTTAAACGTCAGATCAAGGTGCAGCTAATATAAAGGTGAGGATGGGTTACAATTAAAATTTATAATTACGGATATAATAATGAAATATTTATTTTAATGAAGGAGGACTTGAAAGTAAGATAATTATATAAAAATAATTTGAATTAGGCTCTGAAACATGC
>ZSMDB056-15|Lancetes lanceolatus|12S|KT607937
-----TTTAAATGT-AAAAAAAAATATCAAATTATTATTAGTTAAGTTCTTTAAATTTAAAAATTTTGGCGGTATTTTAGTCTATTCAGAGGAACCTGTTCTGTAATTGATAATCCACGATTAATTATACTTATTTT----TTTAATTTGTATATCGTTGTTTATAAATAATTTTATAAGAA-AATAAATTTTTAAGATTTTAGATAAAAAAATATATCAAATCAAGGTGCAGTTTATAGATAAGGA--GAAATGGGTTACAAT-AAATTTATTTAAA--CGGATTAATTTTTAAAATA--AGATTATAAAGGTGGATTTGATAGTAAT--TAAATTAATTTTAATTTAATGA-TTTTAGCTCTAAAATATGT
>ZSMDB099-16|Rhantus simulans|12S
TTTAAATGTAAATTATTATACTAAAGTAGTAATAGTTAAGTTCTTTAAATTTAAAGATTTTGGCGGTATTTTAGTCTATTCAGAGGAACCTGTTCTGTAATTGATAGTCCACGATTAATTTTACTTAATTTAATAATTTGTATATCGTCGTTTATAAATGATTTTAAAAGAATTTAAATTTTTAAGATTTTTTATTAAAAAATATATCAGATCAAGGTGCAGTTAATGATTAAGGAGAAATGGGTTACAATAAATTTATTTATATGGATTAATATATAAAATTGTATTATGAAGGAGGATTTGATAGTAATAAAATTAAATTAAATTTTATGATTTTAGCTCTAAAATATGT