Ống cuộn / ống hàn bằng thép không gỉ 304, Tiềm năng sinh tổng hợp của hệ vi sinh vật biển toàn cầu

Cảm ơn bạn đã ghé thăm Nature.com.Bạn đang sử dụng phiên bản trình duyệt có hỗ trợ CSS hạn chế.Để có trải nghiệm tốt nhất, chúng tôi khuyên bạn nên sử dụng trình duyệt đã cập nhật (hoặc tắt Chế độ tương thích trong Internet Explorer).Ngoài ra, để đảm bảo được hỗ trợ liên tục, chúng tôi hiển thị trang web không có kiểu và JavaScript.
Thanh trượt hiển thị ba bài viết trên mỗi slide.Sử dụng các nút quay lại và tiếp theo để di chuyển qua các trang chiếu hoặc các nút điều khiển trang chiếu ở cuối để di chuyển qua từng trang chiếu.

Mô tả sản phẩm Chi tiết

Ống / ống cuộn hàn bằng thép không gỉ 304
1. Đặc điểm kỹ thuật: Ống/ống cuộn thép không gỉ
2. Loại: hàn hoặc liền mạch
3. Tiêu chuẩn: ASTM A269, ASTM A249
4. Ống cuộn thép không gỉ OD: 6mm đến 25,4MM
5. Chiều dài: 600-3500MM hoặc theo yêu cầu của khách hàng.
6. Độ dày của tường: 0,2mm đến 2,0mm.

7. Dung sai: OD: +/- 0,01mm;Độ dày: +/- 0,01%.

8. Kích thước lỗ bên trong cuộn dây: 500MM-1500MM (có thể điều chỉnh theo yêu cầu của khách hàng)

9. Chiều cao cuộn: 200MM-400MM (có thể điều chỉnh theo yêu cầu của khách hàng)

10. Bề mặt: Sáng hoặc ủ
11. Chất liệu: 304, 304L, 316L, 321, 301, 201, 202, 409, 430, 410, hợp kim 625, 825, 2205, 2507, v.v.
12. Đóng gói: túi dệt trong vỏ gỗ, pallet gỗ, trục gỗ hoặc theo yêu cầu của khách hàng
13. Kiểm tra: thành phần hóa học, cường độ chảy, độ bền kéo, đo độ cứng
14. Bảo đảm: Sự kiểm tra của bên thứ ba (ví dụ: SGS TV), v.v.
15. Ứng dụng: Trang trí, nội thất, vận chuyển dầu, trao đổi nhiệt, làm lan can, làm giấy, ô tô, chế biến thực phẩm, y tế, v.v.

Tất cả các thành phần hóa học và tính chất vật lý của thép không gỉ như sau:

Vật liệu Thành phần hóa học ASTM A269% tối đa
C Mn P S Si Cr Ni Mo NB Nb Ti
TP304 0,08 2,00 0,045 0,030 1,00 18,0-20,0 8,0-11,0 ^ ^ ^ . ^
TP304L 0,035 2,00 0,045 0,030 1,00 18,0-20,0 8,0-12,0 ^ ^ ^ ^
TP316 0,08 2,00 0,045 0,030 1,00 16,0-18,0 10,0-14,0 2,00-3,00 ^ ^ ^
TP316L 0,035D 2,00 0,045 0,030 1,00 16,0-18,0 10,0-15,0 2,00-3,00 ^ ^ ^
TP321 0,08 2,00 0,045 0,030 1,00 17,0-19,0 9,0-12,0 ^ ^ ^ 5C -0,70
TP347 0,08 2,00 0,045 0,030 1,00 17,0-19,0 9,0-12,0 10C -1,10 ^

 

Vật liệu Xử lý nhiệt Nhiệt độ F (C) Tối thiểu. độ cứng
Brinell Rockwell
TP304 Giải pháp 1900 (1040) 192HBW/200HV 90HRB
TP304L Giải pháp 1900 (1040) 192HBW/200HV 90HRB
TP316 Giải pháp 1900(1040) 192HBW/200HV 90HRB
TP316L Giải pháp 1900(1040) 192HBW/200HV 90HRB
TP321 Giải pháp 1900(1040) F 192HBW/200HV 90HRB
TP347 Giải pháp 1900(1040) 192HBW/200HV 90HRB

 

OD, inch Dung sai OD inch (mm) Dung sai WT% Dung sai chiều dài inch(mm)
+ -
1/2 ± 0,005 ( 0,13 ) ± 15 1/8 ( 3.2 ) 0
> 1/2 ~1 1/2 ± 0,005(0,13) ± 10 1/8 (3,2) 0
> 1 1/2 ~< 3 1/2 ± 0,010(0,25) ± 10 3/16 (4,8) 0
> 3 1/2 ~< 5 1/2 ± 0,015(0,38) ± 10 3/16 (4,8) 0
> 5 1/2 ~< 8 ± 0,030(0,76) ± 10 3/16 (4,8) 0
8~< 12 ± 0,040(1,01) ± 10 3/16 (4,8) 0
12~< 14 ± 0,050(1,26) ± 10 3/16 (4,8) 0

Các cộng đồng vi sinh vật tự nhiên rất đa dạng về mặt phát sinh gen và trao đổi chất.Ngoài các nhóm sinh vật chưa được nghiên cứu kỹ1, sự đa dạng này còn có tiềm năng phong phú trong việc phát hiện các enzyme và hợp chất sinh hóa có ý nghĩa về mặt sinh thái và công nghệ sinh học2,3.Tuy nhiên, nghiên cứu sự đa dạng này để xác định con đường di truyền tổng hợp các hợp chất đó và liên kết chúng với vật chủ tương ứng vẫn là một thách thức.Tiềm năng sinh tổng hợp của vi sinh vật trong đại dương mở vẫn chưa được biết rõ do những hạn chế trong việc phân tích toàn bộ dữ liệu phân giải bộ gen trên quy mô toàn cầu.Ở đây, chúng tôi khám phá sự đa dạng và phong phú của các cụm gen sinh tổng hợp trong đại dương bằng cách tích hợp khoảng 10.000 bộ gen vi sinh vật từ các tế bào nuôi cấy và tế bào đơn lẻ với hơn 25.000 bộ gen dự thảo mới được tái tạo từ hơn 1.000 mẫu nước biển.Những nỗ lực này đã xác định được khoảng 40.000 cụm gen sinh tổng hợp giả định, một số trong đó đã được tìm thấy trong các nhóm phát sinh chủng loại không bị nghi ngờ trước đây.Trong các quần thể này, chúng tôi đã xác định được một dòng được làm giàu với các cụm gen sinh tổng hợp (“Candidatus Eudormicrobiaceae”) thuộc về một ngành vi khuẩn chưa được nuôi cấy và bao gồm một số vi sinh vật đa dạng sinh tổng hợp nhất trong môi trường này.Trong số này, chúng tôi đã mô tả các con đường phosphatase-peptide và pytonamide, xác định các trường hợp có cấu trúc hợp chất hoạt tính sinh học bất thường và enzyme tương ứng.Tóm lại, nghiên cứu này chứng minh các chiến lược dựa trên hệ vi sinh vật có thể cho phép khám phá các enzyme và thực phẩm tự nhiên chưa được mô tả trước đây trong môi trường và hệ vi sinh vật chưa được hiểu rõ.
Vi khuẩn điều khiển các chu trình sinh địa hóa toàn cầu, duy trì lưới thức ăn và giữ cho thực vật và động vật khỏe mạnh5.Sự đa dạng phát sinh loài, trao đổi chất và chức năng to lớn của chúng thể hiện tiềm năng phong phú trong việc khám phá các phân loại, enzyme và hợp chất sinh hóa mới, bao gồm cả các sản phẩm tự nhiên6.Trong các cộng đồng sinh thái, các phân tử này cung cấp cho vi sinh vật nhiều chức năng sinh lý và sinh thái khác nhau, từ giao tiếp đến cạnh tranh2, 7.Ngoài các chức năng ban đầu, các sản phẩm tự nhiên này và quy trình sản xuất được mã hóa di truyền của chúng còn cung cấp các ví dụ cho các ứng dụng công nghệ sinh học và trị liệu2,3.Việc xác định các con đường và kết nối như vậy đã được hỗ trợ rất nhiều nhờ nghiên cứu các vi khuẩn nuôi cấy.Tuy nhiên, các nghiên cứu phân loại về môi trường tự nhiên đã chỉ ra rằng phần lớn các vi sinh vật chưa được nuôi cấy8.Sự thiên vị văn hóa này hạn chế khả năng của chúng ta trong việc khai thác sự đa dạng về chức năng được mã hóa bởi nhiều vi khuẩn4,9.
Để khắc phục những hạn chế này, những tiến bộ công nghệ trong thập kỷ qua đã cho phép các nhà nghiên cứu trực tiếp (tức là không cần nuôi cấy trước) giải trình tự các đoạn DNA của vi sinh vật từ toàn bộ cộng đồng (metagenomics) hoặc các tế bào đơn lẻ.Khả năng tập hợp các đoạn này thành các đoạn gen lớn hơn và tái cấu trúc nhiều bộ gen được tập hợp metagenomic (MAG) hoặc các bộ gen được khuếch đại đơn (SAG), tương ứng, mở ra cơ hội quan trọng cho các nghiên cứu phân loại về hệ vi sinh vật (tức là cộng đồng vi sinh vật và hệ vi sinh vật).mở ra những con đường mới.vật liệu di truyền của chính nó trong một môi trường nhất định) 10,11,12.Thật vậy, các nghiên cứu gần đây đã mở rộng đáng kể sự biểu hiện phát sinh gen của đa dạng vi sinh vật trên Earth1, 13 và đã tiết lộ phần lớn sự đa dạng về chức năng trong các cộng đồng vi sinh vật riêng lẻ trước đây không được bao phủ bởi trình tự bộ gen tham chiếu vi sinh vật nuôi cấy (REF)14.Khả năng đặt sự đa dạng chức năng chưa được khám phá trong bối cảnh bộ gen chủ (tức là độ phân giải bộ gen) là rất quan trọng để dự đoán các dòng vi sinh vật chưa được xác định đặc tính có lẽ mã hóa các sản phẩm tự nhiên mới15,16 hoặc để truy tìm các hợp chất đó trở lại nhà sản xuất ban đầu của chúng17.Ví dụ, phương pháp phân tích bộ gen đơn bào và metagenomic kết hợp đã dẫn đến việc xác định Candidatus Entotheonella, một nhóm vi khuẩn liên quan đến bọt biển giàu trao đổi chất, là nhà sản xuất nhiều loại tiềm năng thuốc18.Tuy nhiên, bất chấp những nỗ lực gần đây trong việc khám phá bộ gen của các cộng đồng vi sinh vật đa dạng, hơn 2/3 dữ liệu metagenomic toàn cầu về đại dương hệ sinh thái lớn nhất Trái đất vẫn còn thiếu.Do đó, nhìn chung, tiềm năng sinh tổng hợp của hệ vi sinh vật biển và tiềm năng của nó như một kho lưu trữ các sản phẩm tự nhiên và enzyme mới vẫn chưa được nghiên cứu kỹ lưỡng.
Để khám phá tiềm năng sinh tổng hợp của các hệ vi sinh vật biển trên quy mô toàn cầu, trước tiên chúng tôi đã tổng hợp các bộ gen của vi sinh vật biển thu được bằng các phương pháp phụ thuộc vào văn hóa và phi văn hóa để tạo ra một cơ sở dữ liệu mở rộng về phát sinh gen và chức năng gen.Việc kiểm tra cơ sở dữ liệu này cho thấy rất nhiều cụm gen sinh tổng hợp (BGC), hầu hết thuộc về họ cụm gen chưa được xác định (GCF).Ngoài ra, chúng tôi đã xác định được một họ vi khuẩn chưa được biết đến có mức độ đa dạng BGC cao nhất được biết đến trong đại dương cho đến nay.Chúng tôi đã chọn hai con đường tổng hợp ribosome và peptide biến đổi sau dịch mã (RiPP) để xác nhận bằng thực nghiệm dựa trên sự khác biệt di truyền của chúng so với các con đường hiện đã biết.Đặc tính chức năng của các con đường này đã tiết lộ những ví dụ bất ngờ về enzyme cũng như các hợp chất có cấu trúc khác thường có hoạt tính ức chế protease.
Lúc đầu, chúng tôi hướng đến việc tạo ra một nguồn dữ liệu toàn cầu để phân tích bộ gen, tập trung vào các thành phần vi khuẩn và vi khuẩn cổ.Để đạt được mục đích này, chúng tôi đã tổng hợp dữ liệu metagenomic và 1038 mẫu nước biển từ 215 địa điểm lấy mẫu phân bố trên toàn cầu (phạm vi vĩ độ = 141,6°) và một số lớp sâu (độ sâu từ 1 đến 5600 m, bao phủ các vùng nổi, vùng trung du và vực thẳm).Bối cảnh21,22,23 (Hình 1a, dữ liệu mở rộng, Hình 1a và Bảng bổ sung 1).Ngoài việc cung cấp phạm vi bao phủ địa lý rộng, các mẫu được lọc có chọn lọc này cho phép chúng tôi so sánh các thành phần khác nhau của hệ vi sinh vật biển, bao gồm giàu vi rút (<0,2 µm), giàu nhân sơ (0,2–3 µm), giàu hạt (0,8 µm). ).–20 µm) và khuẩn lạc đã cạn kiệt virus (>0,2 µm).
a, Tổng cộng có 1038 bộ gen có sẵn công khai (metagenomics) của các cộng đồng vi sinh vật biển được thu thập từ 215 địa điểm phân bố trên toàn cầu (62°S đến 79°N và 179°W đến 179°E.).Gạch bản đồ © Esri.Nguồn: GEBCO, NOAA, CHS, OSU, UNH, CSUMB, National Geographic, DeLorme, NAVTEQ và Esri.b, các metagenome này được sử dụng để tái tạo lại MAG (phương pháp và thông tin bổ sung), khác nhau về số lượng và chất lượng (phương pháp) trong bộ dữ liệu (được đánh dấu bằng màu).Các MAG được tái tạo đã được bổ sung các bộ gen (bên ngoài) có sẵn công khai, bao gồm MAG26, SAG27 và REF được làm thủ công.27 Biên dịch OMD.c, so với các báo cáo trước đây chỉ dựa trên SAG (GORG)20 hoặc MAG (GEM)16, OMD cải thiện đặc tính bộ gen của các cộng đồng vi sinh vật biển (tốc độ đọc ánh xạ metagenomic; phương pháp) gấp hai đến ba lần với sự thể hiện nhất quán hơn về chiều sâu và vĩ độ..<0,2, n=151, 0,2-0,8, n=67, 0,2-3, n=180, 0,8-20, n=30, >0,2, n=610, <30°, n = 132, 30–60° , n = 73, >60°, n = 42, EPI, n = 174, MES, n = 45, BAT, n = 28. d, OMD phân nhóm thành cấp độ cụm loài (nhận dạng nucleotide trung bình 95%) xác định tổng cộng khoảng 8300 loài, hơn một nửa trong số đó trước đây chưa được mô tả đặc điểm theo chú thích phân loại bằng GTDB (phiên bản 89) e, việc phân loại các loài theo loại bộ gen cho thấy MAG, SAG và REF bổ sung tốt cho nhau trong việc phản ánh sự đa dạng phát sinh gen của hệ vi sinh vật biển.Đặc biệt, 55%, 26% và 11% số loài có đặc tính tương ứng với MAG, SAG và REF.BATS, Chuỗi thời gian Đại Tây Dương Bermuda;GEM, bộ gen của hệ vi sinh vật trên Trái đất;GORG, bộ gen tham chiếu đại dương toàn cầu;Chuỗi thời gian HOT, Đại dương Hawaii.
Sử dụng tập dữ liệu này, chúng tôi đã xây dựng lại tổng cộng 26.293 MAG, chủ yếu là vi khuẩn và vi khuẩn cổ (Hình 1b và dữ liệu mở rộng, Hình 1b).Chúng tôi đã tạo ra các MAG này từ các tập hợp từ các mẫu metagenomic riêng biệt thay vì gộp lại để ngăn chặn sự sụp đổ của biến thể trình tự tự nhiên giữa các mẫu từ các vị trí hoặc điểm thời gian (phương pháp) khác nhau.Ngoài ra, chúng tôi đã nhóm các đoạn gen dựa trên mối tương quan phổ biến của chúng trên một số lượng lớn mẫu (từ 58 đến 610 mẫu, tùy thuộc vào khảo sát; phương pháp).Chúng tôi nhận thấy rằng đây là bước24 tốn thời gian nhưng quan trọng đã bị bỏ qua trong một số công trình tái thiết MAG16, 19, 25 quy mô lớn và cải thiện đáng kể số lượng (trung bình gấp 2,7 lần) và chất lượng (trung bình (+20%)) của bộ gen.được xây dựng lại từ metagenome biển được nghiên cứu ở đây (dữ liệu mở rộng, Hình 2a và thông tin bổ sung).Nhìn chung, những nỗ lực này đã dẫn đến sự gia tăng gấp 4,5 lần MAG của vi sinh vật biển (gấp 6 lần nếu chỉ xem xét MAG chất lượng cao) so với nguồn MAG toàn diện nhất hiện nay16 (Phương pháp).Bộ MAG mới được tạo này sau đó được kết hợp với 830 MAG26 được chọn thủ công, 5969 SAG27 và 1707 REF.Hai mươi bảy loài vi khuẩn biển và vi khuẩn cổ đã tạo thành một bộ sưu tập tổ hợp gồm 34.799 bộ gen (Hình 1b).
Sau đó, chúng tôi đã đánh giá nguồn tài nguyên mới được tạo ra để cải thiện khả năng đại diện cho các cộng đồng vi sinh vật biển và đánh giá tác động của việc tích hợp các loại bộ gen khác nhau.Trung bình, chúng tôi nhận thấy rằng nó bao gồm khoảng 40-60% dữ liệu metagenomic biển (Hình 1c), gấp hai đến ba lần phạm vi bao phủ của các báo cáo chỉ MAG trước đây ở cả độ sâu và vĩ độ Thêm nối tiếp 16 hoặc SAG20.Ngoài ra, để đo lường một cách có hệ thống tính đa dạng về phân loại trong các bộ sưu tập đã được thiết lập, chúng tôi đã chú thích tất cả các bộ gen bằng bộ công cụ (phương pháp) Cơ sở dữ liệu phân loại bộ gen (GTDB) và sử dụng mức nhận dạng nucleotide trung bình trên toàn bộ bộ gen là 95%.28 xác định được 8.304 cụm loài (loài).Hai phần ba trong số các loài này (bao gồm cả các nhánh mới) trước đây chưa xuất hiện trong GTDB, trong đó có 2790 loài được phát hiện bằng cách sử dụng MAG được tái tạo trong nghiên cứu này (Hình 1d).Ngoài ra, chúng tôi nhận thấy rằng các loại bộ gen khác nhau có tính bổ sung cao: 55%, 26% và 11% số loài lần lượt được cấu tạo hoàn toàn từ MAG, SAG và REF (Hình 1e).Ngoài ra, MAG bao gồm tất cả 49 loại được tìm thấy trong cột nước, trong khi SAG và REF chỉ lần lượt đại diện cho 18 và 11 loại trong số đó.Tuy nhiên, SAG thể hiện tốt hơn sự đa dạng của các dòng phổ biến nhất (dữ liệu mở rộng, Hình 3a), chẳng hạn như Vi khuẩn Pelagic (SAR11), với SAG bao gồm gần 1300 loài và MAG chỉ có 390 loài.Đáng chú ý, REF hiếm khi trùng lặp với MAG hoặc SAG ở cấp độ loài và chiếm> 95% trong số khoảng 1000 bộ gen không được tìm thấy trong các bộ metagenomic đại dương mở được nghiên cứu ở đây, chủ yếu là do tương tác với các loại mẫu vật biển đại diện bị cô lập khác (ví dụ: trầm tích ) .hoặc chủ nhà liên kết).Để phổ biến rộng rãi cho cộng đồng khoa học, tài nguyên bộ gen biển này, cũng bao gồm các đoạn chưa được phân loại (ví dụ: từ các phage được dự đoán, đảo gen và các đoạn gen không có đủ dữ liệu để tái tạo MAG), có thể được so sánh với dữ liệu phân loại .Truy cập các chú thích cùng với chức năng gen và các thông số theo ngữ cảnh trong Cơ sở dữ liệu Vi sinh Đại dương (OMD; https://microbiomics.io/ocean/).
Sau đó, chúng tôi bắt đầu khám phá sự phong phú và mới lạ của tiềm năng sinh tổng hợp trong các hệ vi sinh vật đại dương mở.Để đạt được mục đích này, trước tiên, chúng tôi sử dụng antiSMASH cho tất cả MAG, SAG và REF được tìm thấy trong 1038 metagenomes (phương pháp) biển để dự đoán tổng cộng 39.055 BGC.Sau đó, chúng tôi đã nhóm chúng thành 6907 GCF không dư thừa và 151 quần thể cụm gen (GCC; Bảng bổ sung 2 và các phương pháp) để giải thích sự dư thừa vốn có (nghĩa là cùng một BGC có thể được mã hóa trong nhiều bộ gen) và phân mảnh dữ liệu metagenomic của các BGC tập trung .Các BGC chưa hoàn chỉnh không tăng đáng kể, nếu có (Thông tin bổ sung), số lượng GCF và GCC tương ứng, chứa ít nhất một thành viên BGC nguyên vẹn trong 44% và 86% trường hợp.
Ở cấp độ GCC, chúng tôi đã tìm thấy rất nhiều RiPP được dự đoán và các sản phẩm tự nhiên khác (Hình 2a).Trong số đó, ví dụ, arylpolyenes, carotenoids, ectoine và siderophores thuộc về GCC với sự phân bố phát sinh gen rộng và lượng metagenome đại dương dồi dào, có thể cho thấy sự thích nghi rộng rãi của vi sinh vật với môi trường biển, bao gồm cả khả năng kháng các loại oxy phản ứng, stress oxy hóa và thẩm thấu..hoặc hấp thụ sắt (thêm thông tin).Sự đa dạng về chức năng này trái ngược với một phân tích gần đây về khoảng 1,2 triệu BGC trong số khoảng 190.000 bộ gen được lưu trữ trong cơ sở dữ liệu NCBI RefSeq (BiG-FAM/RefSeq, sau đây gọi là RefSeq)29, cho thấy rằng các peptide Synthetase phi ribosome (NRPS) và polyketide synthase (PKS) BGC (Thông tin bổ sung).Chúng tôi cũng tìm thấy 44 (29%) GCC chỉ liên quan xa đến bất kỳ RefSeq BGC nào (\(\bar{d}\)RefSeq > 0,4; Hình 2a và các phương pháp) và 53 (35%) GCC chỉ trong MAG , nêu bật tiềm năng để phát hiện các hóa chất chưa được mô tả trước đây trong OMD.Do mỗi GCC này có khả năng đại diện cho các chức năng sinh tổng hợp rất đa dạng, chúng tôi đã phân tích thêm dữ liệu ở cấp độ GCF nhằm nỗ lực cung cấp một nhóm BGC chi tiết hơn được dự đoán sẽ mã hóa cho các sản phẩm tự nhiên tương tự29.Tổng cộng có 3861 (56%) GCF được xác định không trùng lặp với RefSeq và> 97% GCF không có trong MIBiG, một trong những cơ sở dữ liệu lớn nhất về BGC được xác thực bằng thực nghiệm (Hình 2b).Mặc dù không có gì đáng ngạc nhiên khi phát hiện ra nhiều con đường mới tiềm năng trong các cài đặt không được trình bày rõ ràng trong bộ gen tham chiếu, phương pháp của chúng tôi để sao chép BGC thành GCF trước khi đo điểm chuẩn khác với các báo cáo trước đó và cho phép chúng tôi đưa ra đánh giá khách quan về tính mới.Hầu hết sự đa dạng mới (3012 GCF hoặc 78%) tương ứng với các terpen, RiPP hoặc các sản phẩm tự nhiên khác được dự đoán, và hầu hết (1815 GCF hoặc 47%) được mã hóa thành các loại chưa xác định do tiềm năng sinh tổng hợp của chúng.Không giống như các cụm PKS và NRPS, các BGC nhỏ gọn này ít có khả năng bị phân mảnh trong quá trình lắp ráp metagenomic và cho phép mô tả đặc tính chức năng tốn nhiều thời gian và tài nguyên hơn cho các sản phẩm của chúng.
Tổng cộng có 39.055 BGC được nhóm thành 6.907 GCF và 151 GCC.a, biểu diễn dữ liệu (nội bộ bên ngoài).Phân cụm theo cấp bậc các khoảng cách BGC dựa trên GCC, 53 trong số đó chỉ được cố định bởi MAG.GCC chứa các BGC từ các đơn vị phân loại khác nhau (tần số cổng biến đổi ln) và các lớp BGC khác nhau (kích thước vòng tròn tương ứng với tần số của nó).Đối với mỗi GCC, lớp bên ngoài biểu thị số lượng BGC, mức độ phổ biến (tỷ lệ phần trăm mẫu) và khoảng cách (khoảng cách cosine BGC tối thiểu (min(dMIBiG))) từ BiG-FAM đến BGC.Các GCC có BGC có liên quan chặt chẽ với các BGC đã được xác minh bằng thực nghiệm (MIBiG) được tô sáng bằng các mũi tên.b So sánh GCF với các BGC được dự đoán (BiG-FAM) và được xác thực bằng thực nghiệm (MIBiG), 3861 GCF mới (d–>0,2) đã được tìm thấy.Hầu hết (78%) trong số này mã cho RiPP, terpen và các sản phẩm tự nhiên giả định khác.c, tất cả các bộ gen trong OMD được tìm thấy trong 1038 metagenome biển đã được đặt trong cây cơ sở GTDB để hiển thị phạm vi phát sinh gen của OMD.Các dòng không có bất kỳ bộ gen nào trong OMD được hiển thị bằng màu xám.Số lượng BGC tương ứng với số lượng BGC dự đoán lớn nhất trên mỗi bộ gen trong một nhánh nhất định.Để rõ ràng, 15% nút cuối cùng được thu gọn.Mũi tên chỉ ra các nhánh giàu BGC (> 15 BGC), ngoại trừ Mycobacteria, Gordonia (chỉ đứng sau Rhodococcus) và Crocosphaera (chỉ đứng sau Synechococcus).d, Không rõ c.Eremiobacterota cho thấy tính đa dạng sinh tổng hợp cao nhất (chỉ số Shannon dựa trên loại sản phẩm tự nhiên).Mỗi nhóm đại diện cho bộ gen có nhiều BGC nhất trong loài.T1PKS, PKS loại I, T2/3PKS, PKS loại II và loại III.
Ngoài sự phong phú và mới lạ, chúng tôi còn khám phá cấu trúc địa sinh học về tiềm năng sinh tổng hợp của hệ vi sinh vật biển.Việc nhóm các mẫu theo phân bố số lượng bản sao GCF metagenomic trung bình (Phương pháp) cho thấy các cộng đồng ở vĩ độ thấp, bề mặt, giàu prokaryotic và nghèo virus, chủ yếu từ vùng nước có ánh nắng bề mặt hoặc sâu hơn, rất giàu RiPP và BGC terpen.Ngược lại, các cộng đồng vùng cực, biển sâu, giàu vi rút và hạt có liên quan đến lượng NRPS và PKS BGC dồi dào hơn (dữ liệu mở rộng, Hình 4 và thông tin bổ sung).Cuối cùng, chúng tôi nhận thấy rằng các cộng đồng nhiệt đới và cá nổi được nghiên cứu kỹ lưỡng là nguồn cung cấp terpen mới hứa hẹn nhất (Hình dữ liệu tăng cường).Tiềm năng cao nhất về PKS, RiPP và các sản phẩm tự nhiên khác (Hình 5a với dữ liệu mở rộng).
Để bổ sung cho nghiên cứu của chúng tôi về tiềm năng sinh tổng hợp của các hệ vi sinh vật biển, chúng tôi nhằm mục đích lập bản đồ phân bố phát sinh gen của chúng và xác định các dòng mới được làm giàu bằng BGC.Để đạt được mục đích này, chúng tôi đã đặt bộ gen của các vi khuẩn biển vào cây phát sinh gen vi khuẩn và vi khuẩn cổ GTDB13 đã được chuẩn hóa và phủ lên các con đường sinh tổng hợp giả định mà chúng mã hóa (Hình 2c).Chúng tôi đã dễ dàng phát hiện một số dòng giàu BGC (đại diện bởi hơn 15 BGC) trong các mẫu (phương pháp) nước biển được biết đến với tiềm năng sinh tổng hợp, chẳng hạn như vi khuẩn lam (Synechococcus) và vi khuẩn Proteus, như Tistrella32,33, hoặc gần đây đã thu hút sự chú ý vì chúng sản phẩm tự nhiên .như Myxococcota (Sandaracinaceae), Rhodococcus và Planctomycetota34,35,36.Thật thú vị, chúng tôi đã tìm thấy một số dòng dõi chưa được khám phá trước đây trong các nhánh này.Ví dụ, những loài có tiềm năng sinh tổng hợp phong phú nhất trong phyla Planctomycetota và Myxococcota lần lượt thuộc về các đơn đặt hàng và chi ứng cử viên không bị biến đổi (Bảng bổ sung 3).Kết hợp lại với nhau, điều này cho thấy OMD cung cấp quyền truy cập vào thông tin phát sinh gen chưa được biết đến trước đây, bao gồm cả các vi sinh vật, có thể đại diện cho các mục tiêu mới để khám phá enzyme và sản phẩm tự nhiên.
Tiếp theo, chúng tôi mô tả nhóm được làm giàu bằng BGC bằng cách không chỉ đếm số lượng BGC tối đa được mã hóa bởi các thành viên của nó mà còn bằng cách đánh giá tính đa dạng của các BGC này, điều này giải thích tần suất của các loại sản phẩm ứng cử viên tự nhiên khác nhau (Hình 2c và các phương pháp )..Chúng tôi thấy rằng các loài đa dạng về mặt sinh tổng hợp nhất được đại diện bởi các MAG vi khuẩn được thiết kế đặc biệt trong nghiên cứu này.Những vi khuẩn này thuộc về ngành chưa được nuôi cấy Candidatus Eremiobacterota, phần lớn vẫn chưa được khám phá ngoài một số nghiên cứu về gen37,38.Điều đáng chú ý là “ca.Chi Eremiobacterota chỉ được phân tích trong môi trường trên cạn39 và không bao gồm bất kỳ thành viên nào được làm giàu trong BGC.Ở đây, chúng tôi đã tái tạo lại tám MAG của cùng một loài (nhận dạng nucleotide > 99%) 23. Do đó, chúng tôi đề xuất tên loài là “Candidatus Eudoremiarobium malaspinii”, được đặt theo tên của nereid (nữ thần biển), một món quà tuyệt đẹp trong thần thoại và các cuộc thám hiểm Hy Lạp.'Ka.Theo chú thích phát sinh gen 13, E. malaspinii không có họ hàng nào được biết đến trước đây dưới cấp độ trình tự và do đó thuộc về một họ vi khuẩn mới mà chúng tôi đề xuất “Ca.E. malaspinii” là loài điển hình và “Ca.Eudormicrobiaceae” là tên chính thức (Thông tin bổ sung).Tái cấu trúc metagenomic ngắn gọn của 'Ca.Dự án bộ gen của E. malaspinii đã được xác thực bằng trình tự metagenomic đầu vào rất thấp, đọc dài và tập hợp mục tiêu của một mẫu (Phương pháp) dưới dạng một nhiễm sắc thể tuyến tính 9,63 Mb duy nhất với độ nhân đôi 75 kb.như sự mơ hồ duy nhất còn lại.
Để thiết lập bối cảnh phát sinh gen của loài này, chúng tôi đã tìm kiếm 40 loài có liên quan chặt chẽ trong các mẫu metagenomic được làm giàu bằng sinh vật nhân chuẩn bổ sung từ chuyến thám hiểm Đại dương Tara thông qua tái thiết bộ gen mục tiêu.Tóm lại, chúng tôi đã liên kết các lần đọc metagenomic với các đoạn gen liên quan đến “Ca.E. malaspinii” và đưa ra giả thuyết rằng tỷ lệ tuyển dụng tăng lên trong mẫu này cho thấy sự hiện diện của các họ hàng khác (phương pháp).Kết quả là chúng tôi đã tìm thấy 10 MAG, sự kết hợp của 19 MAG đại diện cho 5 loài thuộc 3 chi trong một họ mới được xác định (tức là “Ca. Eudormicrobiaceae”).Sau khi kiểm tra thủ công và kiểm soát chất lượng (dữ liệu mở rộng, Hình 6 và thông tin bổ sung), chúng tôi nhận thấy rằng “Ca.Các loài Eudormicrobiaceae có bộ gen lớn hơn (8 Mb) và tiềm năng sinh tổng hợp phong phú hơn (14 đến 22 BGC mỗi loài) so với các thành viên “Ca” khác.Nhánh Eremiobacterota (tối đa 7 BGC) (Hình 3a cách c).
a, Vị trí phát sinh loài của năm 'Ca.Các loài Eudormicrobiaceae cho thấy sự phong phú BGC đặc trưng cho các dòng biển được xác định trong nghiên cứu này.Cây phát sinh gen bao gồm tất cả 'Ca.MAG Eremiobacterota và các thành viên của phyla khác (số bộ gen trong ngoặc) được cung cấp trong GTDB (phiên bản 89) đã được sử dụng làm nền tảng tiến hóa (Phương pháp).Các lớp ngoài cùng thể hiện sự phân loại ở cấp độ họ (“Ca. Eudormicrobiaceae” và “Ca. Xenobiaceae”) và ở cấp độ lớp (“Ca. Eremiobacteria”).Năm loài được mô tả trong nghiên cứu này được biểu thị bằng mã chữ và số và tên nhị thức được đề xuất (Thông tin bổ sung).được, được rồi.Các loài Eudormicrobiaceae có chung bảy hạt nhân BGC chung.Sự vắng mặt của BGC trong nhánh A2 là do MAG đại diện không đầy đủ (Bảng bổ sung 3).BGC dành riêng cho “Ca.Amphithomicrobium” và “Ca.Amphithomicrobium” (nhánh A và B) không được hiển thị.c, Tất cả các BGC được mã hóa là “Ca.Eudoremirobium taraoceanii được tìm thấy biểu hiện ở 623 siêu bản sao lấy từ đại dương Tara.Vòng tròn liền nét biểu thị phiên mã hoạt động.Các vòng tròn màu cam biểu thị các thay đổi về nếp gấp được chuyển đổi log2 bên dưới và bên trên tốc độ biểu hiện gen giữ nhà (phương pháp).d, các đường cong (phương pháp) độ phong phú tương đối hiển thị 'Ca.Các loài Eudormicrobiaceae phân bố rộng rãi ở hầu hết các lưu vực đại dương và toàn bộ cột nước (từ bề mặt đến độ sâu ít nhất 4000 m).Dựa trên những ước tính này, chúng tôi thấy rằng 'Ca.E. malaspinii' chiếm tới 6% tế bào nhân sơ trong các cộng đồng liên quan đến ngũ cốc ở vùng biển sâu.Chúng tôi coi một loài có mặt tại một địa điểm nếu nó được tìm thấy ở bất kỳ phần nào của kích thước của lớp độ sâu nhất định.IO – Ấn Độ Dương, NAO – Bắc Đại Tây Dương, NPO – Bắc Thái Bình Dương, RS – Biển Đỏ, SAO – Nam Đại Tây Dương, SO – Nam Đại Dương, SPO – Nam Thái Bình Dương.
Nghiên cứu sự phong phú và phân bố của Ca.Eudormicrobiaceae, như chúng tôi đã tìm thấy, chiếm ưu thế ở hầu hết các lưu vực đại dương, cũng như trong toàn bộ cột nước (Hình 3d).Ở địa phương, chúng chiếm 6% cộng đồng vi sinh vật biển, khiến chúng trở thành một phần quan trọng của hệ vi sinh vật biển toàn cầu.Ngoài ra, chúng tôi đã tìm thấy hàm lượng tương đối của Ca.Các loài Eudormicrobiaceae và mức độ biểu hiện BGC của chúng cao nhất ở phần được làm giàu của sinh vật nhân chuẩn (Hình 3c và dữ liệu mở rộng, Hình 7), cho thấy khả năng tương tác với các hạt vật chất, bao gồm cả sinh vật phù du.Quan sát này có một số điểm tương đồng với 'Ca.Các BGC Eudoremirobium sản xuất các sản phẩm tự nhiên gây độc tế bào thông qua các con đường đã biết có thể biểu hiện hành vi săn mồi (Thông tin bổ sung và dữ liệu mở rộng, Hình 8), tương tự như các loài săn mồi khác tạo ra các chất chuyển hóa đặc biệt như Myxococcus41.Sự khám phá ra Ca.Eudormicrobiaceae trong các mẫu ít có sẵn (đại dương sâu) hoặc mẫu nhân chuẩn thay vì mẫu nhân sơ có thể giải thích tại sao những vi khuẩn này và sự đa dạng BGC bất ngờ của chúng vẫn chưa rõ ràng trong bối cảnh nghiên cứu thực phẩm tự nhiên.
Cuối cùng, chúng tôi đã tìm cách xác nhận bằng thực nghiệm hứa hẹn của công việc dựa trên hệ vi sinh vật của chúng tôi trong việc khám phá các con đường, enzym và sản phẩm tự nhiên mới.Trong số các loại BGC khác nhau, con đường RiPP được biết là mã hóa sự đa dạng về chức năng và hóa học phong phú do có nhiều biến đổi sau dịch mã của peptide lõi bởi các enzyme trưởng thành42.Vì vậy chúng tôi đã chọn hai 'Ca.Eudoremirobium' RiPP BGC (Hình 3b và 4a-e) dựa trên BGC giống như bất kỳ BGC nào đã biết (\(\bar{d}\)MIBiG và \(\bar{d}\)RefSeq trên 0,2) .
a–c, Biểu hiện dị loại trong ống nghiệm và xét nghiệm enzyme trong ống nghiệm của một cụm sinh tổng hợp RiPP mới (\(\bar{d}\)RefSeq = 0,29) đặc trưng cho sinh tổng hợp RiPP dành cho các loài Ca biển sâu.E. malaspinii' đã dẫn đến việc sản xuất các sản phẩm được diphosphory hóa.c, các sửa đổi được xác định bằng cách sử dụng MS/MS có độ phân giải cao (HR) (phân mảnh được biểu thị bằng các ion b và y trong cấu trúc hóa học) và NMR (dữ liệu mở rộng, Hình 9).d, peptide phosphoryl hóa này thể hiện sự ức chế micromol thấp của elastase bạch cầu trung tính ở động vật có vú, không được tìm thấy trong peptide đối chứng và peptide khử nước (loại bỏ hóa chất gây mất nước).Thí nghiệm được lặp đi lặp lại ba lần với kết quả tương tự.Ví dụ, biểu hiện dị loại của cụm sinh tổng hợp protein mới thứ hai \(\bar{d}\)RefSeq = 0,33) làm sáng tỏ chức năng của bốn enzyme trưởng thành có tác dụng biến đổi peptide lõi 46 axit amin.Dư lượng được nhuộm màu theo vị trí sửa đổi được dự đoán bởi HR-MS/MS, ghi nhãn đồng vị và phân tích NMR (Thông tin bổ sung).Màu sắc nét đứt cho thấy sự biến đổi xảy ra ở một trong hai phần dư.Hình này là sự tổng hợp của nhiều cấu trúc khác loại để thể hiện hoạt động của tất cả các enzyme trưởng thành trên cùng một nhân.h, Minh họa dữ liệu NMR cho quá trình methyl hóa N-amide xương sống.Kết quả đầy đủ được hiển thị trong hình.10 với dữ liệu mở rộng.i, Vị trí phát sinh gen của enzyme cụm protein FkbM trưởng thành trong số tất cả các miền FkbM được tìm thấy trong cơ sở dữ liệu MIBiG 2.0 cho thấy một enzyme thuộc họ này có hoạt động N-methyltransferase (Thông tin bổ sung).Sơ đồ nguyên lý của BGC (a, e), cấu trúc peptide tiền chất (b, f) và cấu trúc hóa học giả định của các sản phẩm tự nhiên (c, g) được hiển thị.
Con đường RiPP đầu tiên (\(\bar{d}\)MIBiG = 0,41, \(\bar{d}\)RefSeq = 0,29) chỉ được tìm thấy ở các loài biển sâu “Ca.E. malaspinii” và mã hóa cho tiền chất Peptide (Hình 4a, b).Trong enzyme trưởng thành này, chúng tôi đã xác định được một miền chức năng tương đồng với miền khử nước của lantipeptide synthase thường xúc tác cho quá trình phosphoryl hóa và loại bỏ 43 sau đó (Thông tin bổ sung).Do đó, chúng tôi dự đoán rằng việc sửa đổi peptide tiền chất liên quan đến quá trình khử nước hai bước như vậy.Tuy nhiên, bằng cách sử dụng phương pháp quang phổ khối song song (MS / MS) và phương pháp quang phổ cộng hưởng từ hạt nhân (NMR), chúng tôi đã xác định được một peptide tuyến tính polyphosphorylation (Hình 4c).Mặc dù không mong đợi, nhưng chúng tôi đã tìm thấy một số bằng chứng chứng minh nó là sản phẩm cuối cùng: hai vật chủ khác loại khác nhau và không bị khử nước trong các thử nghiệm in vitro, xác định các dư lượng quan trọng bị đột biến ở vị trí khử nước xúc tác của enzyme trưởng thành.tất cả đều được tái tạo lại bởi “Ca”.Bộ gen của E. malaspinii (dữ liệu mở rộng, Hình 9 và thông tin bổ sung) và cuối cùng là hoạt động sinh học của sản phẩm được phosphoryl hóa, nhưng không phải là dạng khử nước tổng hợp hóa học (Hình 4d).Trên thực tế, chúng tôi nhận thấy rằng nó có hoạt tính ức chế protease micromol thấp đối với elastase bạch cầu trung tính, có thể so sánh với các sản phẩm tự nhiên có liên quan khác trong khoảng nồng độ (IC50 = 14,3 μM)44, mặc dù thực tế là vai trò sinh thái vẫn chưa được làm rõ.Dựa trên những kết quả này, chúng tôi đề xuất đặt tên cho con đường này là “phospheptin”.
Trường hợp thứ hai là con đường RiPP phức tạp dành riêng cho 'Ca.Chi Eudomicrobium (\(\bar{d}\)MIBiG = 0,46, \(\bar{d}\)RefSeq = 0,33) được dự đoán sẽ mã hóa các sản phẩm protein tự nhiên (Hình 4e).Những con đường này được công nghệ sinh học đặc biệt quan tâm vì mật độ dự kiến ​​và sự đa dạng của các biến đổi hóa học bất thường được thiết lập bởi các enzyme được mã hóa bởi các BGC tương đối ngắn45.Chúng tôi thấy rằng protein này khác với các protein đặc trưng trước đó ở chỗ nó thiếu cả mô típ NX5N chính của polyceramid và vòng lanthionine của landornamide 46 .Để khắc phục những hạn chế của các mẫu biểu hiện dị loại phổ biến, chúng tôi đã sử dụng chúng cùng với hệ thống Microvirgula aerodenitrificans tùy chỉnh để mô tả bốn (phương pháp) enzyme con đường trưởng thành.Bằng cách sử dụng kết hợp MS/MS, ghi nhãn đồng vị và NMR, chúng tôi đã phát hiện các enzyme trưởng thành này trong lõi 46 axit amin của peptide (Hình 4f, g, dữ liệu mở rộng, Hình 10–12 và thông tin bổ sung).Trong số các enzyme trưởng thành, chúng tôi đã mô tả sự xuất hiện đầu tiên của thành viên họ FkbM O-methyltransferase 47 trong con đường RiPP và bất ngờ phát hiện ra rằng enzyme trưởng thành này đưa ra quá trình N-methyl hóa xương sống (Hình 4h, i và thông tin bổ sung).Mặc dù sự biến đổi này đã được biết đến trong các sản phẩm NRP48 tự nhiên, nhưng quá trình methyl hóa N-methyl liên kết amit bằng enzyme là một phản ứng phức tạp nhưng có ý nghĩa về mặt công nghệ sinh học49 cho đến nay vẫn được họ borosin RiPP quan tâm.Độ đặc hiệu 50,51.Việc xác định hoạt động này ở các họ enzyme và RiPP khác có thể mở ra những ứng dụng mới và mở rộng tính đa dạng về chức năng của protein cũng như tính đa dạng hóa học của chúng.Dựa trên những sửa đổi đã xác định và độ dài bất thường của cấu trúc sản phẩm được đề xuất, chúng tôi đề xuất tên con đường là “pythonamide”.
Việc phát hiện ra một loại enzyme bất ngờ trong một họ enzyme có đặc điểm chức năng minh họa cho sự hứa hẹn về bộ gen môi trường cho những khám phá mới, đồng thời cũng minh họa khả năng suy luận chức năng hạn chế chỉ dựa trên sự tương đồng về trình tự.Do đó, cùng với các báo cáo về RiPP polyphosphoryl hóa hoạt tính sinh học không chính tắc, kết quả của chúng tôi chứng minh giá trị quan trọng nhưng tốn nhiều tài nguyên đối với các nỗ lực sinh học tổng hợp nhằm khám phá đầy đủ sự phong phú về chức năng, tính đa dạng và cấu trúc bất thường của các hợp chất sinh hóa.
Ở đây, chúng tôi chứng minh phạm vi tiềm năng sinh tổng hợp được mã hóa bởi vi khuẩn và bối cảnh bộ gen của chúng trong hệ vi sinh vật biển toàn cầu, tạo điều kiện thuận lợi cho nghiên cứu trong tương lai bằng cách cung cấp nguồn tài nguyên thu được cho cộng đồng khoa học (//microbiomics.io/ocean/).Chúng tôi nhận thấy rằng phần lớn tính mới về phát sinh gen và chức năng của nó chỉ có thể có được bằng cách tái cấu trúc MAG và SAG, đặc biệt là trong các cộng đồng vi sinh vật chưa được sử dụng đúng mức có thể hướng dẫn các nỗ lực thăm dò sinh học trong tương lai.Mặc dù ở đây chúng tôi sẽ tập trung vào 'Ca.Eudormicrobiaceae” là một dòng đặc biệt có “tài năng” về mặt sinh học, nhiều BGC được dự đoán trong hệ vi sinh vật chưa được phát hiện có khả năng mã hóa các enzyme chưa được mô tả trước đây tạo ra các hợp chất có tác dụng quan trọng đối với môi trường và/hoặc công nghệ sinh học.
Các bộ dữ liệu Metagenomic từ các nghiên cứu chuỗi thời gian và hải dương học lớn với đủ độ sâu trình tự đã được đưa vào để tối đa hóa phạm vi bao phủ của các cộng đồng vi sinh vật biển toàn cầu trong các lưu vực đại dương, các tầng sâu và theo thời gian.Các bộ dữ liệu này (Bảng bổ sung 1 và Hình 1) bao gồm metagenomics từ các mẫu được thu thập trong các đại dương Tara (được làm giàu bằng virus, n = 190; được làm giàu ở sinh vật nhân sơ, n = 180)12,22 và chuyến thám hiểm BioGEOTRACES ( n = 480).Chuỗi thời gian Đại dương Hawaii (HOT, n = 68), Chuỗi thời gian Bermuda-Đại Tây Dương (BATS, n = 62)21 và Chuyến thám hiểm Malaspina (n = 58)23.Trình tự đọc từ tất cả các đoạn metagenomic đã được lọc về chất lượng bằng BBMap (v.38.71) bằng cách xóa bộ điều hợp trình tự khỏi các lần đọc, xóa các lần đọc được ánh xạ tới trình tự kiểm soát chất lượng (bộ gen PhiX) và sử dụng Trimq=14, maq=20 để loại bỏ chất lượng đọc kém, maxns = 0 và minlength = 45. Các phân tích tiếp theo được chạy hoặc hợp nhất với các lần đọc QC nếu được chỉ định (bbmerge.sh minoverlap=16).Chỉ số QC đã được chuẩn hóa (bbnorm.sh target = 40, minddeep = 0) trước khi xây dựng bằng metaSPAdes (v.3.11.1 hoặc v.3.12 nếu cần)53.Các đường viền giàn giáo thu được (sau đây gọi là giàn giáo) cuối cùng đã được lọc theo chiều dài ( ≥1 kb).
1038 mẫu metagenomic được chia thành các nhóm và đối với mỗi nhóm mẫu, số lần đọc kiểm soát chất lượng metagenomic của tất cả các mẫu được khớp với dấu ngoặc của từng mẫu riêng biệt, dẫn đến số lần đọc nhóm trong ngoặc theo cặp sau đây: Tara Marine Viruses – Enriched (190×190 ), Prokaryote Enriched (180×180), BioGEOTRACES, HOT và BATS (610×610) và Malaspina (58×58).Việc lập bản đồ được thực hiện bằng cách sử dụng Burrows-Wheeler-Aligner (BWA) (v.0.7.17-r1188)54 cho phép kết quả đọc khớp với các trang web phụ (sử dụng cờ -a).Các sắp xếp đã được lọc để có độ dài ít nhất 45 cơ sở, có mức độ nhận dạng ≥97% và tỷ lệ đọc ≥80%.Các tệp BAM thu được đã được xử lý bằng cách sử dụng tập lệnh jgi_summarize_bam_contig_deeps cho MetaBAT2 (v.2.12.1)55 để cung cấp phạm vi bao phủ trong và giữa các mẫu cho mỗi nhóm.Cuối cùng, các dấu ngoặc được nhóm lại để tăng độ nhạy bằng cách chạy MetaBAT2 riêng lẻ trên tất cả các mẫu có –minContig 2000 và –maxEdges 500. Chúng tôi sử dụng MetaBAT2 thay vì một võ sĩ quyền anh tổng hợp vì nó đã được chứng minh trong các thử nghiệm độc lập là võ sĩ đơn lẻ hiệu quả nhất.và nhanh hơn từ 10 đến 50 lần so với các võ sĩ thông dụng khác57.Để kiểm tra tác động của mối tương quan phong phú, một mẫu phụ của metagenomics được chọn ngẫu nhiên (10 cho mỗi bộ dữ liệu trong số hai bộ dữ liệu Tara Ocean, 10 cho BioGEOTRACES, 5 cho mỗi chuỗi thời gian và 5 cho Malaspina) chỉ sử dụng thêm các mẫu.Các mẫu nội bộ được nhóm lại để có được thông tin bao phủ.(Thông tin thêm).
Các bộ gen bổ sung (bên ngoài) đã được đưa vào phân tích tiếp theo, cụ thể là 830 MAG được chọn thủ công từ một tập hợp con của bộ dữ liệu Tara Oceans26, 5287 SAG từ bộ dữ liệu GORG20 và dữ liệu từ cơ sở dữ liệu MAR (MarDB v. 4) từ 1707 REF bị cô lập và 682 SAG) 27. Đối với tập dữ liệu MarDB, bộ gen được chọn dựa trên siêu dữ liệu có sẵn nếu loại mẫu khớp với biểu thức chính quy sau: '[S|s]ingle.?[C|c]ell|[C|c]ulture| [Tôi | tôi] bị cô lập'.
Chất lượng của từng vùng chứa metagenomic và bộ gen bên ngoài được đánh giá bằng CheckM (v.1.0.13) và Quy trình làm việc dòng dõi của Anvi'o (v.5.5.0)58,59.Nếu CheckM hoặc Anvi'o báo cáo mức độ hoàn thiện/đầy đủ ≥50% và mức độ nhiễm bẩn/dư thừa 10%, thì hãy lưu các tế bào metagenomic và bộ gen bên ngoài để phân tích sau.Những điểm số này sau đó được kết hợp thành mức độ đầy đủ trung bình (mcpl) và mức độ ô nhiễm trung bình (mctn) để phân loại chất lượng bộ gen theo tiêu chí cộng đồng60 như sau: chất lượng cao: mcpl ≥ 90% và mctn 5%;chất lượng tốt: mcpl ≥ 70%, mctn ≤ 10%, chất lượng trung bình: mcpl ≥ 50% và mctn ≤ 10%, chất lượng khá: mcpl ≤ 90% hoặc mctn ≥ 10%.Sau đó, các bộ gen được lọc sẽ tương quan với điểm chất lượng (Q và Q') như sau: Q = mcpl – 5 x mctn Q' = mcpl – 5 x mctn + mctn x (biến thiên chủng)/100 + 0,5 x log[N50] .(được triển khai trong dRep61).
Để cho phép phân tích so sánh giữa các nguồn dữ liệu và loại bộ gen khác nhau (MAG, SAG và REF), 34.799 bộ gen đã bị hủy tham chiếu dựa trên nhận dạng nucleotide trung bình trên toàn bộ bộ gen (ANI) bằng cách sử dụng dRep (v.2.5.4).Lặp lại)61 ​với ngưỡng 95% ANI28,62 (-comp 0 -con 1000 -sa 0,95 -nc 0,2) và các gen đánh dấu một bản sao sử dụng SpecI63 cung cấp khả năng phân nhóm bộ gen ở cấp loài.Một bộ gen đại diện đã được chọn cho từng cụm dRep theo điểm chất lượng tối đa (Q') được xác định ở trên, được coi là đại diện cho loài.
Để đánh giá tốc độ ánh xạ, BWA (v.0.7.17-r1188, -a) đã được sử dụng để ánh xạ tất cả 1038 bộ dữ liệu đọc metagenomic với 34.799 bộ gen có trong OMD.Các lần đọc được kiểm soát chất lượng được ánh xạ ở chế độ một đầu và các sắp xếp kết quả được lọc để chỉ giữ lại các sắp xếp có độ dài ≥45 bp.và danh tính ≥95%.Tỷ lệ hiển thị cho mỗi mẫu là tỷ lệ phần trăm số đọc còn lại sau khi lọc chia cho tổng số lần đọc kiểm soát chất lượng.Sử dụng cùng một cách tiếp cận, mỗi trong số 1038 metagenome đã giảm xuống còn 5 triệu lần chèn (dữ liệu mở rộng, Hình 1c) và khớp với GORG SAG trong OMD và trong tất cả GEM16.Lượng MAG được thu hồi từ nước biển trong danh mục GEM16 được xác định bằng các truy vấn từ khóa của nguồn metagenomic, chọn mẫu nước biển (ví dụ, trái ngược với trầm tích biển).Cụ thể, chúng tôi chọn “thủy sản” là “danh mục_hệ sinh thái”, “biển” là “loại_hệ sinh thái” và lọc “môi trường sống” là “đại dương sâu”, “biển”, “đại dương hàng hải”, “biển nổi”, “nước biển” , “Đại dương”, “Nước biển”, “Nước biển bề mặt”, “Nước biển bề mặt”.Điều này dẫn đến 5903 MAG (734 chất lượng cao) được phân phối trên 1823 OTU (xem tại đây).
Bộ gen của sinh vật nhân sơ được chú thích về mặt phân loại bằng GTDB-Tk (v.1.0.2)64 với các tham số mặc định nhắm mục tiêu GTDB r89 phiên bản 13. Anvi'o được sử dụng để xác định bộ gen của sinh vật nhân chuẩn dựa trên dự đoán và thu hồi miền ≥50% và độ dư thừa 10%.Chú thích phân loại của một loài được xác định là một trong những bộ gen đại diện của nó.Ngoại trừ sinh vật nhân chuẩn (148 MAG), mỗi bộ gen lần đầu tiên được chú thích chức năng bằng cách sử dụng prokka (v.1.14.5)65, đặt tên các gen hoàn chỉnh, xác định các tham số “vi khuẩn cổ” hoặc “vi khuẩn” nếu cần, cũng được báo cáo cho các sinh vật không phải là sinh vật nhân chuẩn (148 MAG). gen mã hóa.và vùng CRISPR, cùng với các đặc điểm gen khác.Chú thích các gen dự đoán bằng cách xác định các gen đánh dấu sao chép đơn phổ quát (uscMG) bằng cách sử dụng getMG (v.1.2)66, gán các nhóm chỉnh hình và truy vấn bằng cách sử dụng emapper (v.2.0.1)67 dựa trên eggNOG (v.5.0)68.Cơ sở dữ liệu KEGG (xuất bản ngày 10 tháng 2 năm 2020) 69. Bước cuối cùng được thực hiện bằng cách khớp các protein với cơ sở dữ liệu KEGG bằng DIAMOND (v.0.9.30)70 với truy vấn và phạm vi chủ đề ≥70%.Kết quả được lọc thêm theo Đường ống chú thích bộ gen nhân sơ NCBI71 dựa trên tốc độ bit ≥ 50% tốc độ bit tối đa dự kiến ​​(chính liên kết).Trình tự gen cũng được sử dụng làm đầu vào để xác định các BGC trong bộ gen bằng cách sử dụng antiSMASH (v.5.1.0)72 với các tham số mặc định và các vụ nổ cụm khác nhau.Tất cả các bộ gen và chú thích đã được biên soạn thành OMD cùng với siêu dữ liệu theo ngữ cảnh có sẵn trên web (https://microbiomics.io/ocean/).
Tương tự như các phương pháp được mô tả trước đây12,22 chúng tôi đã sử dụng CD-HIT (v.4.8.1) để phân cụm >56,6 triệu gen mã hóa protein từ bộ gen của vi khuẩn và vi khuẩn cổ từ OMD thành 95% nhận dạng và các gen ngắn hơn (độ bao phủ 90%)73 lên đến > 17,7 triệu cụm gen.Trình tự dài nhất được chọn làm gen đại diện cho mỗi cụm gen.Sau đó, 1038 metagenome được so khớp với >17,7 triệu thành viên cụm BWA (-a) và các tệp BAM thu được đã được lọc để chỉ giữ lại sự sắp xếp có ≥95% phần trăm nhận dạng và ≥45 sự sắp xếp cơ sở.Sự phong phú của gen được chuẩn hóa theo chiều dài được tính toán bằng cách đếm các lần chèn đầu tiên từ căn chỉnh duy nhất tốt nhất và sau đó, đối với các lần chèn được ánh xạ mờ, thêm số lượng phân số vào các gen mục tiêu tương ứng tỷ lệ với số lần chèn duy nhất của chúng.
Các bộ gen từ OMD mở rộng (với các MAG bổ sung từ “Ca. Eudormicrobiaceae”, xem bên dưới) đã được thêm vào cơ sở dữ liệu công cụ phân tích metagenomic mOTUs74 (v.2.5.1) để tạo cơ sở dữ liệu tham chiếu mOTU mở rộng.Chỉ có sáu bộ gen sao chép đơn (23.528 bộ gen) tồn tại trong số mười uscMG.Việc mở rộng cơ sở dữ liệu đã tạo ra thêm 4.494 cụm ở cấp loài.1038 metagenome được phân tích bằng các tham số mOTU mặc định (v.2).Tổng cộng có 989 bộ gen chứa trong 644 cụm mOTU (95% REF, 5% SAG và 99,9% thuộc về MarDB) không được hồ sơ mOTU phát hiện.Điều này phản ánh nhiều nguồn phân lập biển khác nhau của bộ gen MarDB (hầu hết các bộ gen chưa được phát hiện đều có liên quan đến các sinh vật phân lập từ trầm tích, vật chủ biển, v.v.).Để tiếp tục tập trung vào môi trường đại dương mở trong nghiên cứu này, chúng tôi đã loại chúng khỏi phân tích tiếp theo trừ khi chúng được phát hiện hoặc đưa vào cơ sở dữ liệu mOTU mở rộng được tạo trong nghiên cứu này.
Tất cả các BGC từ MAG, SAG và REF trong OMD (xem ở trên) đã được kết hợp với các BGC được xác định trong tất cả các giàn giáo metagenomic (antiSMASH v.5.0, tham số mặc định) và được đặc trưng bằng BiG-SLICE (v.1.1) (miền PFAM)75.Dựa trên các tính năng này, chúng tôi đã tính toán tất cả khoảng cách cosine giữa các BGC và nhóm chúng (liên kết trung bình) thành GCF và GCC bằng cách sử dụng ngưỡng khoảng cách lần lượt là 0,2 và 0,8.Các ngưỡng này là sự điều chỉnh của các ngưỡng được sử dụng trước đây bằng cách sử dụng khoảng cách Euclide75 cùng với khoảng cách cosine, giúp giảm bớt một số lỗi trong chiến lược phân cụm BiG-SLICE ban đầu (Thông tin bổ sung).
Các BGC sau đó được lọc để chỉ giữ lại ≥5 kb được mã hóa trên giàn giáo nhằm giảm nguy cơ phân mảnh như mô tả trước đây16 và để loại trừ MarDB REF và SAG không tìm thấy trong 1038 metagenome (xem ở trên).Điều này dẫn đến tổng cộng 39.055 BGC được mã hóa bởi bộ gen OMD, với thêm 14.106 được xác định trên các đoạn metagenomic (tức là không được kết hợp thành MAG).Các BGC “metagenomic” này được sử dụng để ước tính tỷ lệ tiềm năng sinh tổng hợp hệ vi sinh vật biển không được ghi lại trong cơ sở dữ liệu (Thông tin bổ sung).Mỗi BGC được đặc trưng về mặt chức năng theo các loại sản phẩm dự đoán được xác định bởi các danh mục sản phẩm chống SMASH hoặc thô hơn được xác định trong BiG-SCAPE76.Để tránh sai lệch lấy mẫu trong định lượng (thành phần phân loại và chức năng của GCC/GCF, khoảng cách của GCF và GCC đến cơ sở dữ liệu tham chiếu và sự phong phú của metagenomic của GCF), bằng cách chỉ giữ lại BGC dài nhất trên mỗi GCF cho mỗi loài, 39.055 BGC đã được loại bỏ thêm, dẫn đến tổng cộng 17.689 BGC.
Tính mới của GCC và GCF được đánh giá dựa trên khoảng cách giữa cơ sở dữ liệu được tính toán (cơ sở dữ liệu RefSeq trong BiG-FAM)29 và BGC đã được xác minh bằng thực nghiệm (MIBIG 2.0).Đối với mỗi trong số 17.689 BGC đại diện, chúng tôi đã chọn khoảng cách cosin nhỏ nhất đến cơ sở dữ liệu tương ứng.Những khoảng cách tối thiểu này sau đó được tính trung bình (trung bình) theo GCF hoặc GCC, nếu phù hợp.GCF được coi là mới nếu khoảng cách đến cơ sở dữ liệu lớn hơn 0,2, tương ứng với khoảng cách lý tưởng giữa GCF (trung bình) và tham chiếu.Đối với GCC, chúng tôi chọn 0,4, gấp đôi ngưỡng được xác định bởi GCF, để khóa mối quan hệ lâu dài với các liên kết.
Sự phong phú về metagenomic của BGC được ước tính là mức độ phong phú trung bình của các gen sinh tổng hợp của nó (được xác định bằng phương pháp chống SMASH) có sẵn từ các hồ sơ cấp độ gen.Sự phong phú metagenomic của mỗi GCF hoặc GCC sau đó được tính bằng tổng của các BGC đại diện (trong số 17.689).Các bản đồ phong phú này sau đó đã được chuẩn hóa cho thành phần tế bào bằng cách sử dụng số lượng mOTU trên mỗi mẫu, cũng tính đến các nỗ lực giải trình tự (dữ liệu mở rộng, Hình 1d).Tỷ lệ phổ biến của GCF hoặc GCC được tính bằng tỷ lệ phần trăm của các mẫu có độ phong phú> 0.
Khoảng cách Euclide giữa các mẫu được tính từ cấu hình GCF đã chuẩn hóa.Các khoảng cách này đã được giảm kích thước bằng cách sử dụng UMAP77 và các phần nhúng kết quả được sử dụng để phân cụm dựa trên mật độ không được giám sát bằng HDBSCAN78.Số điểm tối thiểu tối ưu cho một cụm (và do đó là số lượng cụm) được HDBSCAN sử dụng được xác định bằng cách tối đa hóa xác suất tích lũy của tư cách thành viên cụm.Các cụm được xác định (và một mẫu con cân bằng ngẫu nhiên của các cụm này để giải thích độ lệch trong phân tích phương sai đa biến hoán vị (PERMANOVA)) đã được kiểm tra về tầm quan trọng đối với khoảng cách Euclide không được rút gọn bằng cách sử dụng PERMANOVA.Kích thước bộ gen trung bình của các mẫu được tính toán dựa trên mức độ phong phú tương đối của mOTU và kích thước bộ gen ước tính của các thành viên trong bộ gen.Cụ thể, kích thước bộ gen trung bình của mỗi mOTU được ước tính là kích thước trung bình của bộ gen của các thành viên được điều chỉnh để hoàn thiện (sau khi lọc) (ví dụ: bộ gen hoàn chỉnh 75% với chiều dài 3 Mb có kích thước điều chỉnh là 4 MB).đối với bộ gen trung bình có tính toàn vẹn ≥70%.Kích thước bộ gen trung bình cho mỗi mẫu sau đó được tính bằng tổng kích thước bộ gen mOTU có trọng số theo độ phong phú tương đối.
Một tập hợp các BGC được mã hóa bộ gen trong OMD được lọc được hiển thị trong cây GTDB của vi khuẩn và vi khuẩn cổ (trong khung ≥5 kb, ngoại trừ REF và SAG MarDB không tìm thấy trong 1038 metagenome, xem ở trên) và các loại sản phẩm được dự đoán của chúng dựa trên phát sinh gen vị trí của bộ gen (xem ở trên).Trước tiên, chúng tôi giảm dữ liệu theo loài, sử dụng bộ gen có nhiều BGC nhất trong loài đó làm đại diện.Để trực quan hóa, các đại diện được chia thành các nhóm cây và một lần nữa, đối với mỗi nhánh tế bào, bộ gen chứa số lượng BGC lớn nhất được chọn làm đại diện.Các loài được làm giàu bằng BGC (ít nhất một bộ gen có> 15 BGC) đã được phân tích sâu hơn bằng cách tính Chỉ số đa dạng Shannon cho các loại sản phẩm được mã hóa trong các BGC đó.Nếu tất cả các loại sản phẩm được dự đoán đều giống nhau thì các sản phẩm lai hóa học và các BGC phức tạp khác (như được dự đoán bởi anti-SMAH) được coi là thuộc cùng một loại sản phẩm, bất kể thứ tự của chúng trong cụm (ví dụ: phản ứng tổng hợp protein-bacteriocin và phản ứng tổng hợp bacteriocin-proteoprotein). thân hình).hỗn hợp).
DNA còn lại (ước tính khoảng 6 ng) từ mẫu Malaspina MP1648, tương ứng với mẫu sinh học SAMN05421555 và khớp với bộ đọc metagenomic Illumina SRR3962772 để đọc ngắn, được xử lý theo giao thức giải trình tự PacBio với đầu vào cực thấp để sử dụng bộ khuếch đại mẫu SMRTbell gDNA của bộ PacBio bộ (100-980-000) và bộ chuẩn bị mẫu SMRTbell Express 2.0 (100-938-900).Tóm lại, DNA còn lại được cắt, sửa chữa và tinh chế (hạt ProNex) bằng Covaris (g-TUBE, 52104).Sau đó, DNA tinh khiết sẽ được chuẩn bị trong thư viện, khuếch đại, tinh chế (hạt ProNex) và chọn kích thước (>6 kb, Blue Pippin) trước bước tinh chế cuối cùng (hạt ProNex) và giải trình tự trên nền tảng Sequel II.
Tái thiết của hai ca đầu tiên.Đối với MAG Eremiobacterota, chúng tôi đã xác định thêm sáu ANI bổ sung >99% (những ANI này được bao gồm trong Hình 3), ban đầu được lọc dựa trên điểm ô nhiễm (sau này được xác định là sao chép gen, xem bên dưới).Chúng tôi cũng tìm thấy một khay có nhãn “Ca”.Eremiobacterota” từ nhiều nghiên cứu khác nhau23 và sử dụng chúng cùng với 8 MAG từ nghiên cứu của chúng tôi làm tài liệu tham khảo cho các lần đọc metagenomic từ 633 mẫu được làm giàu ở sinh vật nhân chuẩn (>0,8 µm) bằng cách sử dụng BWA (v.0.7.17) Ref -r1188, – một lá cờ) để lấy mẫu xuống ánh xạ (5 triệu lượt đọc).Dựa trên các bản đồ dành riêng cho việc làm giàu (được lọc theo nhận dạng căn chỉnh 95% và phạm vi đọc 80%), 10 metagenome (phạm vi bảo hiểm dự kiến ​​≥5 ×) đã được chọn để lắp ráp và 49 metagenome bổ sung (phạm vi bảo hiểm dự kiến ​​≥1 ×) để tương quan nội dung.Sử dụng các thông số tương tự như trên, các mẫu này đã được loại bỏ và thêm 10 mẫu 'Ca'.MAG Eremiobacterota đã được phục hồi.16 MAG này (không tính hai MAG đã có trong cơ sở dữ liệu) nâng tổng số bộ gen trong OMD mở rộng lên 34.815.Các MAG được xếp hạng phân loại dựa trên sự giống nhau về bộ gen và vị trí của chúng trong GTDB.18 MAG đã được giải mã bằng cách sử dụng dRep thành 5 loài (ANI cùng loài >99%) và 3 chi (ANI cùng loài 85% đến 94%) trong cùng một họ79.Đại diện loài được lựa chọn thủ công dựa trên tính toàn vẹn, mức độ ô nhiễm và N50.Danh pháp đề xuất được cung cấp trong Thông tin bổ sung.
Đánh giá tính toàn vẹn và ô nhiễm của 'Ca.MAG Eremiobacterota, chúng tôi đã đánh giá sự hiện diện của uscMG, cũng như các bộ gen đánh dấu một bản sao cụ thể theo dòng và miền cụ thể được CheckM và Anvi'o sử dụng.Việc xác định 2 bản sao trong số 40 uscMG đã được xác nhận bằng cách tái cấu trúc phát sinh gen (xem bên dưới) để loại trừ bất kỳ ô nhiễm tiềm ẩn nào (điều này tương ứng với 5% dựa trên 40 gen đánh dấu này).Một nghiên cứu bổ sung về năm MAG đại diện 'Ca.Mức độ ô nhiễm thấp trong các bộ gen được tái tạo này đã được xác nhận đối với các loài Eremiobacterota sử dụng giao diện Anvi'o tương tác dựa trên sự tương quan về độ phong phú và thành phần trình tự (Thông tin bổ sung)59.
Để phân tích hệ gen, chúng tôi đã chọn năm MAG đại diện “Ca”.Eudormicrobiaceae”, tất cả các loài “Ca.Bộ gen của Eremiobacterota và các thành viên của ngành khác (bao gồm UBP13, Armatimonadota, Patescibacteria, Dormibacterota, Chloroflexota, Cyanobacteria, Actinobacteria và Planctomycetota) có sẵn từ GTDB (r89)13.Tất cả các bộ gen này đều được chú thích như mô tả trước đây để trích xuất gen đánh dấu bản sao đơn và chú thích BGC.Bộ gen GTDB được bảo tồn theo tiêu chí về tính toàn vẹn và ô nhiễm ở trên.Phân tích phát sinh gen được thực hiện bằng cách sử dụng quy trình làm việc của Anvi'o Phylogenics59.Cây được xây dựng bằng IQTREE (v.2.0.3) (tùy chọn mặc định và -bb 1000)80 trên sự liên kết của 39 protein ribosome song song được xác định bởi Anvi'o (MUSCLE, v.3.8.1551)81.Vị trí của ông đã bị giảm bớt.để bao phủ ít nhất 50% bộ gen82 và Planctomycecota đã được sử dụng làm nhóm ngoài dựa trên cấu trúc liên kết cây GTDB.Một cây gồm 40 uscMG được xây dựng bằng cách sử dụng các công cụ và thông số tương tự.
Chúng tôi đã sử dụng Traitar (v.1.1.2) với các tham số mặc định (kiểu hình, từ nucleotide)83 ​​để dự đoán các đặc điểm chung của vi sinh vật.Chúng tôi đã khám phá lối sống săn mồi tiềm năng dựa trên chỉ số săn mồi đã được phát triển trước đó84 phụ thuộc vào hàm lượng gen mã hóa protein trong bộ gen.Cụ thể, chúng tôi sử dụng DIAMOND để so sánh các protein trong bộ gen với cơ sở dữ liệu OrthoMCL (v.4)85 bằng cách sử dụng các tùy chọn –more-sensive –id 25 –query-cover 70 –subject-cover 70 –top 20 VÀ đếm các gen tương ứng với các gen đánh dấu cho động vật ăn thịt và không phải động vật ăn thịt.Chỉ số này là sự khác biệt giữa số lượng dấu hiệu săn mồi và không săn mồi.Để kiểm soát bổ sung, chúng tôi cũng đã phân tích bộ gen “Ca”.Yếu tố Entotheonella TSY118 dựa trên sự liên kết của nó với Ca.Eudoremirobium (kích thước bộ gen lớn và tiềm năng sinh tổng hợp).Tiếp theo, chúng tôi đã thử nghiệm các liên kết tiềm năng giữa các gen đánh dấu động vật ăn thịt và không phải động vật ăn thịt cũng như tiềm năng sinh tổng hợp của Ca.Eudormicrobiaceae” và phát hiện ra rằng không có nhiều hơn một gen (từ bất kỳ loại gen đánh dấu nào, tức là gen động vật ăn thịt/không phải động vật ăn thịt) trùng lặp với BGC, cho thấy rằng BGC không gây nhiễu tín hiệu của động vật ăn thịt.Chú thích bộ gen bổ sung của các bản sao được xáo trộn đã được thực hiện bằng TXSSCAN (v.1.0.2) để kiểm tra cụ thể hệ thống bài tiết, pili và roi86.
Năm đại diện 'Ca đã được lập bản đồ bằng cách ánh xạ 623 siêu phiên mã từ các phần làm giàu của sinh vật nhân sơ và sinh vật nhân chuẩn của các đại dương Tara22,40,87 (sử dụng cờ BWA, v.0.7.17-r1188, -a).Bộ gen Eudormicrobiaceae.Các tệp BAM được xử lý bằng FeatureCounts (v.2.0.1)88 sau phạm vi đọc 80% và lọc nhận dạng 95% (với các tùy chọn featureCounts –primary -O –traction -t CDS,tRNA -F GTF -g ID -p ) Đếm số lần chèn vào mỗi gen.Các bản đồ được tạo ra đã được chuẩn hóa về chiều dài gen và độ phong phú của gen đánh dấu mOTU (số lần chèn trung bình được chuẩn hóa theo chiều dài cho các gen có số lần chèn > 0) và chuyển đổi log thành 22,74 để thu được biểu hiện tương đối trên mỗi tế bào của từng cấp độ gen, điều này cũng giải thích sự biến đổi từ mẫu này sang mẫu khác trong quá trình giải trình tự.Các tỷ lệ như vậy cho phép phân tích so sánh, giảm thiểu các vấn đề về thành phần khi sử dụng dữ liệu về độ phong phú tương đối.Chỉ các mẫu có> 5 trong số 10 gen đánh dấu mOTU mới được xem xét để phân tích sâu hơn nhằm cho phép phát hiện một phần đủ lớn của bộ gen.
Hồ sơ phiên mã chuẩn hóa của 'Ca.E. taraoceanii đã được giảm kích thước bằng UMAP và biểu diễn kết quả được sử dụng để phân cụm không giám sát bằng HDBSCAN (xem ở trên) để xác định trạng thái biểu thức.PERMANOVA kiểm tra tầm quan trọng của sự khác biệt giữa các cụm được xác định trong không gian khoảng cách ban đầu (không giảm).Sự biểu hiện khác biệt giữa các tình trạng này đã được kiểm tra trên toàn bộ bộ gen (xem ở trên) và 201 con đường KEGG đã được xác định trong 6 nhóm chức năng, cụ thể là: BGC, hệ bài tiết và các gen tiên mao từ TXSSCAN, các enzyme thoái hóa (protease và peptidase), và các enzyme săn mồi và không- gen săn mồi.đánh dấu chỉ số săn mồi.Đối với mỗi mẫu, chúng tôi đã tính toán biểu thức chuẩn hóa trung bình cho từng lớp (lưu ý rằng bản thân biểu thức BGC được tính là biểu thức trung bình của các gen sinh tổng hợp cho BGC đó) và kiểm tra mức độ quan trọng giữa các trạng thái (thử nghiệm Kruskal-Wallis được điều chỉnh cho FDR).
Các gen tổng hợp được mua từ GenScript và mồi PCR được mua từ Microsynth.Phusion Polymerase của Thermo Fisher Scientific đã được sử dụng để khuếch đại DNA.Các plasmid NucleoSpin, gel NucleoSpin và bộ tinh chế PCR từ Macherey-Nagel đã được sử dụng để tinh chế DNA.Enzyme giới hạn và ligase DNA T4 được mua từ New England Biolabs.Các hóa chất khác ngoài isopropyl-β-d-1-thiogalactopyranoside (IPTG) (Biosynth) và 1,4-dithiothreitol (DTT, AppliChem) được mua từ Sigma-Aldrich và được sử dụng mà không cần tinh chế thêm.Các loại kháng sinh chloramphenicol (Cm), Spectinomycin dihydrochloride (Sm), ampicillin (Amp), gentamicin (Gt) và carbenicillin (Cbn) đã được mua từ AppliChem.Các thành phần môi trường Bacto Tryptone và Bacto Yeast Extract được mua từ BD Bioscatics.Trypsin để giải trình tự được mua từ Promega.
Trình tự gen được trích xuất từ ​​BGC 75.1 dự đoán chống SMASH.E. malaspinii (Thông tin bổ sung).
Các gen embA (locus, MALA_SAMN05422137_METAG-framework_127-gene_5), embM (locus, MALA_SAMN05422137_METAG-framework_127-gene_4) và embAM (bao gồm các vùng gen xen kẽ) được giải trình tự dưới dạng cấu trúc tổng hợp trong pUC57(AmpR) có và không có codon được tối ưu hóa để biểu hiện ở E khi.Gen embA đã được phân dòng vào vị trí đa nhân bản đầu tiên (MCS1) của pACYCDuet-1(CmR) và pCDFDuet-1(SmR) với các vị trí phân cắt BamHI và HindIII.Các gen embM và embMopt (được tối ưu hóa bằng codon) đã được phân dòng thành MCS1 pCDFDuet-1(SmR) với BamHI và HindIII và được đặt vào vị trí nhân bản thứ hai của pCDFDuet-1(SmR) và pRSFDuet-1(KanR) (MCS2) với NdeI/ChoI.Băng embAM đã được đăng ký thành pCDFDuet1 (SmR) với các vị trí phân cắt BamHI và HindIII.Gen orf3/embI (locus, MALA_SAMN05422137_METAG-scaffold_127-gene_3) được tạo ra bằng phương pháp PCR mở rộng chồng chéo bằng cách sử dụng các đoạn mồi EmbI_OE_F_NdeI và EmbI_OE_R_XhoI, được tiêu hóa bằng NdeI/XhoI và được ghép vào pCDFDuet-1-EmbM (MCS1) bằng cách sử dụng cùng các enzyme giới hạn (Bổ sung bàn).6).Quá trình tiêu hóa và thắt enzyme hạn chế được thực hiện theo giao thức của nhà sản xuất (New England Biolabs).

 


Thời gian đăng: 14-03-2023