ابزارCD-HIT به پژوهشگران کمک میکند تا هزینه محاسباتی آنالیزهای خود را به شدت کاهش داده، بسیار سریع بوده و میتواند پایگاهداده های بزرگ را نیز پردازش کند. از اهداف آن فهمیدن ساختار دادهها و حذف bias درون دادهها است.
این ابزار در ابتدا برای خوشهبندی رشتههای پروتئینی توسعه یافت تا پایگاهدادههای مرجعی از رشتههای غیر تکراری ایجاد کند و در ادامه برای پشتیبانی از رشتههای نوکلئوتیدی و مقایسه دو مجموعه داده با هم گسترش یافت. وبسرور آن در سال 2009 ایجاد شد که به کاربران این امکان را میدهد که به راحتی و بدون استفاده از command-line از این ابزار بهره برند. در حال حاضر CD-HIT شامل بخشهای بسیار متنوعی میشود که به کمک پژوهشگران آمدهاند. از جمله این بخشها میتوان به لیست زیر اشاره کرد.
* cd-hit: Cluster peptide sequences
* cd-hit-est: Cluster nucleotide sequences
* cd-hit-2d: Compare 2 peptide databases
* cd-hit-est-2d: Compare 2 nucleotide databases
* psi-cd-hit : Cluster proteins at <40% cutoff
* cd-hit Web server: Cluster user-uploaded data
* cd-hit-para: Cluster sequences in parallel on a computer cluster
* scripts: Parse results and so on
* h-cd-hit: Hierarchical clustering
در این سری از ویدیوها این ابزار بسیار معروف و پرکاربرد معرفی شده و تلاش بر این بوده که کار با وب سرور این ابزار به شما آموزش داده شود