摘要
HiC或HiChIP计数数据分析的一项必要任务是检测统计上显著和差异的基因组相互作用。计数数据可以作为一个表格提供,其中报告了基因组区域之间相互作用的数量,这些区域通常是基因组区域的统一分类或跨限制性内切酶片段。软件包HiCDCPlus提供了使用负二项广义线性模型来确定显著和差异染色质相互作用的方法,以及TopDom调用拓扑关联域(TADs)和Juicer特征向量来查找a /B区的实现。本小插曲解释了包的使用,并演示了HiC和HiChIP数据的典型工作流程。HiCDCPlus包版本:1.6.0注意:如果您在已发表的研究中使用HiCDCPlus,请注明:
Sahin, M., Wong, W., Zhan, Y., Van Deyze, K., Koche, R.,和Leslie, c.s. (2021) HiC-DC+: Hi-C和HiChIP的系统三维交互调用和微分分析自然通讯,12 (3366).10.1038 / s41467 - 021 - 23749 - x
要安装这个包,开始R,然后输入:
如果(!requireNamespace(“BiocManager”,静静地=真正的))install.packages(“BiocManager”)BiocManager::安装(“HiCDCPlus”)
如果您正在重新安装包,我们建议擦除包的相关文件缓存。可以通过运行命令获取缓存文件夹的位置。
HiCDCPlus
可以接受流行的Hi-C预处理工具的输出,如.hic(来自Juicebox), .matrix,和. allvalidpairs(来自HiC-Pro)。它还可以与HTClist对象一起使用(来自Bioconductor包HiTC)。
在标准的工作流程中,首先需要生成基因组特征HiCDCPlus
模型(GC内容、可映射性、有效长度)使用construct_features
函数(见创建基因组特征文件)。这既可以用于统一的也可以用于多个限制片段分组数据。
HiCDCPlus
以一种内存效率高的方式存储计数和特性,使用我们称为gi_list
实例(见的gi_list
实例)。然后一个以a的形式提供基因组特征gi_list
实例使用generate_bintolen_gi_list
函数。然后,可以在此基础上添加计数gi_list
实例,为每种输入Hi-C文件格式使用专用函数(add_hic_counts
,add_hicpro_matrix_counts
,add_hicpro_allvalidpairs.counts
)。
在建模之前,1D特征来自于gi_list
来自bintolen文件的实例必须展开为2D使用expand_1D_features
函数。可以应用不同的转换来结合每个锚的基因组特征。
的核心HiCDCPlus
是高效的实现吗HiC-DC负二项计数模型的归一化和去除偏差(见?HiCDCPlus)。的可并行化实现中还提供了平台不可知的实现HiCDCPlus_parallel
用于跨染色体有效交互调用的函数。的HiCDCPlus
(或HiCDCPlus_parallel
函数输出每次交互的意义(pvalue
罗斯福调整了p值qvalue
),并从模型中估计出如下值:μ
:由偏差估计的预期交互频率;标准偏差
:期望相互作用频率的标准差。
一旦获得了结果,就可以使用gi_list_write
功能或to a.hic
使用hicdc2hic
函数(其中可以传递原始计数、观察到的/预期的归一化计数和-log10P价值,log10P-调整值,或负二项式z值归一化计数:(counts-mu)/sdev到.hic
文件
为了检测不同条件下差异显著的相互作用,HiCDCPlus
的修改后的实现DESeq2使用复制Hi-C/HiChIP数据集hicdcdiff
.这个函数需要(1)实验设置的定义(参见?hicdcdiff),(2)要考虑的筛选过的交互集,作为包含列的文本文件空空的
,startI
,startJ
(startI<=startJ)和(3)为每个条件计算数据并将其中任意一个复制为gi_list
实例或作为输出文本文件生成gi_list_write
可以被读取为有效的函数gi_list
使用实例gi_list_read
.的hicdcdiff
函数进行微分分析,输出对应logFC差异的对区域的基因组坐标,P-value和BH调整P-value(参见中的示例快速入门)。
接下来,我们将演示检测重要交互和差异交互的标准工作流。
在本节中,我们将展示一个完整的工作流程,用于从复制实验的Hi-C数据中识别显著相互作用和差异相互作用。对于HiChIP,使用的函数是相同的,但是使用的距离阈值略有降低(推荐Dmax = 1.52 e6)。
在这里,我们从多个染色体上50kb分辨率的HiC数据中识别出重要的相互作用(在下面的例子中,跨染色体21和22)。下面的示例代码块假设您已经下载了一个.hic
文件从GSE63525也下载了Juicebox命令行工具.下面的示例使用GSE63525_HMEC_combined.hic并将它的路径存储到变量中hicfile_path
与特征生成的限制性内切酶片段与模式“比如”
在hg19基因组中。
hicfile_path < -执行(“extdata”,“GSE63525_HMEC_combined_example.hic”,包=“HiCDCPlus”)outdir < -tempdir(检查=真正的)#生成特性construct_features(output_path =paste0(outdir“/ hg19_50kb_GATC”),创=“Hsapiens”,gen_ver =“hg19”,sig =“比如”,bin_type =“Bins-uniform”,binsize =50000,空空的=c(“chr21”,“chr22”))
## [1] "/tmp/RtmpU0Xv7H/ hg19_50kb_gatc_bintol.txt .gz"
如果你有多种酶鸡尾酒用来产生Hi-C数据,你可以指定多种模式,包括“N”
作为该函数的字符串(例如,sig=c(" GATC ", " GANTC "))。如果你想要分析由多个限制性内切酶片段打包的数据,你可以将bin_type改为“bin - re -sites”,将binsize改为你想合并为bin的片段的数量(例如,bin_type=“bin - re -sites”,binsize=10表示10个限制性内切酶片段打包)。
#生成gi_list实例gi_list < -generate_bintolen_gi_list(bintolen_path =paste0(outdir“/ hg19_50kb_GATC_bintolen.txt.gz”))#添加。hic计数gi_list < -add_hic_counts(gi_listhic_path =hicfile_path)
如果你有HiC-Pro输出,你可以使用任何一种add_hicpro_matrix_counts
或add_hicpro_allvalidpairs_counts
取决于文件格式。add_hicpro_matrix_counts
函数需要HiC-Pro矩阵生成步骤的。bed输出,以及。matrix格式的计数数据。
#扩展建模功能gi_list < -expand_1D_features(gi_list)#运行HiC-DC +set.seed(1010)#HiC-DC downsamples行建模gi_list < -HiCDCPlus(gi_list)#HiCDCPlus_parallel在核上并行运行头(gi_list)
# # $ chr21 # # GInteractions对象交互和27498 8元数据列:# # seqnames1 ranges1 seqnames2 ranges2 | # # < Rle > < IRanges > < Rle > < IRanges > | # # [1] chr21 9400000 - 9450000——chr21 9450000 - 9400000 | # # [2] chr21 9400000 - 9450000——chr21 9450000 - 9400000 | # # [3] chr21 9400000 - 9450000——chr21 9450000 - 9400000 | # # [4] chr21 9400000 - 9450000——chr21 9450000 - 9400000 | # # [5] chr21 9400000 - 9450000——chr21 9450000 - 9400000 | ## ... ... ... ... ... ... .# # [27494] chr21 48000000 - 48050000——chr21 48050000 - 48000000 | # # [27495] chr21 48000000 - 48050000——chr21 48050000 - 48000000 | # # [27496] chr21 48050000 - 48100000——chr21 48100000 - 48050000 | # # [27497] chr21 48050000 - 48100000——chr21 48100000 - 48050000 | # # [27498] chr21 48100000 - 48129895——chr21 48129895 - 48100000 | # # D计数gc lenμ标准偏差# # <整数> <数字> <数字> <数字> <数字> <数字> # # [1]0 199 -1.162350 -2.03355 893.45296 475.73037 -1.018867 - -1.14588 # # [2]50000 6361.44390 193.01373 ## [3] 100000 1 -1.034474 -1.69222 135.53550 72.95983 ## [4] 150000 7 -0.962964 -1.81222 69.29311 37.75226 ## [5] 200000 0 -0.672519 -11.25302 5.75596 3.88742 ## ... ... ... ... ... ... ... ## [27494] 50000 648 0.6628281 -0.0888584 500.961 267.1554 ## [27495] 89947 29 0.4459603 -3.9564444 105.847 57.1815 ## [27496] 0 2468 0.5083961 -0.3549451 1415.297 753.0440 ## [27497] 39947 170 0.2915283 -4.2225312 245.662 131.4849 ## [27498] 0 97 0.0746605 -8.0901172 259.698 138.9441 ## pvalue qvalue ## ## [1] 0.980622 1 ## [2] 0.999994 1 ## [3] 0.999998 1 ## [4] 0.997504 1 ## [5] 1.000000 1 ## ... ... ... ## [27494] 0.2491665 0.919972 ## [27495] 0.9626372 1.000000 ## [27496] 0.0932895 0.663891 ## [27497] 0.6805805 1.000000 ## [27498] 0.9185031 1.000000 ## ------- ## regions: 963 ranges and 2 metadata columns ## seqinfo: 1 sequence from an unspecified genome; no seqlengths ## ## $chr22 ## GInteractions object with 27855 interactions and 8 metadata columns: ## seqnames1 ranges1 seqnames2 ranges2 | ## | ## [1] chr22 16050000-16100000 --- chr22 16050000-16100000 | ## [2] chr22 16050000-16100000 --- chr22 16100000-16150000 | ## [3] chr22 16050000-16100000 --- chr22 16150000-16200000 | ## [4] chr22 16050000-16100000 --- chr22 16200000-16250000 | ## [5] chr22 16050000-16100000 --- chr22 16250000-16300000 | ## ... ... ... ... ... ... . ## [27851] chr22 51100000-51150000 --- chr22 51150000-51200000 | ## [27852] chr22 51100000-51150000 --- chr22 51200000-51250000 | ## [27853] chr22 51150000-51200000 --- chr22 51150000-51200000 | ## [27854] chr22 51150000-51200000 --- chr22 51200000-51250000 | ## [27855] chr22 51200000-51250000 --- chr22 51200000-51250000 | ## D counts gc len mu sdev ## ## [1] 0 72 -0.321755 -0.551744 1673.7051 1099.5644 ## [2] 50000 3 -2.018640 -0.698418 484.3915 318.7682 ## [3] 100000 0 -1.017838 -0.333627 278.6914 183.7235 ## [4] 150000 0 -0.741770 -1.247963 121.6267 80.6071 ## [5] 200000 1 -1.069967 -0.293187 95.8473 63.6817 ## ... ... ... ... ... ... ... ## [27851] 50000 586 0.878598 -0.2088985 806.215 530.048 ## [27852] 100000 121 0.129452 -0.8134144 282.701 186.356 ## [27853] 0 2665 0.641536 0.0178216 2220.278 1458.395 ## [27854] 50000 307 -0.107610 -0.5866943 639.170 420.382 ## [27855] 0 445 -0.856757 -1.1912102 1307.568 859.192 ## pvalue qvalue ## ## [1] 0.998347 1 ## [2] 0.999971 1 ## [3] 1.000000 1 ## [4] 1.000000 1 ## [5] 0.999832 1 ## ... ... ... ## [27851] 0.593328 1 ## [27852] 0.815618 1 ## [27853] 0.307224 1 ## [27854] 0.777558 1 ## [27855] 0.876441 1 ## ------- ## regions: 1027 ranges and 2 metadata columns ## seqinfo: 1 sequence from an unspecified genome; no seqlengths
#将标准化计数(观察到的/预期的)写入一个.hic文件hicdc2hic(gi_listhicfile =paste0(outdir' / GSE63525_HMEC_combined_result.hic '),模式=“normcounts”,gen_ver =“hg19”)
## [1] "/tmp/RtmpU0Xv7H/GSE63525_HMEC_combined_result.hic"
## [1] "/tmp/RtmpU0Xv7H/GSE63525_HMEC_combined_result.txt.gz"
HiCDCPlus
结果可以转换为.hic使用hicdc2hic
函数。中应作为“mode”提供的值hicdc2hic
函数对应存储在。hic文件中的相应分数为:' pvalue '表示-log10意义p值,' qvalue '表示-log10 FDR校正p值,' normcounts '表示原始计数/预期计数,' zvalue '表示标准化计数(原始计数-预期计数)/预期计数的建模标准差,' raw '表示传递原始计数。
.hic文件可以使用hic2cool软件进一步转换为.cool格式,并使用HiCExplorer进行可视化。
假设我们对求微分相互作用感兴趣chr21
而且chr22
NSD2和NTKO/TKO细胞之间的50kb.hic
可在GSE131651:GSE131651_NSD2_LOW_arima.hic
,GSE131651_NSD2_HIGH_arima.hic
,GSE131651_TKOCTCF_new.hic
,GSE131651_NTKOCTCF_new.hic
.我们首先找到它们之间的重要交互,并将结果保存到一个文件中:
#生成特性construct_features(output_path =paste0(outdir“/ hg38_50kb_GATC”),创=“Hsapiens”,gen_ver =“hg38”,sig =“比如”,bin_type =“Bins-uniform”,binsize =50000,空空的=c(“chr22”))
## [1] "/tmp/RtmpU0Xv7H/ hg38_50kb_gatc_bintol.txt .gz"
#添加。hic计数hicfile_paths < -c(执行(“extdata”,“GSE131651_NSD2_LOW_arima_example.hic”,包=“HiCDCPlus”),执行(“extdata”,“GSE131651_NSD2_HIGH_arima_example.hic”,包=“HiCDCPlus”),执行(“extdata”,“GSE131651_TKOCTCF_new_example.hic”,包=“HiCDCPlus”),执行(“extdata”,“GSE131651_NTKOCTCF_new_example.hic”,包=“HiCDCPlus”))indexfile < -data.frame()为(hicfile_path在hicfile_paths) {output_path < -paste0(outdir' / ',gsub(“^ (. * (\ \/])”,"",gsub(“.hic”,“.txt.gz”hicfile_path)))#生成gi_list实例gi_list < -generate_bintolen_gi_list(bintolen_path =paste0(outdir“/ hg38_50kb_GATC_bintolen.txt.gz”),创=“Hsapiens”,gen_ver =“hg38”)gi_list < -add_hic_counts(gi_listhic_path =hicfile_path)#扩展建模功能gi_list < -expand_1D_features(gi_list)#在2核上运行HiC-DC+set.seed(1010)#HiC-DC downsamples行建模gi_list < -HiCDCPlus(gi_listssize =0.1)为(我在seq(长度(gi_list))) {indexfile < -独特的(rbind(indexfileas.data.frame(gi_list[[我]][gi_list[[我]]$qvalue< =0.05)) (c(“seqnames1”,“start1”,“start2”))))}#将结果写入文本文件gi_list_write(gi_list帧=output_path)}#保存索引文件——union of significant at 50kbcolnames(indexfile) < -c(“装备”,“startI”,“startJ”)data.table::写入文件(indexfilepaste0(outdir' / GSE131651_analysis_indices.txt.gz '),9月='\ t',row.names =假,报价=假)
接下来,我们获得重要交互的并集,并将其保存为索引文件,然后运行hicdcdiff
.
#使用修改的DESeq2进行差异分析(参见?hicdcdiff)hicdcdiff(input_paths =列表(NSD2 =c(paste0(outdir' / GSE131651_NSD2_LOW_arima_example.txt.gz '),paste0(outdir' / GSE131651_NSD2_HIGH_arima_example.txt.gz ')),TKO =c(paste0(outdir' / GSE131651_TKOCTCF_new_example.txt.gz '),paste0(outdir' / GSE131651_NTKOCTCF_new_example.txt.gz '))),filter_file =paste0(outdir' / GSE131651_analysis_indices.txt.gz '),output_path =paste0(outdir“diff_analysis_example /”),fitType =“的意思是”,空空的=“chr22”,binsize =50000,诊断=真正的)
# # $ deseq2paths outputpaths美元零# # # # # # # #[1]“/ tmp / RtmpU0Xv7H / diff_analysis_example / diff_resTKOoverNSD2_chr22.txt.gz”plotpaths美元# # # # # #[1]“/ tmp / RtmpU0Xv7H / diff_analysis_example / sizefactors_chr22.pdf”# #[2]“/ tmp / RtmpU0Xv7H / diff_analysis_example / geomean_sizefactors_chr22.pdf”# #[3]“/ tmp / RtmpU0Xv7H / diff_analysis_example / plotMA_TKOoverNSD2_chr22.pdf”# #[4]“/ tmp / RtmpU0Xv7H / diff_analysis_example / diff_chr22_PCA.pdf”# #[5]“/ tmp / RtmpU0Xv7H / diff_analysis_example / dispersionplot.pdf”
假设您在input_paths中提供多个条件,例如input_paths=list(A= " .. ",B= " .. ",C= " .. "),那么由报告的成对比较hicdcdiff
就是B / A C / B C / A。
为了找到TADs,我们使用ICE标准化Hi-C数据。如果您使用HiC-Pro来处理计数,我们建议将ICE规范化的.matrix文件提供到一个gi_list
实例。
gi_list < -generate_binned_gi_list(50000,空空的=c(“chr21”,“chr22”))gi_list < -add_hicpro_matrix_counts(absfile_path gi_list matrixfile_path,空空的=c(“chr21”,“chr22”))#添加路径冰absfile和矩阵文件在这里
如果你有.hic文件,那么你可以用我们的HiTC包装器执行ICE规范化,如下所示:
hic_path < -执行(“extdata”,“GSE63525_HMEC_combined_example.hic”,包=“HiCDCPlus”)gi_list =hic2icenorm_gi_list(hic_pathbinsize =50 e3,空空的=c(“chr22”),Dthreshold =400年e3)
还可以将ICE规范化的.hic文件输出到该路径gsub(“.hic”、“_icenorm.hic”hic_path)
从hic2icenorm_gi_list
如果你设置hic_out = TRUE
你对这个函数的调用。
HiCDCPlus
将带有ICE标准化计数的gi_list实例通过TopDom v0.0.2 (https://github.com/HenrikBengtsson/TopDom)改编为TopDom。我们建议使用窗口调用TADs与ICE标准化计数,分辨率为50kb。TopDom的10码。
HiCDCPlus
可以调用Juicer特征向量函数从。hic文件中确定A/B分隔区。extract_hic_eigenvectors
为每个染色体生成文本文件,其中包含染色体、起始、结束和隔间分值,可能需要为每个染色体翻转符号。文件路径遵循gsub(' .hic ', ' _ .hic '
基因组特征可以使用construct_features
函数。该函数找到给定基因组和基因组版本的所有限制性内切酶切位点,并计算GC含量,可映射性(如果相关.bigWig
文件提供)和有效片段长度的统一仓或跨指定倍数的限制性内切酶切割位点给定的模式。
#生成特性construct_features(output_path =paste0(outdir“/ hg19_50kb_GATC”),创=“Hsapiens”,gen_ver =“hg19”,sig =c(“比如”,“GANTC”),bin_type =“Bins-uniform”,binsize =50000,wg_file =零,#如。,'hg19_wgEncodeCrgMapabilityAlign50mer.bigWig',空空的=c(“chr22”))
## [1] "/tmp/RtmpU0Xv7H/ hg19_50kb_gatc_bintol.txt .gz"
#读取并打印bintolen < -data.table::从文件中读(paste0(outdir“/ hg19_50kb_GATC_bintolen.txt.gz”))尾巴(bintolen20.)
# #箱gc len # # 1: chr22 - 49850001 - 49900000 0.4833 49875 # # 2: chr22 - 49900001 - 49950000 0.5126 47521 # # 3: chr22 - 49950001 - 50000000 0.5139 46220 # # 4: chr22 - 50000001 - 50050000 0.5472 48270 # # 5: chr22 - 50050001 - 50100000 0.5241 49289 # # 6: chr22 - 50100001 - 50150000 0.5014 49584 # # 7: chr22 - 50150001 - 50200000 0.5466 48171 # # 8: chr22 - 50200001 - 50250000 0.5232 47970 # # 9: chr22 - 50250001 - 50300000 0.4675 49242 # # 10: chr22 - 50300001 - 50350000 0.6117 41993 # # 11: chr22 - 50350001 - 50400000 0.1997 49875 # # 12:## 16: chr22-50600001-50650000 0.6103 49700 ## 17: chr22-50650001-50700000 0.5927 49531 ## 18: chr22-50700001-50750000 0.6473 49469 ## 19: chr22-50800001-50818468 0.4792 7806
gi_list
实例HiCDCPlus
的列表中存储特性和计数数据InteractionSet
为每个染色体生成的对象,我们称之为gi_list
实例。
一个gi_list
实例可以通过多种方式初始化。可以生成统一的二进制大小gi_list
实例使用generate_binned_gi_list
.我们也可以产生限制性内切酶片段将基因组打包作为data.frame
把它作为一种gi_list
第三,可以生成一些基因组特征(GC含量、可映射性、有效长度)和限制性内切酶片段区域作为一个bintolen
文件(见创建bintolen文件),并生成gi_list
实例bintolen
文件。最后,一个可以读gi_list
实例生成的文件gi_list_write
(见? gi_list_read)。
gi_list
实例可以生成统一的二进制大小gi_list
实例的基因组使用generate_binned_gi_list
:
gi_list < -generate_binned_gi_list(binsize =50000,空空的=c(“chr22”),创=“Hsapiens”,gen_ver =“hg19”)头(gi_list)
## seqnames1 ranges1 seqnames2 ranges2 | ## | ## [1] chr22 0-50000——chr22 0-50000 | ## [2] chr22 0-50000——chr22 50000-100000 | ## [3] chr22 0-50000——chr22 150000-200000 | ## [5] chr22 0-50000——chr22 200000-250000 | ## ... ... ... ... ... ... .# # [40873] chr22 50700000 - 50750000——chr22 50750000 - 50700000 | # # [40874] chr22 50700000 - 50750000——chr22 50750000 - 50700000 | # # [40875] chr22 50750000 - 50800000——chr22 50800000 - 50750000 | # # [40876] chr22 50750000 - 50800000——chr22 50800000 - 50750000 | # # [40877] chr22 50800000 - 50818468——chr22 50818468 - 50800000 D | # # # # <整数> 0 # # # #[1][2]50000 # # 100000 # #[4]150000[3]# # 200000年[5] ## ... ...## [40873] 50000 ## [40874] 84234 ## [40875] 0 ## [40876] 34234 ## [40877] 0 ## ------- ## regions: 1017个范围和0个元数据列## seqinfo:来自一个未指定基因组的1个序列;没有seqlengths
gi_list
实例我们还可以对包含命名列的基因组生成限制性内切酶片段分类(实际上,任何任意分类)空空的
而且开始
作为一个data.frame
(比如,一个data.frame
阅读请全部
文件),并使用它生成一个gi_list
实例使用generate_df_gi_list
.
ginteraction对象,包含7个交互和1个元数据列:# # # # seqnames1 ranges1 seqnames2 ranges2 | D < Rle > < IRanges > < Rle > < IRanges > | <整数> # # [1]chr9 1 - 300, chr9 1 - 300 | 0 # # [2] chr9 1 - 300——chr9 300 - 7867 | 3933 # # [3] chr9 1 - 300——chr9 7867 - 103938 | 55752 # # [4] chr9 300 - 7867——chr9 300 - 7867 | 0 # # [5] chr9 300 - 7867——chr9 7867 - 103938 | 51819 # # [6] chr9 7867 - 103938——chr9 7867 - 103938 | 0 # # [7] chr9 103938 - 138394717——chr9 103938 - 138394717 | 0 ## ------- ## 区域:4和0元数据列# # seqinfo:一个未知基因组的序列;没有seqlengths
gi_list
实例从bintolen文件我们可以生成基因组特征(gc,可映射性,有效长度)和限制性内切酶片段区域作为一个bintolen
文件(见创建bintolen文件),然后生成gi_list
实例。该实例将很容易地存储基因组特征bintolen
文件。
#生成特性construct_features(output_path =paste0(outdir“/ hg19_50kb_GATC”),创=“Hsapiens”,gen_ver =“hg19”,sig =“比如”,bin_type =“Bins-uniform”,binsize =50000,wg_file =零,#如。,'hg19_wgEncodeCrgMapabilityAlign50mer.bigWig',空空的=c(“chr22”))
## [1] "/tmp/RtmpU0Xv7H/ hg19_50kb_gatc_bintol.txt .gz"
#生成gi_list实例gi_list < -generate_bintolen_gi_list(bintolen_path =paste0(outdir“/ hg19_50kb_GATC_bintolen.txt.gz”))头(gi_list)
## seqnames1 ranges1 seqnames2 ranges2 | ## | ## [1] chr22 0-50000——chr22 0-50000 | ## [2] chr22 0-50000——chr22 50000-100000 | ## [3] chr22 0-50000——chr22 150000-200000 | ## [5] chr22 0-50000——chr22 200000-250000 | ## ... ... ... ... ... ... .# # [40873] chr22 50700000 - 50750000——chr22 50750000 - 50700000 | # # [40874] chr22 50700000 - 50750000——chr22 50750000 - 50700000 | # # [40875] chr22 50750000 - 50800000——chr22 50800000 - 50750000 | # # [40876] chr22 50750000 - 50800000——chr22 50800000 - 50750000 | # # [40877] chr22 50800000 - 50818468——chr22 50818468 - 50800000 D | # # # # <整数> 0 # # # #[1][2]50000 # # 100000 # #[4]150000[3]# # 200000年[5] ## ... ...## [40873] 50000 ## [40874] 84234 ## [40875] 0 ## [40876] 34234 ## [40877] 0 ## ------- ## regions: 1017个范围和2个元数据列## seqinfo:来自一个未指定基因组的1个序列;没有seqlengths
HiCDCPlus允许使用用户定义的1D(每个容器的基因组特征)和2D(属于交互的特征)特征建模。
一次gi_list
实例在手,一个可以摄取计数(和2D特征)使用稀疏矩阵格式的文本文件包含空空的
,startI
,startJ
而且< featurename >
列(参见?add_2D_features)表示您想添加的特性。计数
也可以通过这种方式摄入,前提是您有一个包含名为空空的
,startI
而且startJ
.
df < -data.frame(空空的=“chr9”,开始=seq(1 e6,10 e6,1 e6))gi_list < -generate_df_gi_list(df,Dthreshold =500年e3,空空的=“chr9”)壮举< -data.frame(空空的=“chr9”,startI =seq(1 e6,10 e6,1 e6),startJ =seq(1 e6,10 e6,1 e6),数=rpois(20.,λ=5))gi_list [[“chr9”]] < -add_2D_features(gi_list [[“chr9”]],壮举)gi_list
ginteraction对象,有10个交互和2个元数据列:# # seqnames1 ranges1 seqnames2 ranges2 | # # < Rle > < IRanges > < Rle > < IRanges > | # # [1] chr9 1000000 - 2000000——chr9 2000000 - 1000000 | # # [2] chr9 2000000 - 3000000——chr9 3000000 - 2000000 | # # [3] chr9 3000000 - 4000000——chr9 4000000 - 3000000 | # # [4] chr9 4000000 - 5000000——chr9 5000000 - 4000000 | # # [5] chr9 5000000 - 6000000——chr9 6000000 - 5000000 | # # [6] chr9 6000000 - 7000000——chr9 7000000 - 6000000 | # # [7] chr9 7000000 - 8000000——chr9 8000000 - 7000000 | # # [8] chr9 8000000——9000000——chr98000000 - 8000000 | # # [9] chr9 9000000 - 10000000——chr9 10000000 - 9000000 | # # [10] chr9 10000000 - 138394717——chr9 138394717 - 10000000 | # # # # <整数> D计数<数字> 0 5 # # # # [1][2]0 9 0 7 # # # # [3][4]10 0 0 7 # # # # [5][6]0 13 # # [7]0 9 # # 15 # # [9][8]0 0 6 0 15 # # [10] ## ------- ## 区域:10 # # seqinfo范围和0元数据列:1从一个未指明的基因组序列;没有seqlengths
也可以使用稀疏矩阵格式的文本文件摄取1D特征空空的
,开始
而且< featurename >
(参见?add_1D_features)并将1D特性广播到2D,以便使用用户指定的函数进行建模(参见?expand_1D_features)。与使用1D特性相比,先摄取1D特性然后再扩展具有更好的内存占用add_2D_features
直接。
df < -data.frame(空空的=“chr9”,开始=seq(1 e6,10 e6,1 e6),结束=seq(2 e6,11 e6,1 e6))gi_list < -generate_df_gi_list(df)壮举< -data.frame(空空的=“chr9”,开始=seq(1 e6,10 e6,1 e6),gc =runif(10))gi_list < -add_1D_features(gi_list壮举)gi_list
GInteractions对象,有27个交互和1个元数据列:# # # # seqnames1 ranges1 seqnames2 ranges2 | D < Rle > < IRanges > < Rle > < IRanges > | <整数> # # [1]chr9 1000000 - 2000000——chr9 2000000 - 1000000 | 0 # # [2] chr9 1000000 - 2000000——chr9 2000000 - 1000000 | 1000000 # # [3] chr9 1000000 - 2000000——chr9 2000000 - 1000000 | 1000000 # # [4] chr9 2000000 - 3000000——chr9 3000000 - 2000000 | 0 # # [5] chr9 2000000 - 3000000——chr9 3000000 - 2000000 | 2000000 ## ... ... ... ... ... ... . ...# # [23] chr9 8000000 - 9000000——chr9 9000000 - 8000000 | 8000000 # # [24] chr9 8000000 - 9000000——chr9 9000000 - 8000000 | 8000000 # # [25] chr9 9000000 - 10000000——chr9 10000000 - 9000000 | 0 # # [26] chr9 9000000 - 10000000——chr9 10000000 - 9000000 | 9000000 # # [27] chr9 10000000 - 11000000——chr9 11000000 - 10000000 | 0 ## ------- ## 区域:10 # # seqinfo范围和1元数据列:1从一个未指明的基因组序列;没有seqlengths
## 10行1列## gc ## <数值> ## 1 0.5100410 ## 2 0.6598618 ## 3 0.6023221 ## 4 0.4176259 ## 5 0.6214595 ## 6 0.0935324 ## 7 0.4715000 ## 8 0.7649827 ## 9 0.6588052 ## 10 0.3132930
GInteractions对象,有27个交互和2个元数据列:# # # # seqnames1 ranges1 seqnames2 ranges2 | D < Rle > < IRanges > < Rle > < IRanges > | <整数> # # [1]chr9 1000000 - 2000000——chr9 2000000 - 1000000 | 0 # # [2] chr9 1000000 - 2000000——chr9 2000000 - 1000000 | 1000000 # # [3] chr9 1000000 - 2000000——chr9 2000000 - 1000000 | 1000000 # # [4] chr9 2000000 - 3000000——chr9 3000000 - 2000000 | 0 # # [5] chr9 2000000 - 3000000——chr9 3000000 - 2000000 | 2000000 ## ... ... ... ... ... ... . ...# # [23] chr9 8000000 - 9000000——chr9 9000000 - 8000000 | 8000000 # # [24] chr9 8000000 - 9000000——chr9 9000000 - 8000000 | 8000000 # # [25] chr9 9000000 - 10000000——chr9 10000000 - 9000000 | 0 # # [26] chr9 9000000 - 10000000——chr9 10000000 - 9000000 | 9000000 # # [27] chr9 10000000 - 11000000——chr9 11000000 - 10000000 | gc 0 # # # # <数字> # # # # 0.253977 [1][2]0.520972 # # # # 0.426384 [3][4]0.787966 # # 0.693378 [5] ## ... ...##[23] 0.9395545 ##[24] 0.1689767 ##[25] 0.7846432 ##[26] 0.0140655 ##[27] -0.7565123 ## ------- ##区域:10个范围和1个元数据列## seqinfo: 1个序列来自一个未指定的基因组;没有seqlengths
所有HiCDCPlus的问题都应该发布到生物导体支持站点,提供供查询的问题及答案资料库:
https://support.bioconductor.org
发布一个问题并标记为“HiCDCPlus”或“HiC-DC+”将自动向软件包作者发送一个警告,要求他们在支持网站上作出回应。
你应该不直接将您的问题通过电子邮件发送给软件包的作者,因为我们会回复说,问题应该张贴到生物导体支持站点代替。
## R版本4.2.1(22-06-23)##平台:x86_64-pc-linux-gnu(64位)##运行在:Ubuntu 20.04.5 LTS ## ##矩阵产品:default ## BLAS: /home/biocbuild/bbs-3.16-bio /R/lib/libRblas. ##因此## LAPACK: /home/biocbuild/bbs-3.16-bio /R/lib/libRlapack。因此## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# [3] LC_TIME=en_GB LC_COLLATE= c# [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# [9] LC_ADDRESS=C LC_TELEPHONE= c# [11] LC_MEASUREMENT=en_US。utf - 8 LC_IDENTIFICATION = C附加基本包:# # # # # # [1]stats4统计图形grDevices跑龙套数据集方法# # # # # #[8]基地其他附加包:# # [1]BSgenome.Hsapiens.UCSC.hg38_1.4.4 BSgenome.Hsapiens.UCSC.hg19_1.4.3 # # [3] BSgenome_1.66.0 rtracklayer_1.58.0 # # [5] Biostrings_2.66.0 XVector_0.38.0 # # [7] GenomicRanges_1.50.0 GenomeInfoDb_1.34.0 # # [9] IRanges_2.32.0 S4Vectors_0.36.0 # # [11] BiocGenerics_0.44.0 HiCDCPlus_1.6.0 # # # #通过加载一个名称空间(而不是附加):# # # # [1] backports_1.4.1 Hmisc_4.7-1 [3] BiocFileCache_2.6.0 igraph_1.3.5 # # [5] lazyeval_0.2.2 splines_4.2.1 # # [7] BiocParallel_1.32.0 ggplot2_3.3.6 # # [9] digest_0.6.30 ensembldb_2.22.0 # # [11] htmltools_0.5.3 fansi_1.0.3 # # [13] magrittr_2.0.3 checkmate_2.1.0 # # [15] memoise_2.0.1 cluster_2.1.4 # # [17] InteractionSet_1.26.0 annotate_1.76.0 # # [19] matrixStats_0.62.0 R.utils_2.12.1 # # [21] HiTC_1.42.0 prettyunits_1.1.1 # # [23] jpeg_0.1-9 colorspace_2.0-3 # # [25] blob_1.2.3 rappdirs_0.3.3 # #[27] xfun_0.34 dplyr_1.0.10 # # [29] crayon_1.5.2 rcurl_1.98 - 1.9 # # [31] jsonlite_1.8.3 genefilter_1.80.0 # # [33] survival_3.4-0 VariantAnnotation_1.44.0 # # [35] glue_1.6.2 gtable_0.3.1 # # [37] zlibbioc_1.44.0 DelayedArray_0.24.0 # # [39] scales_1.2.1 DBI_1.1.3 # # [41] Rcpp_1.0.9 xtable_1.8-4 # # [43] progress_1.2.2 htmlTable_2.4.1 # # [45] foreign_0.8 - 83 bit_4.0.4 # # [47] Formula_1.2-4 htmlwidgets_1.5.4 # # [49] httr_1.4.4 RColorBrewer_1.1-3 # # [51] ellipsis_0.3.2 farver_2.1.1 # # [53]## [63] tidyselect_1.2.0 labeling_0.4.2 ## [65] rlang_1.0.6 AnnotationDbi_1.60.0 ## [67] munsel_0.5.0 tools_4.2.1 ## [69] cachem_1.0.6 cli_3.4.1 ## [71] generics_0.17 string_1 .4.1 ## [75] fastmap_1.1.0 RSQLite_2.2.18 ## [77] knitr_1.40 bit64_4.0.5 ## [79] purrr_0.3.5 KEGGREST_1.38.0 ## [81]AnnotationFilter_1.22.0 R.oo_1.25.0 # # [83] xml2_1.3.3 biomaRt_2.54.0 # # [85] compiler_4.2.1 rstudioapi_0.14 # # [87] filelock_1.0.2 curl_4.3.3 # # [89] png_0.1-7 tibble_3.1.8 # # [91] geneplotter_1.76.0 bslib_0.4.0 # # [93] stringi_1.7.8 GenomicFeatures_1.50.0 # # [95] lattice_0.20-45 ProtGenerics_1.30.0 # # [97] Matrix_1.5-1 vctrs_0.5.0 # # [99] pillar_1.8.1 GenomicInteractions_1.32.0 # # [101] lifecycle_1.0.3 jquerylib_0.1.4 # # [103] data.table_1.14.4 bitops_1.0-7 # # [105] R6_2.5.1 BiocIO_1.8.0 # #[107] latticeExtra_0.6-30 gridExtra_2.3 # # [109] codetools_0.2-18 dichromat_2.0 - 0.1 # # [111] mass_7.3 - 58.1 assertthat_0.2.1 # # [113] SummarizedExperiment_1.28.0 DESeq2_1.38.0 # # [115] rjson_0.2.21 withr_2.5.0 # # [117] GenomicAlignments_1.34.0 Rsamtools_2.14.0 # # [119] GenomeInfoDbData_1.2.9 parallel_4.2.1 # # [121] hms_1.1.2 grid_4.2.1 # # [123] rpart_4.1.19 tidyr_1.2.1 # # [125] rmarkdown_2.17 MatrixGenerics_1.10.0 # # [127] biovizBase_1.46.0 Biobase_2.58.0 # # [129] base64enc_0.1-3 interp_1.1-3 # # [131] restfulr_0.0.15