用HiCDCPlus分析Hi-C和HiChIP数据

Merve领域

11/01/2022

摘要

HiC或HiChIP计数数据分析的一项必要任务是检测统计上显著和差异的基因组相互作用。计数数据可以作为一个表格提供，其中报告了基因组区域之间相互作用的数量，这些区域通常是基因组区域的统一分类或跨限制性内切酶片段。软件包HiCDCPlus提供了使用负二项广义线性模型来确定显著和差异染色质相互作用的方法，以及TopDom调用拓扑关联域(TADs)和Juicer特征向量来查找a /B区的实现。本小插曲解释了包的使用，并演示了HiC和HiChIP数据的典型工作流程。HiCDCPlus包版本:1.6.0

安装
标准工作流程
创建基因组特征文件
的gi_list实例
使用HiCDCPlus的自定义功能
如何获得HiCDCPlus的帮助
会话信息

注意:如果您在已发表的研究中使用HiCDCPlus，请注明:

Sahin, M.， Wong, W.， Zhan, Y.， Van Deyze, K.， Koche, R.，和Leslie, c.s. (2021) HiC-DC+: Hi-C和HiChIP的系统三维交互调用和微分分析自然通讯，12 (3366)．10.1038 / s41467 - 021 - 23749 - x

安装

要安装这个包，开始R，然后输入:

如果（！requireNamespace（“BiocManager”，静静地=真正的）)install.packages（“BiocManager”）BiocManager：：安装（“HiCDCPlus”）

如果您正在重新安装包，我们建议擦除包的相关文件缓存。可以通过运行命令获取缓存文件夹的位置。

缓存< -rappdirs：：user_cache_dir（浏览器名称=“HiCDCPlus”）打印(缓存)

标准工作流程

概述

HiCDCPlus可以接受流行的Hi-C预处理工具的输出，如.hic(来自Juicebox)， .matrix，和. allvalidpairs(来自HiC-Pro)。它还可以与HTClist对象一起使用(来自Bioconductor包HiTC)。

在标准的工作流程中，首先需要生成基因组特征HiCDCPlus模型(GC内容、可映射性、有效长度)使用construct_features函数(见创建基因组特征文件)。这既可以用于统一的也可以用于多个限制片段分组数据。

HiCDCPlus以一种内存效率高的方式存储计数和特性，使用我们称为gi_list实例(见的gi_list实例)。然后一个以a的形式提供基因组特征gi_list实例使用generate_bintolen_gi_list函数。然后，可以在此基础上添加计数gi_list实例，为每种输入Hi-C文件格式使用专用函数(add_hic_counts，add_hicpro_matrix_counts，add_hicpro_allvalidpairs.counts)。

在建模之前，1D特征来自于gi_list来自bintolen文件的实例必须展开为2D使用expand_1D_features函数。可以应用不同的转换来结合每个锚的基因组特征。

的核心HiCDCPlus是高效的实现吗HiC-DC负二项计数模型的归一化和去除偏差(见?HiCDCPlus)。的可并行化实现中还提供了平台不可知的实现HiCDCPlus_parallel用于跨染色体有效交互调用的函数。的HiCDCPlus(或HiCDCPlus_parallel函数输出每次交互的意义(pvalue罗斯福调整了p值qvalue)，并从模型中估计出如下值:μ:由偏差估计的预期交互频率;标准偏差:期望相互作用频率的标准差。

一旦获得了结果，就可以使用gi_list_write功能或to a.hic使用hicdc2hic函数(其中可以传递原始计数、观察到的/预期的归一化计数和-log10P价值,log10P-调整值，或负二项式z值归一化计数:(counts-mu)/sdev到.hic文件

为了检测不同条件下差异显著的相互作用，HiCDCPlus的修改后的实现DESeq2使用复制Hi-C/HiChIP数据集hicdcdiff．这个函数需要(1)实验设置的定义(参见?hicdcdiff)，(2)要考虑的筛选过的交互集，作为包含列的文本文件空空的，startI,startJ(startI<=startJ)和(3)为每个条件计算数据并将其中任意一个复制为gi_list实例或作为输出文本文件生成gi_list_write可以被读取为有效的函数gi_list使用实例gi_list_read．的hicdcdiff函数进行微分分析，输出对应logFC差异的对区域的基因组坐标，P-value和BH调整P-value(参见中的示例快速入门)。

接下来，我们将演示检测重要交互和差异交互的标准工作流。

快速入门

在本节中，我们将展示一个完整的工作流程，用于从复制实验的Hi-C数据中识别显著相互作用和差异相互作用。对于HiChIP，使用的函数是相同的，但是使用的距离阈值略有降低(推荐Dmax = 1.52 e6)。

从Hi-C/HiChIP中寻找重要的相互作用

在这里，我们从多个染色体上50kb分辨率的HiC数据中识别出重要的相互作用(在下面的例子中，跨染色体21和22)。下面的示例代码块假设您已经下载了一个.hic文件从GSE63525也下载了Juicebox命令行工具．下面的示例使用GSE63525_HMEC_combined.hic并将它的路径存储到变量中hicfile_path与特征生成的限制性内切酶片段与模式“比如”在hg19基因组中。

hicfile_path < -执行（“extdata”，“GSE63525_HMEC_combined_example.hic”，包=“HiCDCPlus”）outdir < -tempdir（检查=真正的）#生成特性construct_features（output_path =paste0(outdir“/ hg19_50kb_GATC”)，创=“Hsapiens”，gen_ver =“hg19”，sig =“比如”，bin_type =“Bins-uniform”，binsize =50000，空空的=c（“chr21”，“chr22”）)

## [1] "/tmp/RtmpU0Xv7H/ hg19_50kb_gatc_bintol.txt .gz"

如果你有多种酶鸡尾酒用来产生Hi-C数据，你可以指定多种模式，包括“N”作为该函数的字符串(例如，sig=c(" GATC "， " GANTC "))。如果你想要分析由多个限制性内切酶片段打包的数据，你可以将bin_type改为“bin - re -sites”，将binsize改为你想合并为bin的片段的数量(例如，bin_type=“bin - re -sites”，binsize=10表示10个限制性内切酶片段打包)。

#生成gi_list实例gi_list < -generate_bintolen_gi_list（bintolen_path =paste0(outdir“/ hg19_50kb_GATC_bintolen.txt.gz”）)#添加。hic计数gi_list < -add_hic_counts(gi_listhic_path =hicfile_path)

如果你有HiC-Pro输出，你可以使用任何一种add_hicpro_matrix_counts或add_hicpro_allvalidpairs_counts取决于文件格式。add_hicpro_matrix_counts函数需要HiC-Pro矩阵生成步骤的。bed输出，以及。matrix格式的计数数据。

#扩展建模功能gi_list < -expand_1D_features(gi_list)#运行HiC-DC +set.seed（1010）#HiC-DC downsamples行建模gi_list < -HiCDCPlus(gi_list)#HiCDCPlus_parallel在核上并行运行头(gi_list)

# # $ chr21 # # GInteractions对象交互和27498 8元数据列:# # seqnames1 ranges1 seqnames2 ranges2 | # # < Rle > < IRanges > < Rle > < IRanges > | # # [1] chr21 9400000 - 9450000——chr21 9450000 - 9400000 | # # [2] chr21 9400000 - 9450000——chr21 9450000 - 9400000 | # # [3] chr21 9400000 - 9450000——chr21 9450000 - 9400000 | # # [4] chr21 9400000 - 9450000——chr21 9450000 - 9400000 | # # [5] chr21 9400000 - 9450000——chr21 9450000 - 9400000  | ## ... ... ... ... ... ... .# # [27494] chr21 48000000 - 48050000——chr21 48050000 - 48000000 | # # [27495] chr21 48000000 - 48050000——chr21 48050000 - 48000000 | # # [27496] chr21 48050000 - 48100000——chr21 48100000 - 48050000 | # # [27497] chr21 48050000 - 48100000——chr21 48100000 - 48050000 | # # [27498] chr21 48100000 - 48129895——chr21 48129895 - 48100000 | # # D计数gc lenμ标准偏差# # <整数> <数字> <数字> <数字> <数字> <数字> # # [1]0 199 -1.162350 -2.03355 893.45296 475.73037 -1.018867 - -1.14588 # # [2]50000 6361.44390 193.01373 ## [3] 100000 1 -1.034474 -1.69222 135.53550 72.95983 ## [4] 150000 7 -0.962964 -1.81222 69.29311 37.75226 ## [5] 200000 0 -0.672519 -11.25302 5.75596 3.88742 ## ... ... ... ... ... ... ... ## [27494] 50000 648 0.6628281 -0.0888584 500.961 267.1554 ## [27495] 89947 29 0.4459603 -3.9564444 105.847 57.1815 ## [27496] 0 2468 0.5083961 -0.3549451 1415.297 753.0440 ## [27497] 39947 170 0.2915283 -4.2225312 245.662 131.4849 ## [27498] 0 97 0.0746605 -8.0901172 259.698 138.9441 ## pvalue qvalue ##   ## [1] 0.980622 1 ## [2] 0.999994 1 ## [3] 0.999998 1 ## [4] 0.997504 1 ## [5] 1.000000 1 ## ... ... ... ## [27494] 0.2491665 0.919972 ## [27495] 0.9626372 1.000000 ## [27496] 0.0932895 0.663891 ## [27497] 0.6805805 1.000000 ## [27498] 0.9185031 1.000000 ## ------- ## regions: 963 ranges and 2 metadata columns ## seqinfo: 1 sequence from an unspecified genome; no seqlengths ## ## $chr22 ## GInteractions object with 27855 interactions and 8 metadata columns: ## seqnames1 ranges1 seqnames2 ranges2 | ##     | ## [1] chr22 16050000-16100000 --- chr22 16050000-16100000 | ## [2] chr22 16050000-16100000 --- chr22 16100000-16150000 | ## [3] chr22 16050000-16100000 --- chr22 16150000-16200000 | ## [4] chr22 16050000-16100000 --- chr22 16200000-16250000 | ## [5] chr22 16050000-16100000 --- chr22 16250000-16300000 | ## ... ... ... ... ... ... . ## [27851] chr22 51100000-51150000 --- chr22 51150000-51200000 | ## [27852] chr22 51100000-51150000 --- chr22 51200000-51250000 | ## [27853] chr22 51150000-51200000 --- chr22 51150000-51200000 | ## [27854] chr22 51150000-51200000 --- chr22 51200000-51250000 | ## [27855] chr22 51200000-51250000 --- chr22 51200000-51250000 | ## D counts gc len mu sdev ##       ## [1] 0 72 -0.321755 -0.551744 1673.7051 1099.5644 ## [2] 50000 3 -2.018640 -0.698418 484.3915 318.7682 ## [3] 100000 0 -1.017838 -0.333627 278.6914 183.7235 ## [4] 150000 0 -0.741770 -1.247963 121.6267 80.6071 ## [5] 200000 1 -1.069967 -0.293187 95.8473 63.6817 ## ... ... ... ... ... ... ... ## [27851] 50000 586 0.878598 -0.2088985 806.215 530.048 ## [27852] 100000 121 0.129452 -0.8134144 282.701 186.356 ## [27853] 0 2665 0.641536 0.0178216 2220.278 1458.395 ## [27854] 50000 307 -0.107610 -0.5866943 639.170 420.382 ## [27855] 0 445 -0.856757 -1.1912102 1307.568 859.192 ## pvalue qvalue ##   ## [1] 0.998347 1 ## [2] 0.999971 1 ## [3] 1.000000 1 ## [4] 1.000000 1 ## [5] 0.999832 1 ## ... ... ... ## [27851] 0.593328 1 ## [27852] 0.815618 1 ## [27853] 0.307224 1 ## [27854] 0.777558 1 ## [27855] 0.876441 1 ## ------- ## regions: 1027 ranges and 2 metadata columns ## seqinfo: 1 sequence from an unspecified genome; no seqlengths

#将标准化计数(观察到的/预期的)写入一个.hic文件hicdc2hic(gi_listhicfile =paste0(outdir' / GSE63525_HMEC_combined_result.hic ')，模式=“normcounts”，gen_ver =“hg19”）

## [1] "/tmp/RtmpU0Xv7H/GSE63525_HMEC_combined_result.hic"

#将结果写入文本文件gi_list_write(gi_list帧=paste0(outdir' / GSE63525_HMEC_combined_result.txt.gz '）)

## [1] "/tmp/RtmpU0Xv7H/GSE63525_HMEC_combined_result.txt.gz"

HiCDCPlus结果可以转换为.hic使用hicdc2hic函数。中应作为“mode”提供的值hicdc2hic函数对应存储在。hic文件中的相应分数为:' pvalue '表示-log10意义p值，' qvalue '表示-log10 FDR校正p值，' normcounts '表示原始计数/预期计数，' zvalue '表示标准化计数(原始计数-预期计数)/预期计数的建模标准差，' raw '表示传递原始计数。

.hic文件可以使用hic2cool软件进一步转换为.cool格式，并使用HiCExplorer进行可视化。

求微分相互作用

假设我们对求微分相互作用感兴趣chr21而且chr22NSD2和NTKO/TKO细胞之间的50kb.hic可在GSE131651：GSE131651_NSD2_LOW_arima.hic，GSE131651_NSD2_HIGH_arima.hic，GSE131651_TKOCTCF_new.hic，GSE131651_NTKOCTCF_new.hic．我们首先找到它们之间的重要交互，并将结果保存到一个文件中:

#生成特性construct_features（output_path =paste0(outdir“/ hg38_50kb_GATC”)，创=“Hsapiens”，gen_ver =“hg38”，sig =“比如”，bin_type =“Bins-uniform”，binsize =50000，空空的=c（“chr22”）)

## [1] "/tmp/RtmpU0Xv7H/ hg38_50kb_gatc_bintol.txt .gz"

#添加。hic计数hicfile_paths < -c（执行（“extdata”，“GSE131651_NSD2_LOW_arima_example.hic”，包=“HiCDCPlus”)，执行（“extdata”，“GSE131651_NSD2_HIGH_arima_example.hic”，包=“HiCDCPlus”)，执行（“extdata”，“GSE131651_TKOCTCF_new_example.hic”，包=“HiCDCPlus”)，执行（“extdata”，“GSE131651_NTKOCTCF_new_example.hic”，包=“HiCDCPlus”）)indexfile < -data.frame（）为(hicfile_path在hicfile_paths) {output_path < -paste0(outdir' / '，gsub（“^ (. * (\ \/])”，＂＂，gsub（“.hic”，“.txt.gz”hicfile_path)))#生成gi_list实例gi_list < -generate_bintolen_gi_list（bintolen_path =paste0(outdir“/ hg38_50kb_GATC_bintolen.txt.gz”)，创=“Hsapiens”，gen_ver =“hg38”）gi_list < -add_hic_counts(gi_listhic_path =hicfile_path)#扩展建模功能gi_list < -expand_1D_features(gi_list)#在2核上运行HiC-DC+set.seed（1010）#HiC-DC downsamples行建模gi_list < -HiCDCPlus(gi_listssize =0.1）为(我在seq（长度(gi_list))) {indexfile < -独特的（rbind(indexfileas.data.frame(gi_list[[我]][gi_list[[我]]＄qvalue< =0.05)) (c（“seqnames1”，“start1”，“start2”))))｝#将结果写入文本文件gi_list_write(gi_list帧=output_path)｝#保存索引文件——union of significant at 50kbcolnames(indexfile) < -c（“装备”，“startI”，“startJ”）data.table：：写入文件(indexfilepaste0(outdir' / GSE131651_analysis_indices.txt.gz ')，9月=＇\ t＇，row.names =假，报价=假）

接下来，我们获得重要交互的并集，并将其保存为索引文件，然后运行hicdcdiff．

#使用修改的DESeq2进行差异分析(参见?hicdcdiff)hicdcdiff（input_paths =列表（NSD2 =c（paste0(outdir' / GSE131651_NSD2_LOW_arima_example.txt.gz ')，paste0(outdir' / GSE131651_NSD2_HIGH_arima_example.txt.gz ')),TKO =c（paste0(outdir' / GSE131651_TKOCTCF_new_example.txt.gz ')，paste0(outdir' / GSE131651_NTKOCTCF_new_example.txt.gz ')))，filter_file =paste0(outdir' / GSE131651_analysis_indices.txt.gz ')，output_path =paste0(outdir“diff_analysis_example /”)，fitType =“的意思是”，空空的=“chr22”，binsize =50000，诊断=真正的）

# # $ deseq2paths outputpaths美元零# # # # # # # #[1]“/ tmp / RtmpU0Xv7H / diff_analysis_example / diff_resTKOoverNSD2_chr22.txt.gz”plotpaths美元# # # # # #[1]“/ tmp / RtmpU0Xv7H / diff_analysis_example / sizefactors_chr22.pdf”# #[2]“/ tmp / RtmpU0Xv7H / diff_analysis_example / geomean_sizefactors_chr22.pdf”# #[3]“/ tmp / RtmpU0Xv7H / diff_analysis_example / plotMA_TKOoverNSD2_chr22.pdf”# #[4]“/ tmp / RtmpU0Xv7H / diff_analysis_example / diff_chr22_PCA.pdf”# #[5]“/ tmp / RtmpU0Xv7H / diff_analysis_example / dispersionplot.pdf”

#检查生成的图以及DESeq2结果

假设您在input_paths中提供多个条件，例如input_paths=list(A= " .. "，B= " .. "，C= " .. ")，那么由报告的成对比较hicdcdiff就是B / A C / B C / A。

使用HiTC进行ICE规范化

为了找到TADs，我们使用ICE标准化Hi-C数据。如果您使用HiC-Pro来处理计数，我们建议将ICE规范化的.matrix文件提供到一个gi_list实例。

gi_list < -generate_binned_gi_list（50000，空空的=c（“chr21”，“chr22”）)gi_list < -add_hicpro_matrix_counts(absfile_path gi_list matrixfile_path,空空的=c（“chr21”，“chr22”）)#添加路径冰absfile和矩阵文件在这里

如果你有.hic文件，那么你可以用我们的HiTC包装器执行ICE规范化，如下所示:

hic_path < -执行（“extdata”，“GSE63525_HMEC_combined_example.hic”，包=“HiCDCPlus”）gi_list =hic2icenorm_gi_list(hic_pathbinsize =50 e3，空空的=c（“chr22”)，Dthreshold =400年e3）

还可以将ICE规范化的.hic文件输出到该路径gsub(“.hic”、“_icenorm.hic”hic_path)从hic2icenorm_gi_list如果你设置hic_out = TRUE你对这个函数的调用。

使用TopDom查找TADs

HiCDCPlus将带有ICE标准化计数的gi_list实例通过TopDom v0.0.2 (https://github.com/HenrikBengtsson/TopDom)改编为TopDom。我们建议使用窗口调用TADs与ICE标准化计数，分辨率为50kb。TopDom的10码。

tads < -gi_list_topdom(gi_list空空的=c（“chr22”)，窗口。大小=10）

使用榨汁机找到A/B隔间

HiCDCPlus可以调用Juicer特征向量函数从。hic文件中确定A/B分隔区。extract_hic_eigenvectors为每个染色体生成文本文件，其中包含染色体、起始、结束和隔间分值，可能需要为每个染色体翻转符号。文件路径遵循gsub(' .hic '， ' _ .hic ' _eigenvalues.txt hicfile)。

extract_hic_eigenvectors（hicfile =执行（“extdata”，“eigenvector_example.hic”，包=“HiCDCPlus”)，模式=“KR”，binsize =50 e3，空空的=“chr22”，创=“Hsapiens”，gen_ver =“hg19”，模式=“没有”）

创建基因组特征文件

基因组特征可以使用construct_features函数。该函数找到给定基因组和基因组版本的所有限制性内切酶切位点，并计算GC含量，可映射性(如果相关.bigWig文件提供)和有效片段长度的统一仓或跨指定倍数的限制性内切酶切割位点给定的模式。

#生成特性construct_features（output_path =paste0(outdir“/ hg19_50kb_GATC”)，创=“Hsapiens”，gen_ver =“hg19”，sig =c（“比如”，“GANTC”)，bin_type =“Bins-uniform”，binsize =50000，wg_file =零，#如。，＇hg19_wgEncodeCrgMapabilityAlign50mer.bigWig',空空的=c（“chr22”）)

## [1] "/tmp/RtmpU0Xv7H/ hg19_50kb_gatc_bintol.txt .gz"

#读取并打印bintolen < -data.table：：从文件中读（paste0(outdir“/ hg19_50kb_GATC_bintolen.txt.gz”）)尾巴(bintolen20.）

# #箱gc len # # 1: chr22 - 49850001 - 49900000 0.4833 49875 # # 2: chr22 - 49900001 - 49950000 0.5126 47521 # # 3: chr22 - 49950001 - 50000000 0.5139 46220 # # 4: chr22 - 50000001 - 50050000 0.5472 48270 # # 5: chr22 - 50050001 - 50100000 0.5241 49289 # # 6: chr22 - 50100001 - 50150000 0.5014 49584 # # 7: chr22 - 50150001 - 50200000 0.5466 48171 # # 8: chr22 - 50200001 - 50250000 0.5232 47970 # # 9: chr22 - 50250001 - 50300000 0.4675 49242 # # 10: chr22 - 50300001 - 50350000 0.6117 41993 # # 11: chr22 - 50350001 - 50400000 0.1997 49875 # # 12:## 16: chr22-50600001-50650000 0.6103 49700 ## 17: chr22-50650001-50700000 0.5927 49531 ## 18: chr22-50700001-50750000 0.6473 49469 ## 19: chr22-50800001-50818468 0.4792 7806

的`gi_list`实例

HiCDCPlus的列表中存储特性和计数数据InteractionSet为每个染色体生成的对象，我们称之为gi_list实例。

一个gi_list实例可以通过多种方式初始化。可以生成统一的二进制大小gi_list实例使用generate_binned_gi_list．我们也可以产生限制性内切酶片段将基因组打包作为data.frame把它作为一种gi_list第三，可以生成一些基因组特征(GC含量、可映射性、有效长度)和限制性内切酶片段区域作为一个bintolen文件(见创建bintolen文件)，并生成gi_list实例bintolen文件。最后，一个可以读gi_list实例生成的文件gi_list_write(见? gi_list_read)。

统一扔进垃圾箱`gi_list`实例

可以生成统一的二进制大小gi_list实例的基因组使用generate_binned_gi_list：

gi_list < -generate_binned_gi_list（binsize =50000，空空的=c（“chr22”)，创=“Hsapiens”，gen_ver =“hg19”）头(gi_list)

## seqnames1 ranges1 seqnames2 ranges2 | ##     | ## [1] chr22 0-50000——chr22 0-50000 | ## [2] chr22 0-50000——chr22 50000-100000 | ## [3] chr22 0-50000——chr22 150000-200000 | ## [5] chr22 0-50000——chr22 200000-250000 | ## ... ... ... ... ... ... .# # [40873] chr22 50700000 - 50750000——chr22 50750000 - 50700000 | # # [40874] chr22 50700000 - 50750000——chr22 50750000 - 50700000 | # # [40875] chr22 50750000 - 50800000——chr22 50800000 - 50750000 | # # [40876] chr22 50750000 - 50800000——chr22 50800000 - 50750000 | # # [40877] chr22 50800000 - 50818468——chr22 50818468 - 50800000 D | # # # # <整数> 0 # # # #[1][2]50000 # # 100000 # #[4]150000[3]# # 200000年[5]  ## ... ...## [40873] 50000 ## [40874] 84234 ## [40875] 0 ## [40876] 34234 ## [40877] 0 ## ------- ## regions: 1017个范围和0个元数据列## seqinfo:来自一个未指定基因组的1个序列;没有seqlengths

限制性内切酶`gi_list`实例

我们还可以对包含命名列的基因组生成限制性内切酶片段分类(实际上，任何任意分类)空空的而且开始作为一个data.frame(比如,一个data.frame阅读请全部文件)，并使用它生成一个gi_list实例使用generate_df_gi_list．

df < -data.frame（空空的=“chr9”，开始=c（1，300，7867，103938）)gi_list < -generate_df_gi_list(df)gi_list

ginteraction对象，包含7个交互和1个元数据列:# # # # seqnames1 ranges1 seqnames2 ranges2 | D < Rle > < IRanges > < Rle > < IRanges > | <整数> # # [1]chr9 1 - 300, chr9 1 - 300 | 0 # # [2] chr9 1 - 300——chr9 300 - 7867 | 3933 # # [3] chr9 1 - 300——chr9 7867 - 103938 | 55752 # # [4] chr9 300 - 7867——chr9 300 - 7867 | 0 # # [5] chr9 300 - 7867——chr9 7867 - 103938 | 51819 # # [6] chr9 7867 - 103938——chr9 7867 - 103938 | 0 # # [7] chr9 103938 - 138394717——chr9 103938 - 138394717 | 0  ## ------- ## 区域:4和0元数据列# # seqinfo:一个未知基因组的序列;没有seqlengths

生成`gi_list`实例从bintolen文件

我们可以生成基因组特征(gc，可映射性，有效长度)和限制性内切酶片段区域作为一个bintolen文件(见创建bintolen文件)，然后生成gi_list实例。该实例将很容易地存储基因组特征bintolen文件。

#生成特性construct_features（output_path =paste0(outdir“/ hg19_50kb_GATC”)，创=“Hsapiens”，gen_ver =“hg19”，sig =“比如”，bin_type =“Bins-uniform”，binsize =50000，wg_file =零，#如。，＇hg19_wgEncodeCrgMapabilityAlign50mer.bigWig',空空的=c（“chr22”）)

## [1] "/tmp/RtmpU0Xv7H/ hg19_50kb_gatc_bintol.txt .gz"

#生成gi_list实例gi_list < -generate_bintolen_gi_list（bintolen_path =paste0(outdir“/ hg19_50kb_GATC_bintolen.txt.gz”）)头(gi_list)

## seqnames1 ranges1 seqnames2 ranges2 | ##     | ## [1] chr22 0-50000——chr22 0-50000 | ## [2] chr22 0-50000——chr22 50000-100000 | ## [3] chr22 0-50000——chr22 150000-200000 | ## [5] chr22 0-50000——chr22 200000-250000 | ## ... ... ... ... ... ... .# # [40873] chr22 50700000 - 50750000——chr22 50750000 - 50700000 | # # [40874] chr22 50700000 - 50750000——chr22 50750000 - 50700000 | # # [40875] chr22 50750000 - 50800000——chr22 50800000 - 50750000 | # # [40876] chr22 50750000 - 50800000——chr22 50800000 - 50750000 | # # [40877] chr22 50800000 - 50818468——chr22 50818468 - 50800000 D | # # # # <整数> 0 # # # #[1][2]50000 # # 100000 # #[4]150000[3]# # 200000年[5]  ## ... ...## [40873] 50000 ## [40874] 84234 ## [40875] 0 ## [40876] 34234 ## [40877] 0 ## ------- ## regions: 1017个范围和2个元数据列## seqinfo:来自一个未指定基因组的1个序列;没有seqlengths

使用HiCDCPlus的自定义功能

HiCDCPlus允许使用用户定义的1D(每个容器的基因组特征)和2D(属于交互的特征)特征建模。

一次gi_list实例在手，一个可以摄取计数(和2D特征)使用稀疏矩阵格式的文本文件包含空空的，startI，startJ而且< featurename >列(参见?add_2D_features)表示您想添加的特性。计数也可以通过这种方式摄入，前提是您有一个包含名为空空的，startI而且startJ．

df < -data.frame（空空的=“chr9”，开始=seq（1 e6，10 e6，1 e6）)gi_list < -generate_df_gi_list(df,Dthreshold =500年e3，空空的=“chr9”）壮举< -data.frame（空空的=“chr9”，startI =seq（1 e6，10 e6，1 e6)，startJ =seq（1 e6，10 e6，1 e6)，数=rpois（20.，λ=5）)gi_list [[“chr9”]] < -add_2D_features(gi_list [[“chr9”]],壮举)gi_list

ginteraction对象，有10个交互和2个元数据列:# # seqnames1 ranges1 seqnames2 ranges2 | # # < Rle > < IRanges > < Rle > < IRanges > | # # [1] chr9 1000000 - 2000000——chr9 2000000 - 1000000 | # # [2] chr9 2000000 - 3000000——chr9 3000000 - 2000000 | # # [3] chr9 3000000 - 4000000——chr9 4000000 - 3000000 | # # [4] chr9 4000000 - 5000000——chr9 5000000 - 4000000 | # # [5] chr9 5000000 - 6000000——chr9 6000000 - 5000000 | # # [6] chr9 6000000 - 7000000——chr9 7000000 - 6000000 | # # [7] chr9 7000000 - 8000000——chr9 8000000 - 7000000 | # # [8] chr9 8000000——9000000——chr98000000 - 8000000 | # # [9] chr9 9000000 - 10000000——chr9 10000000 - 9000000 | # # [10] chr9 10000000 - 138394717——chr9 138394717 - 10000000 | # # # # <整数> D计数<数字> 0 5 # # # # [1][2]0 9 0 7 # # # # [3][4]10 0 0 7 # # # # [5][6]0 13 # # [7]0 9 # # 15 # # [9][8]0 0 6 0 15 # # [10]  ## ------- ## 区域:10 # # seqinfo范围和0元数据列:1从一个未指明的基因组序列;没有seqlengths

也可以使用稀疏矩阵格式的文本文件摄取1D特征空空的，开始而且< featurename >(参见?add_1D_features)并将1D特性广播到2D，以便使用用户指定的函数进行建模(参见?expand_1D_features)。与使用1D特性相比，先摄取1D特性然后再扩展具有更好的内存占用add_2D_features直接。

df < -data.frame（空空的=“chr9”，开始=seq（1 e6，10 e6，1 e6)，结束=seq（2 e6，11 e6，1 e6）)gi_list < -generate_df_gi_list(df)壮举< -data.frame（空空的=“chr9”，开始=seq（1 e6，10 e6，1 e6)，gc =runif（10）)gi_list < -add_1D_features(gi_list壮举)gi_list

GInteractions对象，有27个交互和1个元数据列:# # # # seqnames1 ranges1 seqnames2 ranges2 | D < Rle > < IRanges > < Rle > < IRanges > | <整数> # # [1]chr9 1000000 - 2000000——chr9 2000000 - 1000000 | 0 # # [2] chr9 1000000 - 2000000——chr9 2000000 - 1000000 | 1000000 # # [3] chr9 1000000 - 2000000——chr9 2000000 - 1000000 | 1000000 # # [4] chr9 2000000 - 3000000——chr9 3000000 - 2000000 | 0 # # [5] chr9 2000000 - 3000000——chr9 3000000 - 2000000 | 2000000  ## ... ... ... ... ... ... . ...# # [23] chr9 8000000 - 9000000——chr9 9000000 - 8000000 | 8000000 # # [24] chr9 8000000 - 9000000——chr9 9000000 - 8000000 | 8000000 # # [25] chr9 9000000 - 10000000——chr9 10000000 - 9000000 | 0 # # [26] chr9 9000000 - 10000000——chr9 10000000 - 9000000 | 9000000 # # [27] chr9 10000000 - 11000000——chr9 11000000 - 10000000 | 0  ## ------- ## 区域:10 # # seqinfo范围和1元数据列:1从一个未指明的基因组序列;没有seqlengths

mcols(InteractionSet：：地区(gi_list [[“chr9”]]))

## 10行1列## gc ## <数值> ## 1 0.5100410 ## 2 0.6598618 ## 3 0.6023221 ## 4 0.4176259 ## 5 0.6214595 ## 6 0.0935324 ## 7 0.4715000 ## 8 0.7649827 ## 9 0.6588052 ## 10 0.3132930

gi_list < -expand_1D_features(gi_list)gi_list

GInteractions对象，有27个交互和2个元数据列:# # # # seqnames1 ranges1 seqnames2 ranges2 | D < Rle > < IRanges > < Rle > < IRanges > | <整数> # # [1]chr9 1000000 - 2000000——chr9 2000000 - 1000000 | 0 # # [2] chr9 1000000 - 2000000——chr9 2000000 - 1000000 | 1000000 # # [3] chr9 1000000 - 2000000——chr9 2000000 - 1000000 | 1000000 # # [4] chr9 2000000 - 3000000——chr9 3000000 - 2000000 | 0 # # [5] chr9 2000000 - 3000000——chr9 3000000 - 2000000 | 2000000  ## ... ... ... ... ... ... . ...# # [23] chr9 8000000 - 9000000——chr9 9000000 - 8000000 | 8000000 # # [24] chr9 8000000 - 9000000——chr9 9000000 - 8000000 | 8000000 # # [25] chr9 9000000 - 10000000——chr9 10000000 - 9000000 | 0 # # [26] chr9 9000000 - 10000000——chr9 10000000 - 9000000 | 9000000 # # [27] chr9 10000000 - 11000000——chr9 11000000 - 10000000 | gc 0 # # # # <数字> # # # # 0.253977 [1][2]0.520972 # # # # 0.426384 [3][4]0.787966 # # 0.693378 [5]  ## ... ...##[23] 0.9395545 ##[24] 0.1689767 ##[25] 0.7846432 ##[26] 0.0140655 ##[27] -0.7565123 ## ------- ##区域:10个范围和1个元数据列## seqinfo: 1个序列来自一个未指定的基因组;没有seqlengths

如何获得HiCDCPlus的帮助

所有HiCDCPlus的问题都应该发布到生物导体支持站点，提供供查询的问题及答案资料库:

https://support.bioconductor.org

发布一个问题并标记为“HiCDCPlus”或“HiC-DC+”将自动向软件包作者发送一个警告，要求他们在支持网站上作出回应。
你应该不直接将您的问题通过电子邮件发送给软件包的作者，因为我们会回复说，问题应该张贴到生物导体支持站点代替。

会话信息

sessionInfo（）

## R版本4.2.1(22-06-23)##平台:x86_64-pc-linux-gnu(64位)##运行在:Ubuntu 20.04.5 LTS ## ##矩阵产品:default ## BLAS: /home/biocbuild/bbs-3.16-bio /R/lib/libRblas. ##因此## LAPACK: /home/biocbuild/bbs-3.16-bio /R/lib/libRlapack。因此## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# [3] LC_TIME=en_GB LC_COLLATE= c# [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# [9] LC_ADDRESS=C LC_TELEPHONE= c# [11] LC_MEASUREMENT=en_US。utf - 8 LC_IDENTIFICATION = C附加基本包:# # # # # # [1]stats4统计图形grDevices跑龙套数据集方法# # # # # #[8]基地其他附加包:# # [1]BSgenome.Hsapiens.UCSC.hg38_1.4.4 BSgenome.Hsapiens.UCSC.hg19_1.4.3 # # [3] BSgenome_1.66.0 rtracklayer_1.58.0 # # [5] Biostrings_2.66.0 XVector_0.38.0 # # [7] GenomicRanges_1.50.0 GenomeInfoDb_1.34.0 # # [9] IRanges_2.32.0 S4Vectors_0.36.0 # # [11] BiocGenerics_0.44.0 HiCDCPlus_1.6.0 # # # #通过加载一个名称空间(而不是附加):# # # # [1] backports_1.4.1 Hmisc_4.7-1 [3] BiocFileCache_2.6.0 igraph_1.3.5 # # [5] lazyeval_0.2.2 splines_4.2.1 # # [7] BiocParallel_1.32.0 ggplot2_3.3.6 # # [9] digest_0.6.30 ensembldb_2.22.0 # # [11] htmltools_0.5.3 fansi_1.0.3 # # [13] magrittr_2.0.3 checkmate_2.1.0 # # [15] memoise_2.0.1 cluster_2.1.4 # # [17] InteractionSet_1.26.0 annotate_1.76.0 # # [19] matrixStats_0.62.0 R.utils_2.12.1 # # [21] HiTC_1.42.0 prettyunits_1.1.1 # # [23] jpeg_0.1-9 colorspace_2.0-3 # # [25] blob_1.2.3 rappdirs_0.3.3 # #[27] xfun_0.34 dplyr_1.0.10 # # [29] crayon_1.5.2 rcurl_1.98 - 1.9 # # [31] jsonlite_1.8.3 genefilter_1.80.0 # # [33] survival_3.4-0 VariantAnnotation_1.44.0 # # [35] glue_1.6.2 gtable_0.3.1 # # [37] zlibbioc_1.44.0 DelayedArray_0.24.0 # # [39] scales_1.2.1 DBI_1.1.3 # # [41] Rcpp_1.0.9 xtable_1.8-4 # # [43] progress_1.2.2 htmlTable_2.4.1 # # [45] foreign_0.8 - 83 bit_4.0.4 # # [47] Formula_1.2-4 htmlwidgets_1.5.4 # # [49] httr_1.4.4 RColorBrewer_1.1-3 # # [51] ellipsis_0.3.2 farver_2.1.1 # # [53]## [63] tidyselect_1.2.0 labeling_0.4.2 ## [65] rlang_1.0.6 AnnotationDbi_1.60.0 ## [67] munsel_0.5.0 tools_4.2.1 ## [69] cachem_1.0.6 cli_3.4.1 ## [71] generics_0.17 string_1 .4.1 ## [75] fastmap_1.1.0 RSQLite_2.2.18 ## [77] knitr_1.40 bit64_4.0.5 ## [79] purrr_0.3.5 KEGGREST_1.38.0 ## [81]AnnotationFilter_1.22.0 R.oo_1.25.0 # # [83] xml2_1.3.3 biomaRt_2.54.0 # # [85] compiler_4.2.1 rstudioapi_0.14 # # [87] filelock_1.0.2 curl_4.3.3 # # [89] png_0.1-7 tibble_3.1.8 # # [91] geneplotter_1.76.0 bslib_0.4.0 # # [93] stringi_1.7.8 GenomicFeatures_1.50.0 # # [95] lattice_0.20-45 ProtGenerics_1.30.0 # # [97] Matrix_1.5-1 vctrs_0.5.0 # # [99] pillar_1.8.1 GenomicInteractions_1.32.0 # # [101] lifecycle_1.0.3 jquerylib_0.1.4 # # [103] data.table_1.14.4 bitops_1.0-7 # # [105] R6_2.5.1 BiocIO_1.8.0 # #[107] latticeExtra_0.6-30 gridExtra_2.3 # # [109] codetools_0.2-18 dichromat_2.0 - 0.1 # # [111] mass_7.3 - 58.1 assertthat_0.2.1 # # [113] SummarizedExperiment_1.28.0 DESeq2_1.38.0 # # [115] rjson_0.2.21 withr_2.5.0 # # [117] GenomicAlignments_1.34.0 Rsamtools_2.14.0 # # [119] GenomeInfoDbData_1.2.9 parallel_4.2.1 # # [121] hms_1.1.2 grid_4.2.1 # # [123] rpart_4.1.19 tidyr_1.2.1 # # [125] rmarkdown_2.17 MatrixGenerics_1.10.0 # # [127] biovizBase_1.46.0 Biobase_2.58.0 # # [129] base64enc_0.1-3 interp_1.1-3 # # [131] restfulr_0.0.15