CoV2D Browser

1UHH_1	2GCB_1	7BDV_1	Letter	Amino acid
7	19	18	S	Serine
10	32	19	T	Threonine
7	13	16	Y	Tyrosine
17	52	25	A	Alanine
9	14	26	N	Asparagine
5	24	29	Q	Glutamine
5	5	4	M	Methionine
6	22	19	R	Arginine
5	13	12	H	Histidine
6	22	17	P	Proline
19	24	19	D	Aspartic acid
8	13	15	F	Phenylalanine
6	6	5	W	Tryptophan
12	40	36	L	Leucine
15	16	21	K	Lycine
9	35	19	V	Valine
3	0	5	C	Cysteine
15	16	17	E	Glutamic acid
15	31	13	G	Glycine
12	31	31	I	Isoleucine

1UHH_1

2GCB_1

7BDV_1

Letter

Amino acid

Serine

Threonine

Tyrosine

Alanine

Asparagine

Glutamine

Methionine

Arginine

Histidine

Proline

Aspartic acid

Phenylalanine

Tryptophan

Leucine

Lycine

Valine

Cysteine

Glutamic acid

Glycine

Isoleucine

Protein code \(c\)	LZ-complexity \(\mathrm{LZ}(w)\)	Length \(n=\|w\|\)	\(\frac{\mathrm{LZ}(w)}{n /\log_{20} n}\)	\(p_w(1)\)	\(p_w(2)\)	\(p_w(3)\)	Sequence \(w=f(c)\)
1UHH , Knot	94	191	0.86	40	145	183	ANSKLTSDFDNPRWIGRHKHMFNFLDVNHNGKISLDEMVYKASDIVINNLGATPEQAKRHKDAVEAFFGGAGMKYGVETDWPAYIEGWKKLATDELEKYAKNEPTLIRIWGDALFDIVDKDQNGAITLDEWKAYTKAAGIIQSSEDCEETFRVCDIDESGQLDVDEMTRQHLGFWYTMDPACEKLYGGAVP
2GCB , Knot	177	428	0.83	38	209	396	MNYTETVAYIHSFPRLAKTGDHRRILTLLHALGNPQQQGRYIHVTGTNGKSTAANAIAHVLEASGLTVGLYTSPFIMRFNERIMIDHEPIPDAALVNAVAFVRAALERLQQQQADFNVTEFEFITALGYWYFRQRQVDVAVIEVGIGGDTDSTNVITPVVSVLTSVALDHQKLLGHTITAIAKHKAGIIKRGIPVVTGNLVPDAAAVVAAKVATTGSQWLRFDRDFSVPKAKLHGWGQRFTYEDQDGRISDLEVPLVGDYQQRNMAIAIQTAKVYAKQTEWPLTPQNIRQGLAASHWPARLEKISDTPLIVIDGAHNPDGINGLITALKQLFSQPITVIAGILADKDYAAMADRLTAAFSTVYLVPVPGTPRALPEAGYEALHEGRLKDSWQEALAASLNDVPDQPIVITGSLYLASAVRQTLLGGKS
7BDV , Knot	162	366	0.87	40	221	356	MARLDDLFIIHDTYVCLLSDHLLPNVIPVIQAPPQRVILLYTPNNKERVQRFRQATESVPTEIIEKQVHPYQYAQTQRICDEILEQFPNAILNVTGGTKIMALAAFDRFRHNHRPIIYVDSDSQRILYLHNGESERLGDPLTVKQYLACYGFKADNINRQDNLPKTWREVEDLFAQNSTKWQNQLGRLNWIAAQQQPIFTLQTGELQDLLLKANLIKPAEAKNAGFQFTSDQARQFINGGWFEHYVYSLLRQISAQYPIKNLTKNIEISNDSVSNELDVVFLYHNKLHVIECKTRHFTADGKINPMETIYKIDSVTNRVAGIKGKSMFASYYPLTQAAKKRCLNNSIYVSDQPSQLHHQLIKWINA

Protein code \(c\)

LZ-complexity \(\mathrm{LZ}(w)\)

Length \(n=|w|\)

\(\frac{\mathrm{LZ}(w)}{n /\log_{20} n}\)

\(p_w(1)\)

\(p_w(2)\)

\(p_w(3)\)

Sequence \(w=f(c)\)

1UHH , Knot

191

0.86

145

183

ANSKLTSDFDNPRWIGRHKHMFNFLDVNHNGKISLDEMVYKASDIVINNLGATPEQAKRHKDAVEAFFGGAGMKYGVETDWPAYIEGWKKLATDELEKYAKNEPTLIRIWGDALFDIVDKDQNGAITLDEWKAYTKAAGIIQSSEDCEETFRVCDIDESGQLDVDEMTRQHLGFWYTMDPACEKLYGGAVP

2GCB , Knot

177

428

0.83

209

396

MNYTETVAYIHSFPRLAKTGDHRRILTLLHALGNPQQQGRYIHVTGTNGKSTAANAIAHVLEASGLTVGLYTSPFIMRFNERIMIDHEPIPDAALVNAVAFVRAALERLQQQQADFNVTEFEFITALGYWYFRQRQVDVAVIEVGIGGDTDSTNVITPVVSVLTSVALDHQKLLGHTITAIAKHKAGIIKRGIPVVTGNLVPDAAAVVAAKVATTGSQWLRFDRDFSVPKAKLHGWGQRFTYEDQDGRISDLEVPLVGDYQQRNMAIAIQTAKVYAKQTEWPLTPQNIRQGLAASHWPARLEKISDTPLIVIDGAHNPDGINGLITALKQLFSQPITVIAGILADKDYAAMADRLTAAFSTVYLVPVPGTPRALPEAGYEALHEGRLKDSWQEALAASLNDVPDQPIVITGSLYLASAVRQTLLGGKS

7BDV , Knot

162

366

0.87

221

356

MARLDDLFIIHDTYVCLLSDHLLPNVIPVIQAPPQRVILLYTPNNKERVQRFRQATESVPTEIIEKQVHPYQYAQTQRICDEILEQFPNAILNVTGGTKIMALAAFDRFRHNHRPIIYVDSDSQRILYLHNGESERLGDPLTVKQYLACYGFKADNINRQDNLPKTWREVEDLFAQNSTKWQNQLGRLNWIAAQQQPIFTLQTGELQDLLLKANLIKPAEAKNAGFQFTSDQARQFINGGWFEHYVYSLLRQISAQYPIKNLTKNIEISNDSVSNELDVVFLYHNKLHVIECKTRHFTADGKINPMETIYKIDSVTNRVAGIKGKSMFASYYPLTQAAKKRCLNNSIYVSDQPSQLHHQLIKWINA

Let \(P_w(n)\) be the set of distinct subwords (intervals) in a word \(w\). Let \(p_w(n)\) be the cardinality of \(P_w(n)\). Let \(f(c)\) be the sequence in FASTA with 4-symbol Protein Data Bank code \(c\).

Pair	\(Z_2\)	Length of longest common subsequence
1UHH_1,2GCB_1	174	4
1UHH_1,7BDV_1	184	3
2GCB_1,7BDV_1	164	4

Pair

\(Z_2\)

Length of longest common subsequence

1UHH_1,2GCB_1

174

1UHH_1,7BDV_1

184

2GCB_1,7BDV_1

164

Newick tree

Status	Protein1	Protein2	d	d₁/2
Query variables	1UHH_1	2GCB_1	149	108.5

Status

Protein1

Protein2

d₁/2

Query variables

1UHH_1

2GCB_1

149

108.5

In notation analogous to [Theorem 16, Kjos-Hanssen, Niraula and Yoon (2022)],
\[ \delta= \alpha \mathrm{min} + (1-\alpha) \mathrm{max}= \begin{cases} d &\alpha=0,\\ d_1/2 &\alpha=1/2 \end{cases} \]

CoV2D BrowserTM

Newick tree

CoV2D Browser^TM