Articles

자동화된 평가의 일관성 버전이 들어 복합 데이터베이스

우리는 다운로드 두 세트된 버전이 들어 파일 구조에 스무의 일 2017:(i)”현재 전체”로 데이터 집합으로 구성된 94,201,188 항목 해당 two-dimensional(2D)구조에에 저장되 SDF12 형식,그리고(ii)”Compound_3D”데이터 집합으로 구성된 91,699,620 항목 해당하는 세 가지 차원(3D) 구조에에 저장되 SDF 형식입니다. “현재 전체”데이터 집합에는”합성 _3″파일에서 사용할 수 없는 메타데이터가 포함되어 있기 때문에 필요했습니다. 펍켐의 250 만 개 이상의 항목은 3 차원 구조 파일이 없었다. 흥미롭게도,152 개 이상의 원자를 가진 모든 화합물은 3 차원 구조를 갖지 않았다(그림 1). 1).그림 1:펍켐의 항목들의 원자와 질량의 수를 표시하는 히스토그램.예를 들어,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해,원자의 수를 계산하기 위해, (1)원자가 152 개 미만인 화합물에 대한 질량 히스토그램:”현재 전체”항목(2 차원 구조)에 대한 항목은 파란색으로 표시되고”화합물 _3 차원”항목에 대한 항목은 녹색으로 표시됩니다. 152 원자 컷오프는”화합물 _3″데이터 집합에서 화합물의 최대 원자 수를 기반으로 선택되었습니다. 152 개의 원자를 가진 화합물에 대한 계산. 펍켐은 이러한 화합물에 대한 3 차원 구조 정보가 포함되어 있지 않습니다. (기음)펍켐의 자위대 파일에보고 된 화합물의 질량의 히스토그램”현재 전체”항목. 그러나 11,550 개의 화합물은 2,000 다보다 질량이 높았다.원자 키랄성의 정확성을 조사하기 위해,우리는 알라티스 소프트웨어와 합성 데이터 세트를 처리했다. 이 단계는 9,100 만 개 이상의 화합물과 그 구성 원자에 대한 고유 식별자를 생성했습니다(데이터 인용 1). 각 항목에 대한 출력은 다음으로 구성됩니다: (1)모든 원자에 대한 알라티스 기반 식별자(레이블)를 포함하는 구조 파일,(2)입력 원자 레이블을 고유 원자 레이블과 연결하는 맵,(3)고유 화합물 식별자로 표준 인치 문자열을 포함하는 파일(‘인치’라고 함).’경고’라는 이름의 두 개의 텍스트 파일.오류.이 파일에는 특정 화합물의 알라티스 분석과 관련된 경고 또는 오류가 포함되어 있습니다.해당 항목에 연결된 메타데이터를 포함합니다. 메타 데이터 파일에는 펍켐이 보고한 바와 같이 펍켐 화합물 식별자,분자식,무게 및 정확한 질량 외에도 알라티스가 생성한 해당 표준 인치 문자열이 포함되어 있습니다. 우리는 각각의 화합물에 대한 웹 페이지를 생성했으며,모든 데이터에 대한 다운로드 링크가 포함되어 있습니다. 우리는 3 차원 구조의 디스플레이를 만들기 위해 소프트웨어 제이몰을 사용했다. 고유 화합물 및 원자 식별자는 펍켐 엔트리와 관련된 정보와 함께 알라티스 웹사이트를 통해 접속할 수 있다. 사용자는 이 웹 사이트의 검색 엔진을 펍켐 시드 또는 복합 이름으로 조회하여 해당 알라티스 출력을 검색할 수 있습니다.우리는 알라티스가 큐레이팅 한 데이터를 사용하여 펍켐의 각 항목에 대해 저장된 데이터의 일관성을 분석했습니다. 동의어와 메타데이터는 3 차원 구조 파일과 별도로 보관됩니다. 이 동의어는 알라티스 웹서버에서 사용자 친화적인 검색 엔진을 만드는 데 사용되었다. 메타데이터는 후속 일관성 분석을 위해 필요했습니다. 우리는 우리 연구의 두 가지 주요 결과를 아래에서 강조합니다.

간에 불합치가 있는 경우는 보관된 3D 구조와 수식

화학적 수식의 화합물에 보관된 버전이 들 일반적으로 다음과 같이 언덕 convention13 면 및 기타 핵심 부모의 구조 compound9. 그러나,펍켐 아카이브에는 1,239,752 개의 충전된 화학식들이 포함되어 있는데,여기서 전하들은 화학식 끝에 기호로 표시된다. 화합물의 핵심 부모 구조는 수소 원자의 덧셈 또는 뺄셈을 통해 전하를 부과하기 전에 화합물의 구성을 나타냅니다. 도 1 의 예에 의해 도시 된 바와 같이. 도 2 에 도시 된 바와 같이,하전 된 화학 공식으로부터 화합물의 핵심 부모 구조를 결정하는 것이 항상 가능한 것은 아니다. 이 때문에,더하기 또는 빼기 양성자의 결과 보다는 충전 화합물의 공유 구조에 본질적인 수 있습니다. 따라서,대규모 전산 처리 및 데이터베이스의 큐 레이션 화합물의 원자 조성 식별에 일관성 없는 또는 모호한 결과 이어질 수 있습니다. 이 문제는 표준 인치 문자열을 사용하여 해결할 수 있습니다. 표준 인치 문자열의 공식 층은 화합물의 핵심 부모의 구성을 제공하고,순 전하(“/큐”)및 양성자(“/피”)인치 문자열의 층은 화합물 전하를 나타냅니다. 공식에서 전하의이 분리는 화합물의 구조 파일 또는 화학 공식에 원자의 정확한 수의 추출을 용이하게뿐만 아니라 화합물과 관련된 전하의 유형을 나타내는. 우리는 표준 인치 문자열에서 추출 된 힐 형식의 해당 알라티스 공식과 함께 충전 된 화학 공식이 포함 된 펍켐 시드의 전체 목록을 작성했습니다. 이러한 데이터는 알라티스 웹사이트에서 확인할 수 있습니다.2:충전된 화학 공식이 있는 펍켐 항목의 예.2:충전된 화학 공식이 있는 펍켐 항목의 예.2:충전된 화학 공식이 있는 펍켐 항목의 예.3:충전된 화학 공식이 있는 펍켐 항목의 예.4:충전된 화학 공식이 있는 펍켐 항목의 예.4:충전된 화학 공식이 있는 펍켐 항목의 예.2018 년 11 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 이 항목에 대한 보관 된 화학 공식은 다음과 같습니다. 이 공식은 양으로 하전 된 화합물에 17 개의 수소 원자를 나타냅니다. 그러나,이 화합물의 핵심 부모 구조는 단지 16 개의 수소 원자를 포함한다;추가 수소는 하전 된 형태의 화합물의 양성자 화로 인해 발생합니다. 이 화합물에 대한 알라 티스 공식은 16 개의 수소 원자를 갖는 정확한 원자 조성을 보여 주며,추가 수소는 해당 인치 문자열에 표시됩니다(층”/피”)”인치=1 초/씨 15 시 16 분/씨 16 시 16 분/씨 16 시 16 분/씨 16 시 16 분/씨 16 시 16 분/씨 16 시 16 분-15(17)11-5-4-8-13(9-11)23(21,22)18-10-14(20)19-12-6-2-1-3-7-12/2018 년 10 월 18 일(화)~2018 년 10 월 2 일(화)~2018 년 10 월 2 일(화)~2018 년 10 월 2 일(화)~2018 년 10 월 2 일(화) (비)펍켐 시드 91124997. 이 화합물에 대한 화학 공식은 다음과 같습니다. 이 경우 양전하는 4 차 질소에서 발생하며 화합물의 올바른 조성은 16 개의 수소 원자를 포함하며 이는 펍 켐의 공식과 일치합니다. 이 화합물에 대한 알라 티스 공식은 16 개의 수소 원자(씨 15 시 16 분)를 나타내며,해당 표준 인치 문자열의 전하 층(“/큐”)으로 표시됩니다.-11-6-5-9-15-14-8-4-3-7-13(14)10-12(2)16(11)15/10,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,0002013 년 10 월 15 일(토)부터 2013 년 12 월 15 일(일)까지,2013 년 12 월 15 일(일)까지,2013 년 12 월 15 일(일)까지,2013 년 12 월 15 일(일)까지,2013 년 12 월 15 일(일)까지,2013 년 12 월 15 일(일)까지,2013 년 12 월 15 일(일)까지,2013 년 12 월 15 일(일)까지,2013 년 12 월 15 일(일)까지,2013 년 12 월 15 일(일)까지,2013 년 표준 인치 문자열은 서로 다른 데이터베이스의 항목을 상호 참조하는 데 사용할 수 있는 고유한 복합 식별자를 나타냅니다. 이러한 문자열은 화합물 수식,무거운 원자 사이의 공유 연결성,무거운 원자와 관련된 수소 원자의 수,키랄성을 나타내는 레이어 및 동위 원소 표지 된 원자 및 화합물 차수와 관련된 다른 레이어를 포함한 여러 정보 레이어로 구성됩니다 9. 우리는 알라티스를 이용해 펍켐에 입금된 3 차원 구조 파일을 처리했고,해당 입금된 인치 문자열이 알라티스가 보고한 것과 일치하지 않는 플래그가 지정된 항목을 처리했다. 표 1 은 플래그가 지정된 펍켐 항목의 다른 범주를 보여줍니다. 이 표에서’원자 연결’범주는(에이)무거운 원자 사이의 공유 연결(에보고”/씨”인치 문자열의 레이어)또는(비)무거운 원자에 할당 된 수소 원자의 수(“/에이”인치 문자열의 레이어)의 불일치로 인해 플래그가 지정된 항목 수를보고합니다. ‘요금’범주는 다른(드)양성자(“/피”인치 층)또는 고유 공유 전하(“/큐”층)를 나타내는 플래그가 지정된 항목의 수를보고합니다. ‘입체화학’범주는 그들의 불일치 때문에 플래그가 지정된 항목의 수를 보여줍니다(에이)”/비”화합물의 에스 2 이중 결합 입체화학을보고 인치 문자열의 레이어,또는(비)인치”/티”키랄 센터의 방향을보고 레이어. 우리는 화합물이 플래그 및 여러 범주에보고 될 수 있습니다. 전체 분석 결과 32,036,565 개의 항목(3 차원 구조를 가진 펍켐 항목의 약 33%)이 보관된 인치 문자열과 알라티스가 해당 3 차원 구조에서 생성한 항목 간에 불일치하는 것으로 표시되었습니다. 입체 화학의 부적절한 표현은 불일치,전하 및 원자 연결성에 대한 가장 일반적인 이유였습니다(표 1). 이 플래그 항목의 전체 목록은 우리의 웹 사이트에보고됩니다.1.”회사”는”회원”의”서비스”에 접속하여 이 약관에 따라”회사”가 제공하는 서비스를 받는 회원 및 비회원을 말합니다.우리는 플래그 불일치의 세 가지 범주에서 예를 아래에 제공합니다.상술한 바와 같이,표준 인치 스트링의 층”/씨”및”/에이치”는 무거운 원자의 연결성 및 무거운 원자에 관련된 수소 원자의 수를 각각 나타낸다. 도 1 에 도시 된 펍켐 항목. 도 3 은 3 차원 구조 파일 및 증착된 인치 스트링이 무거운 원자들 사이의 뚜렷한 공유 결합을 나타내는 경우를 예시한다. 3 차원 구조의 정확한 식별 화합물의 기능 조사에 필수적이 고 불일치의이 범주는 잘못 된 결론으로 이어질 수 있습니다.그림 3:무거운 원자 연결 계층의 불일치.이러한 인치 문자열과 데이터베이스의 증착된 인치 문자열을 비교함으로써,우리는 연결 계층이 일치하지 않는 화합물을 확인했다. 이 그림은 펍켐 시드 12300268 에 대한 이러한 불일치의 예를 보여줍니다. (에이)항목에 대한 증착 된 3 차원 구조의 표현. (비)증착 된 인치 문자열에서 표현. 우리는 공유 결합이 두 구조 사이에 다르다는 것을 주목합니다. 보관 된 3 차원 구조의 표준 인치 문자열:인치=1S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-24(26)14-10-20/h1-8,17-18 시간,9-16 시간 2 및 증착 된 인치 문자열:인치=1S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-24(14-10-20)26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-26/h1-8,17-18 시간,9-16 시간 2. 굵게 글꼴 인치 레이어는 두 인치 문자열에서 무거운 원자의 연결 사이의 불일치를 나타냅니다.상기 언급된 바와 같이,화합물의 양성자화 또는 고유 공유 결합 전하에 의한 별개의 전하가 인치 스트링의”/피”및”/큐”층에 표시된다. 이것은 프로그래밍 언어와 컴파일러를 내장합니다.. 그림 4 는 이 범주의 예를 보여줍니다.그림 4:담당 불일치.2179800 에 보관된 3 차원 구조 파일의 표현입니다. (비)그 화합물에 저장된 인치 문자열의 구조적 표현:”인치=1 에스/씨 15.-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/100-100”. 알라티스가 보고한 구조 파일의 구조물에 대한 표준 인치 문자열은”인치=1 초/초/초/초/초/초/초/초/초/초/초/초/초/초/초/초/초/초/초/초/초/초/초/초/초/초/초/초/초/초/초/초-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/100%년.1)이중결합의 불일치 이중결합의 불일치 이중결합에 대한 화합물의 구조의 배향은,구성이 시스 또는 트랜스인지 여부에 관계없이,표준 인치 문자열에서 정확하게 포착된다. 이러한 방향은 3 차원 구조에서만 식별 할 수 있으며 인치 문자열의”/비”레이어에 표시됩니다. 도 5 에 도시된 펍켐 화합물은 보관된 3 차원 구조의 구성과 연관된 인치 문자열 간의 불일치의 예를 나타낸다. 이는 화합물의 구성이 모호하다는 것을 나타냅니다. 그러나 보관 된 3 차원 구조는 화합물의 트랜스 구성을 나타냅니다.2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일본 발명의 실시예에 따르면,본 발명의 실시예에 따르면,본 발명의 실시예에 따르면,본 발명의 실시예에 따르면,본 발명의 실시예에 따르면,본 발명의 실시예에 따르면,본 발명의 실시예에 따르면,본 발명의 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 실시예에 따른 그러나,이 항목에 대한 보관 인치 문자열”인치=1S/C17H10N4O7S2/c22-13-3-1-11(20(25)26)5-9(13)7-15-16(24)19(17(29)30-15)18-8-10-6-12(21(27)28)2-4-14(10)23/h1-8,22-18-8?”사이의 이중 결합 주위의 모호한 방향을 나타냅니다 씨 8 과 엔 18. 그 결과 알라티스가 구조에서 생성한 인치 문자열이 보관된 인치 문자열과 일치하지 않았다.작은 분자의 입체 화학(키랄성)은 그 기능을 결정하는 데 중요한 역할을한다. 3 차원 구조를 가진 9,100 만개 이상의 펍켐 항목들 중에서 알라티스를 사용한 우리의 계산은 항목들 중 55%이상(50,508,180 개 항목)이 적어도 하나의 키랄 중심을 포함하고 있음을 나타냈다. 이러한 항목 중 약 60%(30,236,352 항목)는 펍켐에 퇴적된 인치 현의 입체화학 층과 구조에서 알라티스가 생성한 입체화학 층 사이의 불일치 때문에 분석 중에 표시되었다. 이 항목의 전체 목록은 알라티스 웹 사이트에서 액세스 할 수 있습니다. 그림 6 은 플래그가 지정된 항목의 한 예를 보여줍니다.2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일,2015 년 12 월 1 일130156427 의 예는 다음과 같습니다. (에이)화합물의 3 차원 구조를 증착. (비)증착 된 인치 문자열에서 생성 된 구조. 물결 모양의 결합(비)모호한 결합 키랄성을 나타냅니다. 이 화합물에 대한 보관 인치 문자열 때문입니다”인치=1S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-또한,상기 제제들은 상기 제제들에 의해 제조된 제제들에 의해 제조된 제제들에 의해 제조된 제제들에 의해 제조된 제제들에 의해 제조된 제제들에 의해 제조된 제제들에 의해 제조된 제제들에 의해 제조된 제제들에 의해 제조된 제제들에 의해 제조된 제제들에 의해 제조된 제제들에 의해 제조된 제제들에 의해 제조된 제제들에 의해 제조된 제제들에 의해 제조된 제제들에 의해 제조된다. 이 인치 레이어는 알라티스가 보고한 표준 인치 문자열에서 찾을 수 있습니다: “InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)/t21-/m0/s1.”