Car-tech

Google: 129 millioner forskellige bøger er blevet offentliggjort

What we learned from 5 million books

What we learned from 5 million books
Anonim

For dem der nogensinde har spekuleret på, hvor mange forskellige bøger der er derude i verden, har Google et svar for dig: 129.864.880, ifølge Leonid Taycher, en Google-softwareingeniør, der arbejder på Google Bøger-projektet.

Estimering af nummeret af bøger i verden er mere end en øvelse i nysgerrighed til søgegiganten: Den giver også en køreplan over nogle af de værker, der stadig er tilbage at gøre for at opfylde virksomhedens ambitiøse mål om at organisere alle verdensoplysninger.

"Når du er en del af et firma, der forsøger at digitalisere alle bøgerne i verden. Det første spørgsmål du ofte får er: "Hvor mange bøger er derude?", forklarede Taycher i et blogpost, der annoncerede estimatet.

[Yderligere læsning: De bedste tv-streamingtjenester]

For at komme op på en rimelig tilnærmelse begyndte virksomheden at indtage boginformation fra flere katalogiseringssystemer, som f.eks. International Standard Book Numbers (ISBN).

Sådanne kataloger giver, når det er nyttigt, ikke en endelig optælling, dog. For eksempel er ISBN'er kun blevet tildelt bøger siden 1960'erne og har tendens til kun at blive brugt i de vestlige lande.

Der er også blevet tildelt flere bøger til individuelle ISBN-numre, og udgiveren har tildelt ISBN'er til andre bøger end bøger, så som t-shirts og dvd'er.

Så Google-ingeniører har skrevet programmer til at kamme omkring 150 sådanne kataloger og mapper og eliminere så mange duplikatindgange som kunne findes.

Virksomheden havde også lavet en række tøffe beslutninger om, hvad der er og ikke er en bog, forklarede Taycher.

For eksempel tælles blødt cover og hardcover-udgaver af en tekst som to bøger, ligesom de mange forskellige versioner af en populær tekst, såsom Shakespeare's "Hamlet" på grund af de forord og kommentarer, de kan indeholde. Serier kan regnes som individuelle bøger eller som indsamlet arbejde.

I juni har virksomheden scannet 12 millioner bøger, ifølge en præsentation fra engineeringbureauet Google Books Jon Orwant på USENIXs årlige tekniske konference i Boston. Disse bøger er skrevet på omkring 480 sprog (inklusive 3 bøger i Star Trek-originale Klingon-sprog).

Virksomheden planlægger at afslutte scanningen af ​​eksisterende bøger inden for et årti. Den resulterende virtuelle samling består af fire milliarder sider og to billioner ord, Orwant sagde.

Omkring 20 procent af verdens bøger er offentligt tilgængelige, forklarede Orwant. Omkring 10 til 15 procent af disse bøger er på tryk. De resterende bøger - langt de fleste af alle titler - er stadig under ophavsret, men ikke i tryk. Google er i færd med at låne kopier af disse bøger for at digitalisere dem fra omkring 40 store biblioteker over hele verden.

Det er denne scanningshandling i bøger, der ikke er trykt, men stadig er omfattet af ophavsret, der er blevet opfyldt med en vis modstand fra forlagsbranchen.

Selskabet venter nu på en dom fra den amerikanske distriktsdomstol for det sydlige distrikt New York om, hvorvidt den kan scanne disse bøger.

I 2005 blev forfatterens guild og Foreningen for amerikanske udgivere indgav særskilt klagehandlinger mod søgegiganten og hævdede, at selskabet overtræder forfatterens ophavsret ved at scanne i bøgerne.

Google har hævdet, at det ønsker at sælge digitale kopier af disse ellers out-of- udskrive bøger og afsatte royalties for forfatterne at kræve. Virksomheden håber også at afsløre uddrag af disse bøger i websøgninger, og hævder, at denne brug falder ind under US Fair Use-doktrinen.

Scanning i alle verdens bøger vil medføre andre fordele ud over at forbedre søgninger, forklarede Orwant. Når alle disse mængder er digitaliseret, kan deres indhold underkastes analyse, som kan føre til ny indsigt. Lingvister kan opdage, når visse ord kom til udbredt brug, eller hvem der først begynder at bruge disse ord.

Google Bogsøgning kan også hjælpe med at besvare nogle fremragende historiske spørgsmål: For eksempel kunne den informere debatten om, hvorvidt Isaac Newton og Gottfried Leibniz - eller nogen andre - opfandt beregninger.

"Vi kan søge ikke kun for en sætning men for et koncept, "forklarede Orwant. "Vi kan tage alle de forskellige måder [at ideen om uendelighed kan bøjes, oversætte det til forskellige sprog og foretage en søgning parallelt.«

"Mit håb er, at når vi begynder at afsløre en hel del mere af Denne samling vil give folk mulighed for at stille spørgsmål som dette, som de ikke har kunnet spørge før, siger han.

IDG News Service redaktør Juan Carlos Perez har bidraget til denne rapport.

Joab Jackson dækker firmware og generel teknologi breaking news for IDG News Service. Følg Joab på Twitter på @Joab_Jackson. Joabs e-mail-adresse er [email protected]